Saltar al contenido principal

Evaluadores de experimentos

La ejecución de evaluadores no está habilitada en la versión actual de experimentos. Los conjuntos de datos ya pueden almacenar expected_output, pero Fetch Hive aún no ejecuta puntuación automática ni verificaciones de aprobado/reprobado a partir de él.

Comportamiento actual

Cuando subes un conjunto de datos, expected_output se almacena con cada fila. Úsalo durante la revisión manual y la comparación de filas. Actualmente, ningún evaluador de coincidencia exacta se ejecuta automáticamente.

Tipos de evaluadores planeados

El soporte futuro para evaluadores puede incluir:
Tipo de evaluadorCaso de uso
Coincidencia exactaCompara estrictamente la salida con la salida esperada
ContieneVerifica si la salida incluye el texto requerido
RegexVerifica la salida contra un patrón
Coincidencia de campo JSONCompara campos específicos en una salida estructurada
Validación de esquemaConfirma que la salida sigue un esquema JSON requerido
Juez LLMPuntúa la corrección semántica, la calidad del razonamiento, el seguimiento de instrucciones o la finalización de tareas
Evaluador personalizadoEjecuta lógica de evaluación definida en el espacio de trabajo

¿Cómo debo preparar los conjuntos de datos para los evaluadores?

Agrega expected_output cuando tengas una respuesta conocida. Usa columnas metadata.* para agrupar filas por tema, prioridad, origen, idioma o ID de caso. Mantén las salidas esperadas concisas cuando esperes verificaciones de coincidencia exacta o “contiene”. Usa JSON estructurado en expected_output cuando las verificaciones a nivel de campo futuras sean útiles. Ejemplo:
question,expected_output,metadata.case_id,metadata.topic
"Return the country code for Japan.","JP","locale-001","localization"
Consulta también: Conjuntos de datos y Revisar resultados