Evaluadores de experimentos

La ejecución de evaluadores no está habilitada en la versión actual de experimentos. Los conjuntos de datos ya pueden almacenar expected_output, pero Fetch Hive aún no ejecuta puntuación automática ni verificaciones de aprobado/reprobado a partir de él.

Comportamiento actual

Cuando subes un conjunto de datos, expected_output se almacena con cada fila. Úsalo durante la revisión manual y la comparación de filas. Actualmente, ningún evaluador de coincidencia exacta se ejecuta automáticamente.

Tipos de evaluadores planeados

El soporte futuro para evaluadores puede incluir:

Tipo de evaluador	Caso de uso
Coincidencia exacta	Compara estrictamente la salida con la salida esperada
Contiene	Verifica si la salida incluye el texto requerido
Regex	Verifica la salida contra un patrón
Coincidencia de campo JSON	Compara campos específicos en una salida estructurada
Validación de esquema	Confirma que la salida sigue un esquema JSON requerido
Juez LLM	Puntúa la corrección semántica, la calidad del razonamiento, el seguimiento de instrucciones o la finalización de tareas
Evaluador personalizado	Ejecuta lógica de evaluación definida en el espacio de trabajo

¿Cómo debo preparar los conjuntos de datos para los evaluadores?

Agrega expected_output cuando tengas una respuesta conocida. Usa columnas metadata.* para agrupar filas por tema, prioridad, origen, idioma o ID de caso. Mantén las salidas esperadas concisas cuando esperes verificaciones de coincidencia exacta o “contiene”. Usa JSON estructurado en expected_output cuando las verificaciones a nivel de campo futuras sean útiles. Ejemplo:

question,expected_output,metadata.case_id,metadata.topic
"Return the country code for Japan.","JP","locale-001","localization"

Consulta también: Conjuntos de datos y Revisar resultados

Resultados de experimentos Análisis de ejecuciones

​Evaluadores de experimentos

​Comportamiento actual

​Tipos de evaluadores planeados

​¿Cómo debo preparar los conjuntos de datos para los evaluadores?

Evaluadores de experimentos

Comportamiento actual

Tipos de evaluadores planeados

¿Cómo debo preparar los conjuntos de datos para los evaluadores?