Resultados de experimentos
Usa los resultados de ejecución para comparar el comportamiento de los candidatos a través de las filas del conjunto de datos. La vista predeterminada es una tabla de celdas de resultado. Cada fila representa una fila del conjunto de datos ejecutada contra un candidato.Columnas de resultados
Las tablas de resultados pueden incluir:| Columna | Significado |
|---|---|
| Fila del conjunto de datos | La posición de la fila en la versión del conjunto de datos |
| Candidato | El candidato de prompt o agente |
| Estado | Pendiente, en ejecución, completado, fallido, cancelado u otro estado de ejecución |
| Vista previa de la salida | Vista previa corta de la salida generada |
| Duración | Tiempo dedicado a la celda de resultado |
| Tokens | Uso de tokens cuando esté disponible |
| Costo | Costo registrado para la celda de resultado |
| ID de solicitud | La solicitud vinculada creada por el flujo normal de ejecución del prompt o agente |
¿Cómo filtro los resultados?
Usa los filtros en la parte superior de la vista de resultados. Puedes filtrar por candidato, estado, fila del conjunto de datos o búsqueda de texto. Usa filtros cuando quieras enfocarte en fallos, comparar un candidato a la vez o inspeccionar un caso específico.¿Cómo exporto los resultados?
Haz clic en Export CSV desde la tabla de resultados de la ejecución. La exportación incluye cada resultado que coincide con los filtros actuales, no solo la página visible. Las exportaciones CSV incluyen entradas del conjunto de datos, salida esperada, metadatos, detalles del candidato, texto de salida o de error, IDs de solicitud, temporización, uso de tokens, costo y marcas de tiempo.¿Cómo inspecciono un resultado?
Haz clic en una fila de resultado. Fetch Hive abre la misma hoja de detalle de solicitud usada en el área de registros normal. Esto mantiene la revisión de experimentos alineada con la inspección de solicitudes en vivo de prompts, flujos de trabajo y agentes, en lugar de usar una superficie de detalle exclusiva para experimentos. Usa los detalles de la solicitud cuando necesites ajustes del proveedor, entradas, metadatos, disponibilidad de trazas, costo, información de temporización, completaciones, ejecuciones de flujo de trabajo o contexto de ejecución del agente. Si un resultado falló antes de que se creara una solicitud, la fila permanece visible con el estado de fallo y cualquier resumen de salida o error almacenado.Cómo aparece la salida esperada
Si la fila del conjunto de datos incluyeexpected_output, úsalo como la respuesta de referencia al revisar resultados.
La ejecución de evaluadores aún no está habilitada. Esto significa que Fetch Hive actualmente no marca un resultado como correcto o incorrecto automáticamente.
Consulta también: Conjuntos de datos, Ejecutar un experimento e Historial de registros
