Análisis de ejecuciones

Usa el análisis de ejecuciones en la página de detalle de una ejecución de experimento para comparar el desempeño de los candidatos dentro de esa ejecución específica. El análisis de ejecuciones se calcula a partir de las celdas de resultado almacenadas del experimento. No vuelve a ejecutar prompts ni lee la configuración actual del prompt de origen.

Alcance

El análisis de ejecuciones tiene como alcance una sola ejecución de experimento. Úsalo cuando quieras comparar candidatos en la misma versión del conjunto de datos y bajo las mismas condiciones de ejecución.

Métricas

Métrica	Significado
Tasa de éxito	Celdas de resultado completadas divididas por todas las celdas de resultado en el alcance seleccionado
Costo total	Costo almacenado para todas las celdas de resultado seleccionadas
Costo promedio	Costo total dividido por la cantidad de celdas de resultado seleccionadas
Tokens totales	Uso de tokens almacenado para todas las celdas de resultado seleccionadas
Tokens de entrada	Uso de tokens de entrada almacenado
Tokens de salida	Uso de tokens de salida almacenado
Tokens promedio	Tokens totales divididos por la cantidad de celdas de resultado seleccionadas
Duración promedio	Duración promedio para celdas de resultado completadas
Duración p95	Duración del percentil 95 para celdas de resultado completadas

Las celdas de resultado fallidas aún cuentan en los totales por estado. Si una celda fallida registró costo o tokens antes de fallar, esos valores siguen incluidos en los totales de costo y tokens. Los promedios y percentiles de duración solo usan celdas de resultado completadas.

Gráficos por candidato

Los gráficos por candidato agrupan los resultados por candidato del experimento. Usa estos gráficos para comparar:

el candidato más económico
el candidato más rápido
el candidato más lento
candidatos con alto uso de tokens
candidatos con más fallos

Filtros por metadatos

Los análisis pueden filtrarse por metadatos de fila del conjunto de datos. Por ejemplo, si tu CSV incluye metadata.topic, puedes filtrar los análisis a un tema específico y comparar candidatos solo para esas filas. Los filtros de metadatos usan los metadatos de fila del conjunto de datos de la ejecución del experimento, no los metadatos de la solicitud.

TTFT

El tiempo hasta el primer token aún no se muestra en los análisis de experimentos. Fetch Hive actualmente muestra métricas confiables almacenadas de duración, costo, tokens y estado para los resultados de experimentos. El TTFT se agregará después de que la temporización del primer token se capture de manera consistente en los prompts del panel y las invocaciones de prompts desplegados. Consulta también: Revisar resultados, Ejecutar un experimento y Conjuntos de datos

Evaluadores de experimentos Overview

​Análisis de ejecuciones

​Alcance

​Métricas

​Gráficos por candidato

​Filtros por metadatos

​TTFT