Saltar al contenido principal

Análisis de ejecuciones

Usa el análisis de ejecuciones en la página de detalle de una ejecución de experimento para comparar el desempeño de los candidatos dentro de esa ejecución específica. El análisis de ejecuciones se calcula a partir de las celdas de resultado almacenadas del experimento. No vuelve a ejecutar prompts ni agentes, y no lee la configuración actual del prompt o agente de origen.

Alcance

El análisis de ejecuciones tiene como alcance una sola ejecución de experimento. Úsalo cuando quieras comparar candidatos en la misma versión del conjunto de datos y bajo las mismas condiciones de ejecución.

Métricas

MétricaSignificado
Tasa de éxitoCeldas de resultado completadas divididas por todas las celdas de resultado en el alcance seleccionado
Costo totalCosto almacenado para todas las celdas de resultado seleccionadas
Costo promedioCosto total dividido por la cantidad de celdas de resultado seleccionadas
Tokens totalesUso de tokens almacenado para todas las celdas de resultado seleccionadas
Tokens de entradaUso de tokens de entrada almacenado
Tokens de salidaUso de tokens de salida almacenado
Tokens promedioTokens totales divididos por la cantidad de celdas de resultado seleccionadas
Duración promedioDuración promedio para celdas de resultado completadas
Duración p95Duración del percentil 95 para celdas de resultado completadas
Las celdas de resultado fallidas aún cuentan en los totales por estado. Si una celda fallida registró costo o tokens antes de fallar, esos valores siguen incluidos en los totales de costo y tokens. Los promedios y percentiles de duración solo usan celdas de resultado completadas.

Gráficos por candidato

Los gráficos por candidato agrupan los resultados por candidato del experimento. Usa estos gráficos para comparar:
  • el candidato más económico
  • el candidato más rápido
  • el candidato más lento
  • candidatos con alto uso de tokens
  • candidatos con más fallos

Filtros por metadatos

Los análisis pueden filtrarse por metadatos de fila del conjunto de datos. Por ejemplo, si tu CSV incluye metadata.topic, puedes filtrar los análisis a un tema específico y comparar candidatos solo para esas filas. Los filtros de metadatos usan los metadatos de fila del conjunto de datos de la ejecución del experimento, no los metadatos de la solicitud.

TTFT

El tiempo hasta el primer token aún no se muestra en los análisis de experimentos. Fetch Hive actualmente muestra métricas confiables almacenadas de duración, costo, tokens y estado para los resultados de experimentos. El TTFT se agregará después de que la temporización del primer token se capture de manera consistente en los prompts del panel, las invocaciones de prompts desplegados y los agentes. Consulta también: Revisar resultados, Ejecutar un experimento y Conjuntos de datos