Saltar al contenido principal

Resumen

Usa Experiments cuando quieras comparar prompts o agentes contra el mismo conjunto de entradas. Un experimento te permite:
  • subir o seleccionar un conjunto de datos
  • agregar candidatos de prompt y agente
  • ejecutar cada fila del conjunto de datos contra cada candidato
  • revisar salidas, uso, costo y fallos en un solo lugar
Los experimentos son útiles cuando quieres probar la calidad antes de publicar un cambio, comparar modelos o enfoques de prompt, o ejecutar los mismos casos contra un agente y un prompt.

Qué encontrarás aquí

Cómo funcionan los experimentos

Un experimento combina un conjunto de datos con uno o más candidatos. Un conjunto de datos es un conjunto de filas. Cada fila contiene valores de entrada, una salida esperada opcional y metadatos opcionales. Un candidato es el prompt o agente que quieres probar. Fetch Hive captura una instantánea cuando agregas el candidato, por lo que las ediciones posteriores al prompt o agente de origen no cambian ese candidato dentro del experimento. Una ejecución ejecuta el conjunto de datos contra los candidatos. Si tienes 100 filas en el conjunto de datos y tres candidatos, la ejecución tiene 300 celdas de resultado. Tu plan actual limita cuántas celdas de resultado puede crear una nueva ejecución. Los experimentos existentes y las ejecuciones pasadas siguen disponibles si tu plan cambia, pero las nuevas ejecuciones deben ajustarse a tu plan actual. Cada celda de resultado almacena la salida del candidato, el estado, la duración, el uso, el costo y los enlaces a los detalles de la solicitud cuando estén disponibles.

Alcance actual

Los experimentos actualmente se enfocan en prompts y agentes. La carga de conjuntos de datos admite archivos CSV en el panel. Las importaciones del lado del servidor, la ejecución de evaluadores, los candidatos de flujo de trabajo, las sobrescrituras locales de modelo del experimento y el código de evaluador personalizado son adiciones futuras planeadas. Consulta también: Prompts, Agentes e Historial de registros