跳转到主要内容

概述

当你想在同一组输入上比较提示词或智能体时,使用 Experiments 实验允许你:
  • 上传或选择数据集
  • 添加提示词和智能体候选项
  • 让每个数据集行对每个候选项运行
  • 在一处查看输出、用量、成本和失败情况
实验在以下场景中很有用:在发布更改前测试质量、比较模型或提示词方案、或在同一组用例上同时运行智能体和提示词。

你将在此找到

  • 数据集 — 上传 CSV 文件、映射列并理解数据集格式
  • 添加候选项 — 添加控制台提示词、已部署提示词和智能体
  • 构建实验 — 创建实验并为运行做好准备
  • 运行实验 — 启动、跟踪和取消实验运行
  • 查看结果 — 比较输出、打开请求详情并检查失败
  • 运行分析 — 比较运行的成本、token、延迟和成功率
  • 评估器 — 了解当前评估器状态和规划中的评估器类型

实验如何工作

一个实验将数据集与一个或多个候选项组合起来。 数据集是一组行。每行包含输入值、可选的期望输出和可选的元数据。 候选项是你想测试的提示词或智能体。Fetch Hive 在你添加候选项时捕获快照,因此日后对源提示词或智能体的编辑不会改变实验内的该候选项。 运行针对候选项执行数据集。如果你有 100 个数据集行和三个候选项,那次运行就有 300 个结果单元。 你当前的套餐限制了新运行可以创建多少个结果单元。即使你的套餐发生变化,现有的实验和过去的运行仍然可用,但新的运行必须符合你当前的套餐。 每个结果单元存储候选项输出、状态、时长、用量、成本,以及在可用时指向请求详情的链接。

当前范围

实验目前面向提示词和智能体。 数据集上传支持在控制台中上传 CSV 文件。服务端导入、评估器执行、工作流候选项、实验级模型覆盖以及自定义评估器代码计划在未来加入。 另请参阅:提示词智能体日志历史