概述

当你想在同一组输入上比较提示词或智能体时,使用 Experiments。实验允许你：

上传或选择数据集
添加控制台提示词、已部署提示词和智能体候选项
让每个数据集行对每个候选项运行
在一处查看输出、用量、成本和失败情况

实验在以下场景中很有用：在发布更改前测试质量,或比较模型、提示词版本、已部署提示词变体和智能体配置。

你将在此找到

数据集 — 上传 CSV 文件、映射列并理解数据集格式
添加候选项 — 添加控制台提示词、已部署提示词和智能体
构建实验 — 创建实验并为运行做好准备
运行实验 — 启动、跟踪和取消实验运行
查看结果 — 比较输出、打开请求详情并检查失败
运行分析 — 比较运行的成本、token、延迟和成功率
评估器 — 了解当前评估器状态和规划中的评估器类型

实验如何工作

一个实验将数据集与一个或多个候选项组合起来。 数据集是一组行。每行包含输入值、可选的期望输出和可选的元数据。 候选项是你想测试的提示词或智能体。Fetch Hive 在你添加候选项时捕获快照,因此日后对来源的编辑不会改变实验内的该候选项。运行针对候选项执行数据集。如果你有 100 个数据集行和三个候选项,那次运行就有 300 个结果单元。你当前的套餐限制了新运行可以创建多少个结果单元。即使你的套餐发生变化,现有的实验和过去的运行仍然可用,但新的运行必须符合你当前的套餐。每个结果单元存储候选项输出、状态、时长、用量、成本,以及在可用时指向请求详情的链接。

当前范围

实验目前运行控制台提示词草稿、提示词版本、已部署提示词版本和智能体快照。智能体快照会作为隔离的单次调用运行。它们不会写入源智能体的控制台聊天历史,并且每个数据集行都不会继承其他行的记忆。工作流候选项、评估器执行、实验级模型覆盖以及自定义评估器代码计划在未来加入。不受支持的旧候选项可能仍会因历史记录而显示；开始新运行前请先归档它们。另请参阅：提示词、发布与版本管理和日志历史

日志实验数据集

​概述

​你将在此找到

​实验如何工作

​当前范围

概述

你将在此找到

实验如何工作

当前范围