运行实验

一次实验运行会针对每个活跃候选项执行每个数据集行。如果你的数据集有 250 行且实验有四个候选项,该次运行会创建 1,000 个结果单元。你当前的套餐限制了新运行可以创建多少个结果单元：

Developer：50 个结果单元
Growth：250 个结果单元
Pro：1,000 个结果单元
Enterprise：5,000 个结果单元

如果你的套餐发生变化,现有的实验和过去的运行仍然可用。新的运行会使用你当前的套餐上限,因此原本在 Pro 套餐能跑的运行,降级后可能需要更少的数据集行或候选项。

如何开始一次运行？

打开实验。点击 Start run。确认数据集版本。查看候选项数量和总结果单元数。点击 Start run。

计费和用量

实验生成使用正常的模型执行和计费。总运行成本取决于：

数据集行数
候选项数量
模型设置
工具使用
仍然产生可计费提供商工作的重试或失败

在启动大型运行前请检查结果单元数量。

跟踪进度

当一次运行处于活跃状态时,Fetch Hive 会显示运行状态、阶段、已完成数、失败数、待处理数、token 总数、成本和时长。数据集较大或候选项使用较慢的模型或工具时,运行可能需要更长时间。智能体快照候选项可能比提示词候选项耗时更久,因为它们可能会调用工具。Fetch Hive 会用更长的 worker 超时运行这些单元,并让每一行都与源智能体聊天历史保持隔离。每次运行都有一个稳定的 run ID,例如 exrun_a1b2c3d4e5f6。在与团队分享运行链接或将控制台活动与 API 响应进行匹配时使用此 ID。

取消运行

打开该运行。当运行仍处于待处理或运行中时,点击 Cancel run。取消会尽可能停止剩余工作。已完成的结果仍然可用。

失败的单元

失败的结果单元并不总是意味着整个运行都失败了。打开结果详情查看错误。常见原因包括输入缺失、模型不可用、提供商失败、工具失败,或候选项中的配置问题。另请参阅：查看结果和任务成本

构建实验实验结果

​运行实验

​如何开始一次运行？

​计费和用量

​跟踪进度

​取消运行

​失败的单元