跳转到主要内容

运行实验

一次实验运行会针对每个活跃候选项执行每个数据集行。 如果你的数据集有 250 行且实验有四个候选项,该次运行会创建 1,000 个结果单元。 你当前的套餐限制了新运行可以创建多少个结果单元:
  • Developer:50 个结果单元
  • Growth:250 个结果单元
  • Pro:1,000 个结果单元
  • Enterprise:5,000 个结果单元
如果你的套餐发生变化,现有的实验和过去的运行仍然可用。新的运行会使用你当前的套餐上限,因此原本在 Pro 套餐能跑的运行,降级后可能需要更少的数据集行或候选项。

如何开始一次运行?

打开实验。 点击 Start run 确认数据集版本。 查看候选项数量和总结果单元数。 点击 Start run

计费和用量

实验生成使用正常的模型执行和计费。 总运行成本取决于:
  • 数据集行数
  • 候选项数量
  • 模型设置
  • 工具使用
  • 仍然产生可计费提供商工作的重试或失败
在启动大型运行前请检查结果单元数量。

跟踪进度

当一次运行处于活跃状态时,Fetch Hive 会显示运行状态、阶段、已完成数、失败数、待处理数、token 总数、成本和时长。 数据集较大或候选项使用较慢的模型或工具时,运行可能需要更长时间。 每次运行都有一个稳定的 run ID,例如 exrun_a1b2c3d4e5f6。在与团队分享运行链接或将控制台活动与 API 响应进行匹配时使用此 ID。

取消运行

打开该运行。 当运行仍处于待处理或运行中时,点击 Cancel run 取消会尽可能停止剩余工作。已完成的结果仍然可用。

失败的单元

失败的结果单元并不总是意味着整个运行都失败了。 打开结果详情查看错误。常见原因包括输入缺失、模型不可用、提供商失败、工具失败,或候选项中的配置问题。 另请参阅:查看结果任务成本