跳转到主要内容

运行分析

在实验运行详情页上使用运行分析,以比较候选项在该特定运行中的表现。 运行分析基于已存储的实验结果单元计算。它们不会重新运行提示词或智能体,也不会读取当前的源提示词或智能体配置。

范围

运行分析的范围限定在一次实验运行内。 当你想在相同数据集版本和运行条件下比较候选项时使用它。

指标

指标含义
成功率已完成的结果单元数除以所选范围内的全部结果单元数
总成本所有所选结果单元的存储成本
平均成本总成本除以所选结果单元数
总 token 数所有所选结果单元的存储 token 用量
输入 token 数存储的输入 token 用量
输出 token 数存储的输出 token 用量
平均 token 数总 token 数除以所选结果单元数
平均时长已完成结果单元的平均时长
p95 时长已完成结果单元时长的 95 分位
失败的结果单元仍计入状态统计。如果失败的单元在失败前记录了成本或 token,这些值仍会包含在成本和 token 总计中。 时长的平均值和分位仅使用已完成的结果单元。

候选项图表

候选项图表按实验候选项对结果进行分组。 使用这些图表可比较:
  • 最便宜的候选项
  • 最快的候选项
  • 最慢的候选项
  • 高 token 候选项
  • 失败较多的候选项

元数据筛选

分析可按数据集行元数据筛选。 例如,如果你的 CSV 中包含 metadata.topic,你可以将分析筛选到某个特定话题,仅比较这些行上的候选项。 元数据筛选使用的是实验运行中的数据集行元数据,而非请求元数据。

TTFT

实验分析中尚未显示 Time to first token(首 token 时间)。 Fetch Hive 当前为实验结果显示可靠的存储时长、成本、token 和状态指标。在首 token 时间能够在控制台提示词、已部署提示词调用和智能体之间一致捕获后,TTFT 会被添加进来。 另请参阅:查看结果运行实验数据集