运行分析
在实验运行详情页上使用运行分析,以比较候选项在该特定运行中的表现。 运行分析基于已存储的实验结果单元计算。它们不会重新运行提示词或智能体,也不会读取当前的源提示词或智能体配置。范围
运行分析的范围限定在一次实验运行内。 当你想在相同数据集版本和运行条件下比较候选项时使用它。指标
| 指标 | 含义 |
|---|---|
| 成功率 | 已完成的结果单元数除以所选范围内的全部结果单元数 |
| 总成本 | 所有所选结果单元的存储成本 |
| 平均成本 | 总成本除以所选结果单元数 |
| 总 token 数 | 所有所选结果单元的存储 token 用量 |
| 输入 token 数 | 存储的输入 token 用量 |
| 输出 token 数 | 存储的输出 token 用量 |
| 平均 token 数 | 总 token 数除以所选结果单元数 |
| 平均时长 | 已完成结果单元的平均时长 |
| p95 时长 | 已完成结果单元时长的 95 分位 |
候选项图表
候选项图表按实验候选项对结果进行分组。 使用这些图表可比较:- 最便宜的候选项
- 最快的候选项
- 最慢的候选项
- 高 token 候选项
- 失败较多的候选项
元数据筛选
分析可按数据集行元数据筛选。 例如,如果你的 CSV 中包含metadata.topic,你可以将分析筛选到某个特定话题,仅比较这些行上的候选项。
元数据筛选使用的是实验运行中的数据集行元数据,而非请求元数据。

