运行分析

在实验运行详情页上使用运行分析,以比较候选项在该特定运行中的表现。运行分析基于已存储的实验结果单元计算。它们不会重新运行提示词,也不会读取当前的源提示词配置。

范围

运行分析的范围限定在一次实验运行内。当你想在相同数据集版本和运行条件下比较候选项时使用它。

指标

指标	含义
成功率	已完成的结果单元数除以所选范围内的全部结果单元数
总成本	所有所选结果单元的存储成本
平均成本	总成本除以所选结果单元数
总 token 数	所有所选结果单元的存储 token 用量
输入 token 数	存储的输入 token 用量
输出 token 数	存储的输出 token 用量
平均 token 数	总 token 数除以所选结果单元数
平均时长	已完成结果单元的平均时长
p95 时长	已完成结果单元时长的 95 分位

失败的结果单元仍计入状态统计。如果失败的单元在失败前记录了成本或 token,这些值仍会包含在成本和 token 总计中。时长的平均值和分位仅使用已完成的结果单元。

候选项图表

候选项图表按实验候选项对结果进行分组。使用这些图表可比较：

最便宜的候选项
最快的候选项
最慢的候选项
高 token 候选项
失败较多的候选项

元数据筛选

分析可按数据集行元数据筛选。例如,如果你的 CSV 中包含 metadata.topic,你可以将分析筛选到某个特定话题,仅比较这些行上的候选项。元数据筛选使用的是实验运行中的数据集行元数据,而非请求元数据。

TTFT

实验分析中尚未显示 Time to first token（首 token 时间）。 Fetch Hive 当前为实验结果显示可靠的存储时长、成本、token 和状态指标。在首 token 时间能够在控制台提示词和已部署提示词调用之间一致捕获后,TTFT 会被添加进来。另请参阅：查看结果、运行实验和数据集

实验评估器 Overview

​运行分析

​范围

​指标

​候选项图表

​元数据筛选

​TTFT

运行分析

范围

指标

候选项图表

元数据筛选

TTFT