跳转到主要内容

实验结果

使用运行结果在数据集行之间比较候选项的行为。 默认视图是一个结果单元表。每一行代表对某个候选项运行的一个数据集行。

结果列

结果表可包含:
含义
数据集行数据集版本中的行位置
候选项提示词或智能体候选项
状态待处理、运行中、已完成、失败、已取消或其他运行状态
输出预览生成输出的简短预览
时长该结果单元花费的时间
Token可用时显示 token 用量
成本该结果单元记录的成本
Request ID由普通提示词或智能体执行流程创建的关联请求

如何筛选结果?

使用结果视图顶部的筛选器。 你可以按候选项、状态、数据集行或文本搜索进行筛选。 当你想聚焦失败、一次比较一个候选项,或检查特定用例时使用筛选器。

如何导出结果?

从运行结果表点击 Export CSV 导出会包含所有匹配当前筛选条件的结果,而不仅是当前可见页。 CSV 导出包含数据集输入、期望输出、元数据、候选项详情、输出或错误文本、Request ID、计时、token 用量、成本和时间戳。

如何检查结果?

点击结果行。 Fetch Hive 会打开与普通日志区域所用相同的请求详情面板。这让实验审阅与实时的提示词、工作流和智能体请求检查保持一致,而不是使用单独的实验专用详情界面。 当你需要查看提供商设置、输入、元数据、trace 可用性、成本、计时信息、completions、工作流运行或智能体运行上下文时,使用请求详情。 如果某个结果在请求创建之前就失败了,该行仍可见,显示失败状态以及任何已存储的输出或错误摘要。

期望输出如何显示

如果数据集行包含 expected_output,请在审阅结果时将其作为参考答案。 评估器执行尚未启用。这意味着 Fetch Hive 目前不会自动将结果标记为正确或错误。 另请参阅:数据集运行实验日志历史