实验结果
使用运行结果在数据集行之间比较候选项的行为。 默认视图是一个结果单元表。每一行代表对某个候选项运行的一个数据集行。结果列
结果表可包含:| 列 | 含义 |
|---|---|
| 数据集行 | 数据集版本中的行位置 |
| 候选项 | 提示词或智能体候选项 |
| 状态 | 待处理、运行中、已完成、失败、已取消或其他运行状态 |
| 输出预览 | 生成输出的简短预览 |
| 时长 | 该结果单元花费的时间 |
| Token | 可用时显示 token 用量 |
| 成本 | 该结果单元记录的成本 |
| Request ID | 由普通提示词或智能体执行流程创建的关联请求 |
如何筛选结果?
使用结果视图顶部的筛选器。 你可以按候选项、状态、数据集行或文本搜索进行筛选。 当你想聚焦失败、一次比较一个候选项,或检查特定用例时使用筛选器。如何导出结果?
从运行结果表点击 Export CSV。 导出会包含所有匹配当前筛选条件的结果,而不仅是当前可见页。 CSV 导出包含数据集输入、期望输出、元数据、候选项详情、输出或错误文本、Request ID、计时、token 用量、成本和时间戳。如何检查结果?
点击结果行。 Fetch Hive 会打开与普通日志区域所用相同的请求详情面板。这让实验审阅与实时的提示词、工作流和智能体请求检查保持一致,而不是使用单独的实验专用详情界面。 当你需要查看提供商设置、输入、元数据、trace 可用性、成本、计时信息、completions、工作流运行或智能体运行上下文时,使用请求详情。 如果某个结果在请求创建之前就失败了,该行仍可见,显示失败状态以及任何已存储的输出或错误摘要。期望输出如何显示
如果数据集行包含expected_output,请在审阅结果时将其作为参考答案。
评估器执行尚未启用。这意味着 Fetch Hive 目前不会自动将结果标记为正确或错误。
另请参阅:数据集、运行实验和日志历史
