实验评估器
当前实验版本未启用评估器执行。 数据集已经可以存储expected_output,但 Fetch Hive 尚未根据它运行自动打分或通过/失败检查。
当前行为
当你上传数据集时,expected_output 会随每一行一同存储。
在人工审阅和行对比时使用它。
目前没有自动运行的精确匹配评估器。
规划中的评估器类型
未来的评估器支持可能包括:| 评估器类型 | 用例 |
|---|---|
| 精确匹配 | 严格比较输出与期望输出 |
| 包含 | 检查输出是否包含必需的文本 |
| 正则 | 根据模式检查输出 |
| JSON 字段匹配 | 比较结构化输出中的特定字段 |
| Schema 校验 | 确认输出遵循指定的 JSON schema |
| LLM 判定 | 评分语义正确性、推理质量、指令遵循或任务完成度 |
| 自定义评估器 | 运行由工作区定义的评估逻辑 |
应如何为评估器准备数据集?
当你有已知答案时,添加expected_output。
使用 metadata.* 列按话题、优先级、来源、语言或用例 id 对行进行分组。
当你期望进行精确或包含检查时,保持期望输出简洁。
当未来字段级检查会有用时,在 expected_output 中使用结构化的 JSON。
示例:

