跳转到主要内容

实验评估器

当前实验版本未启用评估器执行。 数据集已经可以存储 expected_output,但 Fetch Hive 尚未根据它运行自动打分或通过/失败检查。

当前行为

当你上传数据集时,expected_output 会随每一行一同存储。 在人工审阅和行对比时使用它。 目前没有自动运行的精确匹配评估器。

规划中的评估器类型

未来的评估器支持可能包括:
评估器类型用例
精确匹配严格比较输出与期望输出
包含检查输出是否包含必需的文本
正则根据模式检查输出
JSON 字段匹配比较结构化输出中的特定字段
Schema 校验确认输出遵循指定的 JSON schema
LLM 判定评分语义正确性、推理质量、指令遵循或任务完成度
自定义评估器运行由工作区定义的评估逻辑

应如何为评估器准备数据集?

当你有已知答案时,添加 expected_output 使用 metadata.* 列按话题、优先级、来源、语言或用例 id 对行进行分组。 当你期望进行精确或包含检查时,保持期望输出简洁。 当未来字段级检查会有用时,在 expected_output 中使用结构化的 JSON。 示例:
question,expected_output,metadata.case_id,metadata.topic
"Return the country code for Japan.","JP","locale-001","localization"
另请参阅:数据集查看结果