实验评估器

当前实验版本未启用评估器执行。数据集已经可以存储 expected_output，但 Fetch Hive 尚未根据它运行自动打分或通过/失败检查。

当前行为

当你上传数据集时,expected_output 会随每一行一同存储。在人工审阅和行对比时使用它。目前没有自动运行的精确匹配评估器。

未来的评估器支持可能包括：

当你有已知答案时,添加 expected_output。使用 metadata.* 列按话题、优先级、来源、语言或用例 id 对行进行分组。当你期望进行精确或包含检查时,保持期望输出简洁。当未来字段级检查会有用时,在 expected_output 中使用结构化的 JSON。示例：

question,expected_output,metadata.case_id,metadata.topic
"Return the country code for Japan.","JP","locale-001","localization"