Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models¶
会议: ACL 2025
arXiv: 2411.07140
代码: https://openstellarteam.github.io/ChineseSimpleQA/
作者: Yancheng He, Shilong Li, Jiaheng Liu 等
机构: 阿里巴巴淘天集团
领域: LLM评估 / 事实性
关键词: 中文基准, 事实性评估, SimpleQA, 知识边界, RAG, 对齐税, 校准性
一句话总结¶
提出 Chinese SimpleQA——首个全面的中文事实性评估基准,包含 3000 个高质量短问答(覆盖 6 大主题、99 个子主题),评估 41 个 LLM 后发现仅 o1-preview(63.8%)和 Doubao-pro-32k(61.9%)能通过,并系统揭示了"大模型更好"、"RAG缩小差距"、"对齐降低事实性"等关键洞察。
研究背景与动机¶
领域现状: - LLM 生成事实性不一致的内容(幻觉问题)严重阻碍了通用 AI 的广泛应用 - OpenAI 发布的 SimpleQA 基准为英文事实性评估提供了简洁可靠的工具,但主要面向英文 - 现有中文 LLM 基准(C-Eval、CMMLU)主要测试推理能力,未专门评估中文事实性知识边界
核心问题: - 缺乏聚焦中文语言的事实性评估基准 - LLM 在中文知识领域(特别是中国文化相关知识)的表现与英文存在显著差异 - 对齐训练(RLHF/DPO等)是否降低模型事实性尚缺系统性验证
研究目标:构建一个中文、多样、高质量、静态、易评估的事实性基准,全面评估现有 LLM 在中文知识上的边界
方法详解¶
数据集设计原则¶
Chinese SimpleQA 遵循五个核心原则:
- 中文(Chinese):聚焦中文语言知识评估
- 多样(Diverse):6 大主题 + 99 个细分子主题
- 高质量(High-quality):严格的自动化+人工质控流程
- 静态(Static):所有答案不随时间变化(常青属性)
- 易评估(Easy-to-evaluate):问答极短,可用 LLM API 快速评分
六大主题覆盖¶
| 主题 | 样本数 | 示例 |
|---|---|---|
| 中国文化 (Chinese Culture) | 323 | 非中文特有不可的文化知识 |
| 人文 (Humanities) | 623 | 历史、哲学、语言等 |
| 工程技术与应用科学 (ETAS) | 473 | 计算机、工程、医学等 |
| 生活、艺术与文化 (LAC) | 602 | 日常生活、艺术、体育等 |
| 社会 (Society) | 450 | 政治、经济、法律等 |
| 自然科学 (Natural Science) | 529 | 物理、化学、生物等 |
数据构建流程¶
自动化阶段: 1. 知识内容提取:从 Wikipedia 等知识丰富文本中提取高质量内容 2. 问答对生成:用 LLM 基于高质量知识内容自动生成问答对 3. LLM 质量验证:按预定义标准(答案唯一性、静态性等)自动过滤 4. RAG 验证:使用 LlamaIndex + Google/Bing 搜索引擎进行检索增强验证 5. 难度过滤:如果四个强力模型(GPT-4o、Llama3-70B、Qwen2.5-72B、GLM-4-Plus)全部答对,则剔除该问题
人工验证阶段: - 每个问题由 2 名标注员独立评估 - 标注员使用搜索引擎查找答案,每人提供至少 2 个支持 URL - 答案不一致时由 第 3 名标注员仲裁 - 最终仅保留与 LLM 答案一致的样本
问答构建标准(四条核心规则)¶
- 答案必须客观唯一:排除主观问题和多解问题(如"朱祁镇何年登基"有两个答案)
- 答案不随时间变化:排除时事问题(如"某国现任总统")
- 问题需有挑战性:不能过于简单
- 截止至 2023 年可回答:确保训练数据截止日期后的模型可公平评估
数据量变化¶
| 阶段 | 样本数 | 保留比例 |
|---|---|---|
| 初始生成 | 10,000 | 100% |
| 难度过滤后 | 6,310 | 63.1% |
| 规则+RAG 验证后 | 3,470 | 34.7% |
| 人工审核后 | 3,000 | 30.0% |
评估指标¶
- Correct (CO):预测答案完全包含参考答案且无矛盾
- Not Attempted (NA):未给出参考答案,也无矛盾
- Incorrect (IN):预测答案与参考答案矛盾
- Correct Given Attempted (CGA):在已作答的问题中回答正确的比例
- F-score:CO 和 CGA 的调和平均数
数据统计¶
| 统计项 | 数值 |
|---|---|
| 问题平均长度 | 23.6 字 |
| 答案平均长度 | 6.1 字 |
| 问题最长 | 81 字 |
| 答案最长 | 47 字 |
实验¶
评估规模¶
评估 41 个 LLM:17 个闭源 + 24 个开源,涵盖 o1、GPT-4o、Qwen2.5、InternLM、Yi、LLaMA3、DeepSeek、Baichuan、Mistral 等系列。
主实验结果(整体排名,部分展示)¶
| 模型 | CO↑ | NA | IN↓ | CGA | F-score |
|---|---|---|---|---|---|
| o1-preview | 63.8 | 12.2 | 24.0 | 72.7 | 67.9 |
| Doubao-pro-32k | 61.9 | 10.3 | 27.8 | 69.1 | 65.3 |
| GLM-4-Plus | 58.7 | 7.4 | 33.9 | 63.4 | 60.9 |
| GPT-4o | 59.3 | 1.4 | 39.3 | 60.1 | 59.7 |
| Qwen-Max | 54.1 | 11.3 | 34.6 | 61.0 | 57.4 |
| Qwen2.5-72B (开源) | 48.4 | 7.1 | 44.5 | 52.1 | 50.2 |
| DeepSeek-67B | 43.5 | 14.8 | 41.7 | 51.1 | 47.0 |
| LLaMA3.1-70B | 38.3 | 9.4 | 52.3 | 42.3 | 40.2 |
| GPT-3.5 | 29.7 | 2.9 | 67.4 | 30.6 | 30.1 |
基准难度验证:仅 o1-preview 和 Doubao-pro-32k 超过 60%(及格线)。
关键发现 1:大模型更好¶
Qwen2.5 系列模型规模效应:
| 模型 | CO |
|---|---|
| Qwen2.5-72B | 48.4% |
| Qwen2.5-32B | 38.8% |
| Qwen2.5-14B | 35.4% |
| Qwen2.5-7B | 26.6% |
| Qwen2.5-3B | 16.2% |
| Qwen2.5-1.5B | 11.1% |
从 1.5B 到 72B,CO 准确率从 11.1% 提升到 48.4%,呈近线性增长。
关键发现 2:中国文化主题上中文模型优势显著¶
在 "Chinese Culture" 子主题上的 F-score:
| 模型 | Chinese Culture | 整体 |
|---|---|---|
| Doubao-pro-32k | 61.8 | 65.3 |
| GLM-4-Plus | 56.5 | 60.9 |
| DeepSeek-V2.5 | 50.4 | 55.7 |
| o1-preview | 45.7 | 67.9 |
| GPT-4o | 39.4 | 59.7 |
Doubao-pro-32k 和 GLM-4-Plus 在中国文化上大幅领先 o1-preview(+16/+11 个百分点),而整体排名落后。
关键发现 3:RAG 大幅缩小模型差距¶
引入 RAG 后的性能变化:
| 模型对比 | 无 RAG 差距 | 有 RAG 差距 |
|---|---|---|
| GPT-4o vs Qwen2.5-3B | 42.4% | 9.3% |
RAG 策略使弱模型获益更大,极大缩小了不同规模模型间的性能差距。
关键发现 4:对齐税存在¶
对齐和后训练策略通常会降低模型的事实性表现——模型在对齐过程中可能牺牲知识准确性来换取安全性和有用性。
关键发现 5:大模型校准性更好¶
| 模型 | CO | NA | 解读 |
|---|---|---|---|
| o1-preview | 63.8 | 12.2 | 不确定时会拒绝回答 |
| o1-mini | 39.5 | 20.6 | 拒绝更多但也答错更多 |
| GPT-4o | 59.3 | 1.4 | 几乎从不拒绝 |
| GPT-4o-mini | 37.6 | 0.9 | 也不拒绝,但错得更多 |
| Claude-3.5-Sonnet | 46.2 | 27.4 | 最谨慎的模型 |
Claude-3.5-Sonnet 拒绝率最高(27.4%),但也因此避免了大量错误回答。
SimpleQA vs Chinese SimpleQA 排名差异¶
英文 SimpleQA 排名和中文 Chinese SimpleQA 排名不一致:专注中文的模型(如 Doubao、GLM-4-Plus)在中文版本上排名显著提升,说明中英知识评估不可互相替代。
亮点与洞察¶
- 首个系统的中文事实性基准:填补了中文 LLM 事实性评估的空白,与 OpenAI SimpleQA 形成互补
- 严格的数据质量保障:三轮过滤(LLM自动/RAG验证/双人人工审核)仅保留 30% 原始数据,确保高质量
- 全面的模型评估生态:覆盖 41 个模型,闭源+开源,多尺度(0.5B-671B),提供了目前最全面的中文事实性能力画像
- 对齐税的系统性验证:首次在中文事实性基准上证实对齐训练可能降低事实准确性,为后训练策略设计提供参考
- RAG 的均衡化效应发现:RAG 使模型间差距从 42.4% 缩至 9.3%,对资源受限场景(只能用小模型)有重要实践指导意义
- 中文文化知识的差异性:揭示了国际化 LLM(GPT、o1)在中国文化领域的短板,说明数据来源对知识覆盖的关键影响
局限性¶
- 评估成本低但构建成本高:双人标注+第三人仲裁的人工质控成本较高,难以快速扩展
- 时间截止限制:所有问题须在 2023 年底前可回答,无法评估模型对更新知识的掌握
- 领域覆盖不均:中国文化(323 题)明显少于生活文化(602 题),可能低估中文文化知识的评测深度
- 仅评估事实性:不涉及推理能力、创造性写作等其他维度,无法全面评估 LLM
- 评分依赖 OpenAI API:使用 LLM-as-a-Judge 进行自动评分,评分器本身的准确率未充分验证
- 静态设计的双面性:答案不随时间变化虽保证了基准稳定性,但也意味着无法捕捉 LLM 对动态世界知识的理解能力
相关工作¶
- 事实性基准:SimpleQA (Wei et al., 2024)、TruthfulQA、FreshQA
- 中文 LLM 基准:C-Eval (Huang et al., 2023)、CMMLU (Li et al., 2023)、WebQA (Li et al., 2016)
- 通用评估:MMLU (Hendrycks et al., 2021)、GSM8K (Cobbe et al., 2021)、AlpacaEval
- LLM-as-Judge:MT-Bench (Zheng et al., 2023)、Arena-Hard (Li et al., 2024)
评分¶
⭐⭐⭐⭐⭐ — 填补中文事实性评估空白的重要工作,数据质量极高、评估覆盖全面、发现(对齐税、RAG均衡效应、中文文化差异)有深刻实践价值,是中文 LLM 开发者的必读基准。