HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense Reasoning¶
会议: ACL 2025
arXiv: 2502.11393
代码: 无
领域: LLM评测
关键词: commonsense reasoning, robustness evaluation, bilingual benchmark, question variants, HellaSwag
一句话总结¶
构建首个大规模双语(中英)LLM 常识推理鲁棒性评估基准 HellaSwag-Pro,通过 7 种推理形式变体对 1,600 道原始题生成 11,200 道变体题,在 41 个 LLM 上的系统评估表明所有模型在常识推理鲁棒性上远未达标——否定变换平均准确率仅 9.01%,人机差距显著。
研究背景与动机¶
LLM 在常识推理基准上分数很高,但这并不代表真正理解。GPT-4o 能正确回答"一位女士走到杠铃前弯腰抓住杆子,接下来她会..."这类标准 HellaSwag 问题,但对同一知识的改述(reversed conversion: 从结果推断上下文)、否定形式(negation transformation)等变体却频繁出错。这引发了核心疑问:模型是真正理解了常识知识,还是仅仅记忆了特定的表达模式?
现有评估的不足:大多数常识推理基准(HellaSwag、CommonsenseQA、PIQA 等)只测试固定推理形式的准确率。少数考虑鲁棒性的工作仅检查单一简单变体(如问题释义),缺乏对多种复杂推理形式的系统评估。此外,现有基准几乎全部为英文,无法评估中文 LLM 的常识推理能力。
本文的核心 idea:如果一个模型真正理解了某个常识知识,它应当能够泛化到对该知识的多种推理形式(正向推理、逆向推理、因果推理、否定推理等)。因此,通过设计 7 种覆盖从记忆到高阶认知的变体类型,可以严格量化模型的常识推理鲁棒性。为此,作者先构建了 12,000 道中文 HellaSwag 数据集,再在中英双语版本上生成 7 种变体,形成 HellaSwag-Pro 基准。
方法详解¶
整体框架¶
分两大步骤:(1) 构建中文 HellaSwag——采用两阶段流水线(初始数据生成 + 对抗难样本替换),产出 12,000 道覆盖 56 个细粒度类别的中文常识推理多选题;(2) 在中英两版 HellaSwag 上设计 7 种问题变体并经全面人工验证,生成 HellaSwag-Pro(11,200 道变体题,来自 1,600 道原始题)。
关键设计¶
-
中文 HellaSwag 两阶段构建:
- 功能:创建与英文 HellaSwag 难度可比的中文常识推理基准
- 核心思路:设计 7 大类 × 8 子类的 56 个细粒度分类体系。第一阶段,使用 Qwen-Max 通过 in-context learning 过量生成上下文和选项,人工标注筛选保留高质量样本(从 12,960 筛选至 12,000)。第二阶段是对抗过滤:用生成器 LLM 重写过于简单的干扰项,用多个判别器 LLM 验证——如果新选项能成功误导判别器则替换原选项,迭代此过程至中文版难度与英文版对齐(共替换 2,451 个样本)
- 设计动机:避免中文数据集过于简单导致区分度不足;对抗过滤保证跨语言可比性
-
7 种问题变体设计:
- 功能:从多个认知维度(对应 Bloom 认知模型)全面测试常识推理鲁棒性
- 核心思路:(a) 问题重述——改写上下文和正确答案的表达但保持语义不变;(b) 逆向转换——从结果推断原始上下文;(c) 因果推理——合并上下文和答案后问行为原因;(d) 句序排列——打乱句子顺序要求排出正确顺序;(e) 情景改写——最小化修改上下文使原错误选项变正确;(f) 否定变换——引入否定语义使最不可能的选项变正确;(g) 临界测试——去除关键信息使所有原选项无效,正确答案为"以上都不对"。使用 Qwen-Max 生成后进行全面人工验证,初始生成 24,260 个变体最终筛选为 11,200 个
- 设计动机:7 种变体覆盖从记忆(问题重述)到高阶认知(临界测试、因果推理)的完整认知层次
-
评估指标体系:
- 功能:多角度量化常识推理鲁棒性
- 核心思路:OA(原始准确率)、ARA(所有变体的平均鲁棒准确率)、RLA(相对准确率损失 = OA − ARA)、CRA(完全鲁棒率——只有 7 种变体全部正确才算该题真正理解)。同时设计 9 种提示策略(Direct、CN-CoT、EN-CoT、CN-XLT、EN-XLT 等的 zero-shot 和 few-shot 变体)
- 设计动机:CRA 是最严格的鲁棒性指标——如果模型"真正理解",应当对同一知识的所有推理形式都能回答正确
实验关键数据¶
主实验¶
闭源模型表现(Direct 提示策略):
| 模型 | 中文 OA(%) | 中文 ARA(%) | 中文 CRA(%) | 英文 OA(%) | 英文 ARA(%) | 英文 CRA(%) |
|---|---|---|---|---|---|---|
| Human | 96.41 | 97.79 | 92.03 | 95.56 | 96.04 | 90.02 |
| GPT-4o | 91.37 | 81.97 | 75.55 | 88.63 | 70.17 | 63.06 |
| Claude-3.5 | 95.37 | 80.15 | 75.04 | 85.11 | 66.02 | 57.20 |
| Gemini-1.5-Pro | 90.62 | 78.36 | 70.48 | 87.75 | 60.74 | 58.27 |
| Qwen-Max | 93.50 | 84.82 | 78.91 | 87.60 | 62.61 | 59.65 |
开源模型代表性结果:
| 模型 | 中文 OA(%) | 中文 CRA(%) | 英文 OA(%) | 英文 CRA(%) | 平均 CRA(%) |
|---|---|---|---|---|---|
| Qwen2.5-72B | 70.87 | 39.64 | 72.00 | 35.12 | 37.38 |
| Llama3-70B | 65.75 | 32.70 | 72.50 | 30.63 | 31.67 |
| Mixtral-8x22B | 66.00 | 34.32 | 72.12 | 30.61 | 32.47 |
| Yi1.5-34B | 71.00 | 38.09 | 71.00 | 29.91 | 34.00 |
| DeepSeek-67B | 71.50 | 35.89 | 71.37 | 29.71 | 32.80 |
| Random | 25.00 | — | 25.00 | 0.0015 | 0.0015 |
消融实验¶
各类变体难度排序:
| 变体类型 | 设计原理 | 平均准确率 | 难度 |
|---|---|---|---|
| 问题重述 | 改写表达保持语义 | 最高 | 最易 |
| 逆向转换 | 结果→上下文推理 | 中等 | 中等 |
| 因果推理 | 合并后问原因 | 中等 | 中等 |
| 句序排列 | 打乱句子排序 | 中等 | 中等 |
| 情景改写 | 修改上下文翻转正确选项 | 较低 | 较难 |
| 临界测试 | 去除关键信息 | 较低 | 较难 |
| 否定变换 | 引入否定语义 | 9.01% | 最难 |
提示策略影响:
| 策略 | 效果 | 说明 |
|---|---|---|
| Direct | 基线 | 计算 loglikelihood 选择最高的选项 |
| CoT(母语) | 提升鲁棒性 | 链式思维推理有助于深入理解 |
| Few-shot | 进一步提升 | 示例引导改善变体表现 |
| XLT(跨语言翻译) | 有限提升 | 翻译可能引入噪声 |
关键发现¶
- 所有 LLM 在常识推理鲁棒性上远未达标:最优的 GPT-4o 平均 CRA 仅 69.31%,而人类为 91.03%,差距超过 20 个百分点
- 否定变换是 LLM 的致命弱点:平均准确率仅 9.01%(低于随机 25%),揭示 LLM 处理否定语义的根本困难
- 问题重述最简单:模型对表面改写有一定抗性,但无法泛化到更深层的推理形式变化
- 语言偏好显著影响鲁棒性:中文模型(Qwen-Max)在中文测试上鲁棒性更好(CRA 78.91 vs 英文 59.65),反之亦然
- 模型规模与鲁棒性正相关但提升有限:Qwen2.5 从 0.5B 到 72B 的平均 CRA 仅从 24.64% 提升到 37.38%
亮点与洞察¶
- 首个系统性 LLM 常识推理鲁棒性评估框架,7 种变体设计有理论支撑(Bloom 认知模型),覆盖完整认知层次
- CRA 指标的设计具有原创性和严格性——要求所有变体全部正确才算真正理解,有效区分"记忆表达模式"与"真正理解"
- 中文 HellaSwag 的构建方法论(两阶段 + 对抗过滤迭代至与英文版难度对齐)可迁移到其他语言的基准构建
- 否定变换 9.01% 的准确率是一个极具冲击力的发现——远低于随机猜测的 25%,说明模型不仅无法处理否定,反而被否定系统性地误导
- 双语评估揭示了语言训练充分度对鲁棒性的直接影响,为多语言模型的训练策略提供数据支撑
局限与展望¶
- 变体生成主要依赖 Qwen-Max,可能引入该模型的偏差(尽管有人工验证)
- 仅覆盖中英双语,扩展到更多语言(尤其是低资源语言)的价值更大
- 否定变换的准确率异常低可能部分源于题目构造的不公平性——需要进一步分析
- 缺乏对模型内部机制的分析——为什么某些变体特别困难?注意力模式、隐藏状态如何变化?
- 部分变体(如情景改写)依赖从原错误选项中挑选"相对可信"的选项,可能引入主观偏差
相关工作与启发¶
- vs HellaSwag (Zellers et al. 2019): 原始基准仅测试固定形式准确率,HellaSwag-Pro 通过 7 种变体大幅提高了评估的鉴别力
- vs Balepur et al. (2024): 只检查了否定推理一种变体,本文扩展到 7 种覆盖完整认知层次的变体
- vs Zhou et al. (2021): 仅考虑问题释义(paraphrasing),本文的变体设计远更丰富和深入
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统性常识推理鲁棒性多变体评估框架,中文 HellaSwag 构建方法有创新
- 实验充分度: ⭐⭐⭐⭐⭐ 41 个模型、9 种提示策略、7 种变体、双语、全面消融——业界罕见的评估规模
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据翔实,图表丰富
- 价值: ⭐⭐⭐⭐ 为常识推理评估提供了新范式,否定变换 9.01% 的发现值得广泛关注