HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense Reasoning¶

会议: ACL 2025
arXiv: 2502.11393
代码: 无
领域: LLM评测
关键词: commonsense reasoning, robustness evaluation, bilingual benchmark, question variants, HellaSwag

一句话总结¶

构建首个大规模双语（中英）LLM 常识推理鲁棒性评估基准 HellaSwag-Pro，通过 7 种推理形式变体对 1,600 道原始题生成 11,200 道变体题，在 41 个 LLM 上的系统评估表明所有模型在常识推理鲁棒性上远未达标——否定变换平均准确率仅 9.01%，人机差距显著。

研究背景与动机¶

LLM 在常识推理基准上分数很高，但这并不代表真正理解。GPT-4o 能正确回答"一位女士走到杠铃前弯腰抓住杆子，接下来她会..."这类标准 HellaSwag 问题，但对同一知识的改述（reversed conversion: 从结果推断上下文）、否定形式（negation transformation）等变体却频繁出错。这引发了核心疑问：模型是真正理解了常识知识，还是仅仅记忆了特定的表达模式？

现有评估的不足：大多数常识推理基准（HellaSwag、CommonsenseQA、PIQA 等）只测试固定推理形式的准确率。少数考虑鲁棒性的工作仅检查单一简单变体（如问题释义），缺乏对多种复杂推理形式的系统评估。此外，现有基准几乎全部为英文，无法评估中文 LLM 的常识推理能力。

本文的核心 idea：如果一个模型真正理解了某个常识知识，它应当能够泛化到对该知识的多种推理形式（正向推理、逆向推理、因果推理、否定推理等）。因此，通过设计 7 种覆盖从记忆到高阶认知的变体类型，可以严格量化模型的常识推理鲁棒性。为此，作者先构建了 12,000 道中文 HellaSwag 数据集，再在中英双语版本上生成 7 种变体，形成 HellaSwag-Pro 基准。

方法详解¶

整体框架¶

分两大步骤：(1) 构建中文 HellaSwag——采用两阶段流水线（初始数据生成 + 对抗难样本替换），产出 12,000 道覆盖 56 个细粒度类别的中文常识推理多选题；(2) 在中英两版 HellaSwag 上设计 7 种问题变体并经全面人工验证，生成 HellaSwag-Pro（11,200 道变体题，来自 1,600 道原始题）。

关键设计¶

中文 HellaSwag 两阶段构建:
- 功能：创建与英文 HellaSwag 难度可比的中文常识推理基准
- 核心思路：设计 7 大类 × 8 子类的 56 个细粒度分类体系。第一阶段，使用 Qwen-Max 通过 in-context learning 过量生成上下文和选项，人工标注筛选保留高质量样本（从 12,960 筛选至 12,000）。第二阶段是对抗过滤：用生成器 LLM 重写过于简单的干扰项，用多个判别器 LLM 验证——如果新选项能成功误导判别器则替换原选项，迭代此过程至中文版难度与英文版对齐（共替换 2,451 个样本）
- 设计动机：避免中文数据集过于简单导致区分度不足；对抗过滤保证跨语言可比性
7 种问题变体设计:
- 功能：从多个认知维度（对应 Bloom 认知模型）全面测试常识推理鲁棒性
- 核心思路：(a) 问题重述——改写上下文和正确答案的表达但保持语义不变；(b) 逆向转换——从结果推断原始上下文；(c) 因果推理——合并上下文和答案后问行为原因；(d) 句序排列——打乱句子顺序要求排出正确顺序；(e) 情景改写——最小化修改上下文使原错误选项变正确；(f) 否定变换——引入否定语义使最不可能的选项变正确；(g) 临界测试——去除关键信息使所有原选项无效，正确答案为"以上都不对"。使用 Qwen-Max 生成后进行全面人工验证，初始生成 24,260 个变体最终筛选为 11,200 个
- 设计动机：7 种变体覆盖从记忆（问题重述）到高阶认知（临界测试、因果推理）的完整认知层次
评估指标体系:
- 功能：多角度量化常识推理鲁棒性
- 核心思路：OA（原始准确率）、ARA（所有变体的平均鲁棒准确率）、RLA（相对准确率损失 = OA − ARA）、CRA（完全鲁棒率——只有 7 种变体全部正确才算该题真正理解）。同时设计 9 种提示策略（Direct、CN-CoT、EN-CoT、CN-XLT、EN-XLT 等的 zero-shot 和 few-shot 变体）
- 设计动机：CRA 是最严格的鲁棒性指标——如果模型"真正理解"，应当对同一知识的所有推理形式都能回答正确

实验关键数据¶

主实验¶

闭源模型表现（Direct 提示策略）：

模型	中文 OA(%)	中文 ARA(%)	中文 CRA(%)	英文 OA(%)	英文 ARA(%)	英文 CRA(%)
Human	96.41	97.79	92.03	95.56	96.04	90.02
GPT-4o	91.37	81.97	75.55	88.63	70.17	63.06
Claude-3.5	95.37	80.15	75.04	85.11	66.02	57.20
Gemini-1.5-Pro	90.62	78.36	70.48	87.75	60.74	58.27
Qwen-Max	93.50	84.82	78.91	87.60	62.61	59.65

开源模型代表性结果：

模型	中文 OA(%)	中文 CRA(%)	英文 OA(%)	英文 CRA(%)	平均 CRA(%)
Qwen2.5-72B	70.87	39.64	72.00	35.12	37.38
Llama3-70B	65.75	32.70	72.50	30.63	31.67
Mixtral-8x22B	66.00	34.32	72.12	30.61	32.47
Yi1.5-34B	71.00	38.09	71.00	29.91	34.00
DeepSeek-67B	71.50	35.89	71.37	29.71	32.80
Random	25.00	—	25.00	0.0015	0.0015

消融实验¶

各类变体难度排序：

变体类型	设计原理	平均准确率	难度
问题重述	改写表达保持语义	最高	最易
逆向转换	结果→上下文推理	中等	中等
因果推理	合并后问原因	中等	中等
句序排列	打乱句子排序	中等	中等
情景改写	修改上下文翻转正确选项	较低	较难
临界测试	去除关键信息	较低	较难
否定变换	引入否定语义	9.01%	最难

提示策略影响：

策略	效果	说明
Direct	基线	计算 loglikelihood 选择最高的选项
CoT（母语）	提升鲁棒性	链式思维推理有助于深入理解
Few-shot	进一步提升	示例引导改善变体表现
XLT（跨语言翻译）	有限提升	翻译可能引入噪声

关键发现¶

所有 LLM 在常识推理鲁棒性上远未达标：最优的 GPT-4o 平均 CRA 仅 69.31%，而人类为 91.03%，差距超过 20 个百分点
否定变换是 LLM 的致命弱点：平均准确率仅 9.01%（低于随机 25%），揭示 LLM 处理否定语义的根本困难
问题重述最简单：模型对表面改写有一定抗性，但无法泛化到更深层的推理形式变化
语言偏好显著影响鲁棒性：中文模型（Qwen-Max）在中文测试上鲁棒性更好（CRA 78.91 vs 英文 59.65），反之亦然
模型规模与鲁棒性正相关但提升有限：Qwen2.5 从 0.5B 到 72B 的平均 CRA 仅从 24.64% 提升到 37.38%

亮点与洞察¶

首个系统性 LLM 常识推理鲁棒性评估框架，7 种变体设计有理论支撑（Bloom 认知模型），覆盖完整认知层次
CRA 指标的设计具有原创性和严格性——要求所有变体全部正确才算真正理解，有效区分"记忆表达模式"与"真正理解"
中文 HellaSwag 的构建方法论（两阶段 + 对抗过滤迭代至与英文版难度对齐）可迁移到其他语言的基准构建
否定变换 9.01% 的准确率是一个极具冲击力的发现——远低于随机猜测的 25%，说明模型不仅无法处理否定，反而被否定系统性地误导
双语评估揭示了语言训练充分度对鲁棒性的直接影响，为多语言模型的训练策略提供数据支撑

局限与展望¶

变体生成主要依赖 Qwen-Max，可能引入该模型的偏差（尽管有人工验证）
仅覆盖中英双语，扩展到更多语言（尤其是低资源语言）的价值更大
否定变换的准确率异常低可能部分源于题目构造的不公平性——需要进一步分析
缺乏对模型内部机制的分析——为什么某些变体特别困难？注意力模式、隐藏状态如何变化？
部分变体（如情景改写）依赖从原错误选项中挑选"相对可信"的选项，可能引入主观偏差

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统性常识推理鲁棒性多变体评估框架，中文 HellaSwag 构建方法有创新
实验充分度: ⭐⭐⭐⭐⭐ 41 个模型、9 种提示策略、7 种变体、双语、全面消融——业界罕见的评估规模
写作质量: ⭐⭐⭐⭐ 结构清晰，数据翔实，图表丰富
价值: ⭐⭐⭐⭐ 为常识推理评估提供了新范式，否定变换 9.01% 的发现值得广泛关注