跳转至

HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense Reasoning

会议: ACL 2025
arXiv: 2502.11393
代码: 无
领域: LLM评测
关键词: commonsense reasoning, robustness evaluation, bilingual benchmark, question variants, HellaSwag

一句话总结

构建首个大规模双语(中英)LLM 常识推理鲁棒性评估基准 HellaSwag-Pro,通过 7 种推理形式变体对 1,600 道原始题生成 11,200 道变体题,在 41 个 LLM 上的系统评估表明所有模型在常识推理鲁棒性上远未达标——否定变换平均准确率仅 9.01%,人机差距显著。

研究背景与动机

LLM 在常识推理基准上分数很高,但这并不代表真正理解。GPT-4o 能正确回答"一位女士走到杠铃前弯腰抓住杆子,接下来她会..."这类标准 HellaSwag 问题,但对同一知识的改述(reversed conversion: 从结果推断上下文)、否定形式(negation transformation)等变体却频繁出错。这引发了核心疑问:模型是真正理解了常识知识,还是仅仅记忆了特定的表达模式?

现有评估的不足:大多数常识推理基准(HellaSwag、CommonsenseQA、PIQA 等)只测试固定推理形式的准确率。少数考虑鲁棒性的工作仅检查单一简单变体(如问题释义),缺乏对多种复杂推理形式的系统评估。此外,现有基准几乎全部为英文,无法评估中文 LLM 的常识推理能力。

本文的核心 idea:如果一个模型真正理解了某个常识知识,它应当能够泛化到对该知识的多种推理形式(正向推理、逆向推理、因果推理、否定推理等)。因此,通过设计 7 种覆盖从记忆到高阶认知的变体类型,可以严格量化模型的常识推理鲁棒性。为此,作者先构建了 12,000 道中文 HellaSwag 数据集,再在中英双语版本上生成 7 种变体,形成 HellaSwag-Pro 基准。

方法详解

整体框架

分两大步骤:(1) 构建中文 HellaSwag——采用两阶段流水线(初始数据生成 + 对抗难样本替换),产出 12,000 道覆盖 56 个细粒度类别的中文常识推理多选题;(2) 在中英两版 HellaSwag 上设计 7 种问题变体并经全面人工验证,生成 HellaSwag-Pro(11,200 道变体题,来自 1,600 道原始题)。

关键设计

  1. 中文 HellaSwag 两阶段构建:

    • 功能:创建与英文 HellaSwag 难度可比的中文常识推理基准
    • 核心思路:设计 7 大类 × 8 子类的 56 个细粒度分类体系。第一阶段,使用 Qwen-Max 通过 in-context learning 过量生成上下文和选项,人工标注筛选保留高质量样本(从 12,960 筛选至 12,000)。第二阶段是对抗过滤:用生成器 LLM 重写过于简单的干扰项,用多个判别器 LLM 验证——如果新选项能成功误导判别器则替换原选项,迭代此过程至中文版难度与英文版对齐(共替换 2,451 个样本)
    • 设计动机:避免中文数据集过于简单导致区分度不足;对抗过滤保证跨语言可比性
  2. 7 种问题变体设计:

    • 功能:从多个认知维度(对应 Bloom 认知模型)全面测试常识推理鲁棒性
    • 核心思路:(a) 问题重述——改写上下文和正确答案的表达但保持语义不变;(b) 逆向转换——从结果推断原始上下文;(c) 因果推理——合并上下文和答案后问行为原因;(d) 句序排列——打乱句子顺序要求排出正确顺序;(e) 情景改写——最小化修改上下文使原错误选项变正确;(f) 否定变换——引入否定语义使最不可能的选项变正确;(g) 临界测试——去除关键信息使所有原选项无效,正确答案为"以上都不对"。使用 Qwen-Max 生成后进行全面人工验证,初始生成 24,260 个变体最终筛选为 11,200 个
    • 设计动机:7 种变体覆盖从记忆(问题重述)到高阶认知(临界测试、因果推理)的完整认知层次
  3. 评估指标体系:

    • 功能:多角度量化常识推理鲁棒性
    • 核心思路:OA(原始准确率)、ARA(所有变体的平均鲁棒准确率)、RLA(相对准确率损失 = OA − ARA)、CRA(完全鲁棒率——只有 7 种变体全部正确才算该题真正理解)。同时设计 9 种提示策略(Direct、CN-CoT、EN-CoT、CN-XLT、EN-XLT 等的 zero-shot 和 few-shot 变体)
    • 设计动机:CRA 是最严格的鲁棒性指标——如果模型"真正理解",应当对同一知识的所有推理形式都能回答正确

实验关键数据

主实验

闭源模型表现(Direct 提示策略):

模型 中文 OA(%) 中文 ARA(%) 中文 CRA(%) 英文 OA(%) 英文 ARA(%) 英文 CRA(%)
Human 96.41 97.79 92.03 95.56 96.04 90.02
GPT-4o 91.37 81.97 75.55 88.63 70.17 63.06
Claude-3.5 95.37 80.15 75.04 85.11 66.02 57.20
Gemini-1.5-Pro 90.62 78.36 70.48 87.75 60.74 58.27
Qwen-Max 93.50 84.82 78.91 87.60 62.61 59.65

开源模型代表性结果

模型 中文 OA(%) 中文 CRA(%) 英文 OA(%) 英文 CRA(%) 平均 CRA(%)
Qwen2.5-72B 70.87 39.64 72.00 35.12 37.38
Llama3-70B 65.75 32.70 72.50 30.63 31.67
Mixtral-8x22B 66.00 34.32 72.12 30.61 32.47
Yi1.5-34B 71.00 38.09 71.00 29.91 34.00
DeepSeek-67B 71.50 35.89 71.37 29.71 32.80
Random 25.00 25.00 0.0015 0.0015

消融实验

各类变体难度排序

变体类型 设计原理 平均准确率 难度
问题重述 改写表达保持语义 最高 最易
逆向转换 结果→上下文推理 中等 中等
因果推理 合并后问原因 中等 中等
句序排列 打乱句子排序 中等 中等
情景改写 修改上下文翻转正确选项 较低 较难
临界测试 去除关键信息 较低 较难
否定变换 引入否定语义 9.01% 最难

提示策略影响

策略 效果 说明
Direct 基线 计算 loglikelihood 选择最高的选项
CoT(母语) 提升鲁棒性 链式思维推理有助于深入理解
Few-shot 进一步提升 示例引导改善变体表现
XLT(跨语言翻译) 有限提升 翻译可能引入噪声

关键发现

  • 所有 LLM 在常识推理鲁棒性上远未达标:最优的 GPT-4o 平均 CRA 仅 69.31%,而人类为 91.03%,差距超过 20 个百分点
  • 否定变换是 LLM 的致命弱点:平均准确率仅 9.01%(低于随机 25%),揭示 LLM 处理否定语义的根本困难
  • 问题重述最简单:模型对表面改写有一定抗性,但无法泛化到更深层的推理形式变化
  • 语言偏好显著影响鲁棒性:中文模型(Qwen-Max)在中文测试上鲁棒性更好(CRA 78.91 vs 英文 59.65),反之亦然
  • 模型规模与鲁棒性正相关但提升有限:Qwen2.5 从 0.5B 到 72B 的平均 CRA 仅从 24.64% 提升到 37.38%

亮点与洞察

  • 首个系统性 LLM 常识推理鲁棒性评估框架,7 种变体设计有理论支撑(Bloom 认知模型),覆盖完整认知层次
  • CRA 指标的设计具有原创性和严格性——要求所有变体全部正确才算真正理解,有效区分"记忆表达模式"与"真正理解"
  • 中文 HellaSwag 的构建方法论(两阶段 + 对抗过滤迭代至与英文版难度对齐)可迁移到其他语言的基准构建
  • 否定变换 9.01% 的准确率是一个极具冲击力的发现——远低于随机猜测的 25%,说明模型不仅无法处理否定,反而被否定系统性地误导
  • 双语评估揭示了语言训练充分度对鲁棒性的直接影响,为多语言模型的训练策略提供数据支撑

局限与展望

  • 变体生成主要依赖 Qwen-Max,可能引入该模型的偏差(尽管有人工验证)
  • 仅覆盖中英双语,扩展到更多语言(尤其是低资源语言)的价值更大
  • 否定变换的准确率异常低可能部分源于题目构造的不公平性——需要进一步分析
  • 缺乏对模型内部机制的分析——为什么某些变体特别困难?注意力模式、隐藏状态如何变化?
  • 部分变体(如情景改写)依赖从原错误选项中挑选"相对可信"的选项,可能引入主观偏差

相关工作与启发

  • vs HellaSwag (Zellers et al. 2019): 原始基准仅测试固定形式准确率,HellaSwag-Pro 通过 7 种变体大幅提高了评估的鉴别力
  • vs Balepur et al. (2024): 只检查了否定推理一种变体,本文扩展到 7 种覆盖完整认知层次的变体
  • vs Zhou et al. (2021): 仅考虑问题释义(paraphrasing),本文的变体设计远更丰富和深入

评分

  • 新颖性: ⭐⭐⭐⭐ 首个系统性常识推理鲁棒性多变体评估框架,中文 HellaSwag 构建方法有创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 41 个模型、9 种提示策略、7 种变体、双语、全面消融——业界罕见的评估规模
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数据翔实,图表丰富
  • 价值: ⭐⭐⭐⭐ 为常识推理评估提供了新范式,否定变换 9.01% 的发现值得广泛关注