Gaming the Answer Matcher: Examining the Impact of Text Manipulation on Automated Judgment¶

会议: AAAI 2026
arXiv: 2601.08849
代码: GitHub
领域: 机器人（NLP/评估）
关键词: 答案匹配, LLM评估, 对抗攻击, 鲁棒性, 自动评判

一句话总结¶

本文系统性地测试了三种文本操控策略（冗长、策略性多答案嵌入、正确答案前置+矛盾）对 LLM 答案匹配评判器的影响，发现这些操控不会提升分数甚至降低分数，且二值评分比连续评分更鲁棒，证明答案匹配是一种对低成本文本操控具有鲁棒性的评估方法。

研究背景与动机¶

评估范式的演进¶

模型评估是 LLM 开发的瓶颈： - 人工评估：可靠但昂贵且慢 - LLM-as-Judge：灵活但存在可靠性、偏见和幻觉问题 - 答案匹配（Answer Matching）：将自由文本回答与参考答案比对，客观且可扩展

答案匹配在 MCQ 评估中展现了良好的对齐性，特别适合模型部署前的基准测试验证——因为许多基准数据集都自带参考答案。

核心担忧¶

问题：答案匹配器是否会被表面线索欺骗？先前研究表明 LLM 评判器可能受到 chain-of-thought 提示、冗长回答、标点符号等表面因素影响。如果答案匹配器同样脆弱，那么它作为可靠评估手段的价值将大打折扣。

三个研究问题¶

含模糊多答案的回答是否能骗过匹配器？
冗长回答是否因 verbosity bias 而获得更高分？
二值评判（正确/错误）vs 连续评判（0-1 分），哪种更鲁棒？

方法详解¶

整体框架¶

实验流程：手工设计 prompt → 让 examinee 模型生成基线和操控后的自由文本回答 → 由 matcher 模型将回答与参考答案比对评分 → 计算指标检验假设。

关键设计¶

1. 三种攻击策略¶

Verbose（冗长攻击）：在生成回答的基础上添加大量冗余文字，不改变实质内容
Strategic（策略性攻击）：当模型不确定答案时，生成模糊回答并嵌入多个可能答案。使用 few-shot 提示效果更好。例如对于"Li++发射光谱"问题，基线回答直接给出"波长缩短 1/9"，而策略性回答则模糊表述为"通常缩短，缩短因子与原子序数的平方有关"
Forward（前置攻击）：将正确答案放在回答开头，末尾嵌入与之矛盾的错误答案

2. 数据集准备¶

使用两个具有挑战性的基准： - MMLU-Pro：包含定量（1962 题）和定性（1405 题）两个子集 - GPQA Diamond：包含定量（92 题）和定性（106 题）两个子集

数据预处理：用 GPT-4.1 mini 将问题分类为定量/定性；过滤包含"which of the following"等引用选项的题目（因为自由文本回答者看不到选项）。

3. 模型配置¶

Examinee 模型（答题者）：GPT-4.1 mini, Qwen2.5-7B-Instruct Matcher 模型（评判者）：GPT-4.1 mini, Qwen2.5-7B-IT, Qwen3-4B, Gemma-2-2B-IT

选择这些模型是为了覆盖不同模型家族和规模，并观察自偏好偏差（self-preference bias）——GPT-4.1 mini 和 Qwen2.5-7B-IT 同时充当答题者和评判者。

4. 评估指标¶

Average Alignment (\(\bar{A}_c\))：每个条件下所有问题得分的均值，反映整体正确率
Attack Success Rate (ASR)：攻击后得分高于基线得分的比例（二值下为 0→1 的翻转率）
Cohen's d：衡量攻击效果大小，负值表示攻击反而降低了分数

统计检验¶

使用双比例 z 检验比较攻击条件与基线条件的平均对齐度，\(p\) 值阈值为 0.05。

实验关键数据¶

主实验：Strategic 攻击下的 GPQA 结果¶

二值评判：

Matcher	Examinee	ASR(Qual)	ASR(Quant)	Cohen's d(Qual)	Cohen's d(Quant)
GPT-4.1 mini	Qwen3-4B	0.094	0.043	0.093	-0.535
GPT-4.1 mini	GPT-4.1 mini	0.038	0.011	-0.130	-0.578
Qwen 2.5 7B	GPT-4.1 mini	0.028	0.011	-0.111	-0.212
Qwen 2.5 7B	Gemma-2-2B	0.075	0.076	0.300	0.127

连续评判：

Matcher	Examinee	ASR(Qual)	ASR(Quant)	Cohen's d(Qual)	Cohen's d(Quant)
GPT-4.1 mini	GPT-4.1 mini	0.349	0.326	-0.044	-0.478
Qwen 2.5 7B	GPT-4.1 mini	0.415	0.489	0.056	0.057
Qwen 2.5 7B	Qwen3-4B	0.475	0.360	0.224	0.111

核心发现： - 绝大多数实验中 Cohen's d 为负数，说明攻击后分数反而下降 - 所有实验的 z 检验 \(p < 0.05\)，且基线 prompt 的 average alignment 高于攻击 prompt（统计显著） - ASR 在二值评判下始终很低（多数 < 0.1），连续评判下 ASR 更高但 Cohen's d 仍为负或极小

消融实验：二值 vs 连续评判鲁棒性¶

评判模式	特征	ASR范围	说明
二值评判	更严格	0.00-0.094	攻击几乎无效，负 Cohen's d 意味着攻击降低准确率
连续评判	更宽松	0.13-0.489	ASR 明显更高，连续刻度给予部分正确的宽容度
Answer Matcher vs LLM-as-Judge	Matcher 更严格	—	matcher 分数系统性低于 judge

Gemma-2-2B 异常现象：作为二值 matcher 在 GPQA 上给出异常高分（有时达到 1.0 完美准确率），提示小模型在某些场景下可能不够可靠。

关键发现¶

三种攻击均失败：冗长、策略性和前置攻击都不能提高答案匹配的分数，且通常会降低分数
二值评判更鲁棒：连续评判的 ASR 显著高于二值评判，因为连续刻度允许更多"部分正确"的判定
Answer Matcher 比 LLM-as-Judge 更严格：验证了先前工作的结论
模型大小可能比攻击策略对鲁棒性影响更大：Gemma-2-2B 的异常行为暗示了这一点

亮点与洞察¶

实验设计严谨：2 个 examinee × 4 个 matcher × 4 个数据集子集 × 4 种 prompt = 32 个数据集的全面组合测试
结论有实际意义：在模型部署前使用 answer matching 进行基准评估时，不必担心简单文本操控的干扰
假设被拒绝反而更有价值：原假设预期攻击有效，但数据清楚表明攻击无效——这种"负结果"对社区建立信心很重要
缓存确保可复现性：所有模型调用使用缓存机制确保确定性结果

局限与展望¶

攻击策略仅为"低成本"非自适应攻击——优化的、动态的对抗攻击可能更有效
仅测试了英语设置，跨语言鲁棒性未知
Gemma-2-2B 的异常行为未深入分析，模型规模对鲁棒性的影响值得系统研究
未考虑更复杂的攻击（如利用模型特定弱点的优化 prompt）

评分¶

新颖性: ⭐⭐⭐ — 研究问题有价值，但攻击策略相对简单
实验充分度: ⭐⭐⭐⭐ — 32 组全面实验覆盖多模型、多数据集、多评判模式
写作质量: ⭐⭐⭐⭐ — 结构清晰，假设-实验-结论逻辑严密
价值: ⭐⭐⭐⭐ — 为 answer matching 作为可靠评估方法提供了信心