LingOly-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation¶

会议: ICLR 2026
arXiv: 2503.02972
代码: GitHub
领域: LLM推理 / 评测基准
关键词: reasoning benchmark, orthographic obfuscation, linguistics olympiad, knowledge contamination, LLM evaluation

一句话总结¶

提出LingOly-TOO基准，通过专家设计的正字法置换（grapheme-level permutation）对语言学奥赛题进行混淆，保留推理逻辑但消除知识/记忆捷径，将15个前沿模型的最高分从0.59降至0.48，系统量化了LLM推理能力被知识效应高估的程度。

研究背景与动机¶

领域现状：LLM在各类推理基准上的分数快速上升，但越来越多证据表明分数膨胀源于训练集污染和知识记忆捷径，而非真正的推理能力提升。MATH/GSM8K等基准迅速饱和。

现有痛点：

训练数据规模增大使训练/测试集边界模糊，评测偏差加剧
现有应对手段（合成数据、符号模板置换）规模小且修改幅度不够——修改后仍可能与训练样本相似
即使低资源语言的语言学题目也在预训练数据中被覆盖，模型可通过部分污染绕过推理

核心矛盾：如何在保留解题推理逻辑不变的前提下，彻底消除模型利用知识和记忆的可能性？

本文切入角度：对语言学奥赛题的"题目语言"（Problemese）进行grapheme级正字法置换，使置换后的字符序列在任何训练语料中都不存在，但题目本身的推理步骤完全保留。

方法详解¶

整体框架¶

UKLO 82道题 → 专家人工标注置换规则集（ruleset）→ 每题生成最多6个正字法置换版本 → 1,203道问题 / 6,995个子问题-答案对 → Exact Match评估 → 比较 \(M_{og}\)（原始分数）和 \(M_{obf}\)（混淆分数）量化知识效应。

关键设计¶

推理等变置换 (Reasoning-Equivariant Permutation)
- 以grapheme（字素）为最小单位置换，非word级——语言学题需要子词级符号推理
- 每题由语言学专家手工定义ruleset，保留解题所需的语言学机制。以土耳其语元音和谐为例：元音对 (e,i)/(o,u)/(ö,ü)/(a,ı) 必须保持组内配对，否则后缀无法正确对应
- 保留借词、英语同源词、人名/地名等对解题有用的元素
- 移除语言名称、语系、地理信息等可能触发知识检索的元数据
多版本评估与度量体系
- 定义 \(M_{obf} = \frac{1}{82}\sum_{i=1}^{82}\frac{1}{n_i}\sum_{j=1}^{n_i}M_{obf}^{i,j}\)（混淆版平均分）和 \(M_{og}\)（原始版分数）
- 鲁棒度量 \(M_{rob}\)：取每题所有置换中最差分数的平均，衡量最坏情况推理能力
- 知识效应 \(\Delta_{obf}^{i} = M_{obf}^i - M_{og}^i\)：负值越大说明模型越依赖知识
- 基准验证：两名IOL奖牌获得者审计混淆题可解性；172人RCT显示人类仅下降5.7%

损失函数 / 训练策略¶

本文为评测基准。关键评估设计：

评估协议：每次prompt包含背景+上下文+所有问题+特定子问题，要求JSON输出
评分标准：严格Exact Match（不给部分分，防止通过重复上下文词获得虚假分数）
评估15个模型：包括GPT-5, Claude 3.7, o3-mini, Gemini, Llama等推理和通用模型

实验关键数据¶

主实验¶

15个模型在LingOly-TOO上的表现：

模型	\(M_{og}\)（原始）	\(M_{obf}\)（混淆）	\(M_{rob}\)（鲁棒）	下降幅度
GPT-5	~0.59	0.48	0.29	-0.11
Claude 3.7 (thinking)	~0.55	0.44	-	-0.11
Claude 3.7 (no thinking)	~0.40	0.30	-	-0.10
o3-mini (high)	~0.45	0.31	-	-0.14
o3-mini (low)	~0.25	0.13	-	-0.12

GPT-5按难度（\(M_{obf}\)）：Breakthrough=0.81, Round 2=0.31

消融实验¶

分析维度	结果
无上下文设置	\(M_{obf}\)降至0.02-0.03，混淆有效阻断知识捷径
Tokenization影响	改变分词策略不改善性能，排除tokenization解释
语言资源量效应	日语/芬兰语/意大利语\(\Delta_{obf}\)最大（-0.57~-0.59）
专家引导推理	提供中间推理步骤后\(M_{obf}\)从0.66升至0.76
未公开新题测试	UKLO 2025未发布题同样出现性能下降

关键发现¶

推理模型始终优于对应通用版本（o3-mini high vs low差18%），推理训练有实际效果
知识效应与语言资源量高度负相关（\(\beta < 0, p < 0.01\)，高资源语言膨胀最严重）
基准远未饱和：GPT-5在Round 2仅0.31，\(M_{rob}\)仅0.29
推理轨迹中常见重复分析、自相矛盾结论，推理一致性极差

亮点与洞察¶

正字法置换方法论优雅：grapheme级置换保留语言学推理逻辑，同时产生训练语料中不可能出现的字符序列
知识效应量化方法 \(\Delta_{obf}\) 首次提供从知识中分离推理能力的可操作方案
人类RCT验证混淆仅造成5.7%下降而模型下降11%+，性能差主要因知识依赖而非认知惩罚
\(M_{rob}\)揭示推理脆弱性：GPT-5从0.48降到0.29

局限与展望¶

严格Exact Match可能低估部分正确推理——但部分分数会虚假膨胀基线
仅覆盖自然语言模态的归纳/演绎推理，不涉及视觉或数学
82道基础题规模有限，置换规则需专家手工设计，自动化程度低
未探索更大范围的语言学现象或更多竞赛来源

评分¶

新颖性: ⭐⭐⭐⭐ 正字法混淆+知识/推理解耦设计精妙
实验充分度: ⭐⭐⭐⭐ 15模型+多维消融+人类RCT+未公开题验证
写作质量: ⭐⭐⭐⭐ 结构严谨，分析全面
价值: ⭐⭐⭐⭐⭐ 为LLM推理评测提供里程碑式的抗污染方法论