LLM Benchmark Datasets Should Be Contamination-Resistant (Position Paper)¶

会议: ICML 2026
arXiv: 2605.19999
代码: 无（position paper）
领域: LLM安全 / 评测基准 / 数据污染
关键词: 基准污染, 抗污染数据集, KV-cache, 训练-推理不对称, 跨模型互操作

一句话总结¶

本文是一篇 position paper，主张 LLM 基准应抗污染（contamination-resistant）——即可推理但不可训练；提出利用 Transformer 训练 vs 推理流水线的根本不对称性（训练需要全 token，推理只需 KV-cache + 倒数第二层 hidden state），把基准发布形式从明文换成 KV-cache + 中间隐藏态，配合跨模型 subspace alignment / relative representation 解决互操作问题，呼吁社区采纳。

研究背景与动机¶

领域现状：LLM benchmark contamination 已是普遍现象：GPT-3 训练时 90%+ 的 MMLU 样本被检出，Llama 2 仍有 16% 的 MMLU 污染，多语言基准检出污染高达 91.8%。一旦基准被预训练吃进去，模型在该基准上的分就反映"记忆能力"而非"泛化能力"——Zhang et al. 2024 用 GSM8K 的非公开镜像测 Mistral，准确率掉 13%。

现有痛点：现有对策都不彻底： - 保持私有 + 第三方评测：阻止泄漏但抬高了创新门槛，独立验证变难 - dynamic benchmarking（动态更新）：每次换，长期对比丢失基线 - decontamination（识别并删除泄漏样本）：万亿 token 语料下识别精度急剧下降 - rephrase（改写）：质量和难度都会损失

更关键的是，基准一旦公开就快速被仓库 / 论坛 / 二级数据集复制，连 gated 基准也会通过蒸馏 / 持续预训练间接漏入。

核心矛盾：基准要可用于评测（推理）就要让模型接触到内容；但内容公开就一定会泄入下次训练。看上去无解。

本文目标：建立"抗污染数据集 (CRD)"的概念框架——发布的形式必须保持推理可用，但不可被训练学到。

切入角度：Transformer 训练和推理流水线在数学上根本不对称——训练需要序列全 token 算梯度（next-token prediction loss 要求看到 prefix 全 token），推理只需要 KV-cache 和倒数第二层 hidden state。如果发布形式只暴露推理需要的部分而隐藏训练需要的部分，理论上就能可推理不可训练。

核心 idea：发布基准时只给 (KV-cache, h^{(L-1)}_t, Y) 三元组（KV-cache + 倒数第二层 hidden state + 明文 ground truth），不给原始 token；推理时模型可继续生成，训练时缺少 token 序列无法计算 loss；通过跨模型 representation alignment 让一份基准能服务多种 LLM。

方法详解¶

整体框架¶

Definition 2.1 (CRD)：对模型 \(\mathcal{M}\) 和变换 \(\phi\)，数据集 \(\phi(\mathcal{D})\) 是抗污染的，若： - 推理可用：\(\mathcal{M}(\phi(\mathcal{D}))\) 给出有效任务表现 - 不可训练：\(\nabla_\theta \mathcal{L}(\mathcal{M}_\theta, \phi(\mathcal{D}))\) 不能改善模型泛化

CRD 必须满足三性质： 1. 不可逆（Irreversibility）：给 \(\phi(\mathcal{D})\) 重建明文 \(\mathcal{D}\) 在算力上不可行 2. 等价（Equivalence）：\(\mathcal{M}(\phi(\mathcal{D})) \approx \mathcal{M}(\mathcal{D})\) 3. 互操作（Interoperability）：能从 \(\phi(\mathcal{D})\) 得到适用于其他 LLM \(\mathcal{M}_1\) 的 \(\phi_1(\mathcal{D})\)

评测流程：Curation（用 anchor 模型把 prompt 投到 latent）→ Discovery（target 模型先做 anchor→target 转换映射）→ Evaluation（target 模型在转换后的 latent 上自回归续写）。

关键设计¶

利用 Transformer 训练-推理不对称发布 CRD:
- 功能：从根本上让基准数据"可推理不可训练"
- 核心思路：训练时 next-token loss \(\mathcal{L} = -\sum_t \log P(x_t | x_{<t})\) 需要看到所有 \(x_1, \dots, x_T\) 才能算每层 hidden state；推理时只需 KV-cache \(\{K_{1:t}^{(l)}, V_{1:t}^{(l)}\}_{l=1}^L\) 和倒数第二层 \(h_t^{(L-1)}\) 就能生新 token。CRD 只发布后者
- 设计动机：之前的 unlearnable data 方法（对抗扰动 / shortcut / 投毒）针对图像设计，对离散文本基本失效（paraphrase 一下就消）；本文绕开"数据级混淆"路线，从架构层面切——攻击者拿到 KV-cache 也没办法直接 fine-tune
anchor model + subspace alignment 解互操作（近期方案）:
- 功能：让一份 anchor-encoded 基准服务多种 target LLM
- 核心思路：基准发布方选一个广泛部署的 anchor 模型编码 KV-cache；target 模型用 Cross-LoRA 风格的 LoRA-Align（rank-truncated SVD + Frobenius-optimal 线性映射）从 anchor 子空间投到 target 子空间；类似 Procrustes 但放松到任意线性映射，允许维度不同；映射只用模型权重不接触明文，保持 irreversibility
- 设计动机：不能为每个 LLM 都发一份基准；anchor + alignment 让一份基准可复用；选 anchor 时按架构相似度（GQA / SwiGLU / RMSNorm）最大化迁移保真度
relative representations 作为长期愿景:
- 功能：彻底脱离 anchor model，让所有 LLM 在共享坐标系下被评测
- 核心思路：基于 Platonic Representation Hypothesis（不同模型表示在收敛）+ Moschella 2023 的 relative representations，定义共同的少量 anchor 样本（100–500 个），每个 latent 点用对 anchor 样本的相似度向量表示；这套表示在任意 latent 空间下角度不变，所以可零样本跨模型 stitch
- 设计动机：anchor-model 路线偏向某个模型族；relative representation 真正对称、可加入新模型只需处理共享 anchor，并天然扩展到多模态

抗逆向工程的辅助设计¶

KV-cache 反演攻击在 MHA 上可行，但 GQA / MLA 等现代架构上效果差很多；可叠加输出加噪、熵扰动、DP 机制或 KV-Cloak 等防御。对高敏感场景甚至可不公开 anchor 权重，由第三方提供 encoding API。

实验关键数据¶

污染普遍性（综述图）¶

模型	基准	污染比例
GPT-3	多基准	> 90% 标记
Llama-2	MMLU	16%+
主流 LLM 平均	多语言基准	高达 91.8%
Mistral	GSM8K 镜像 vs. 公开版	准确率差 13%

存储开销可控¶

基准	原始 token 数	完整 KV-cache	PyramidKV (12%) 压缩	进一步丢非关键 token
100K tokens (Llama-2 7B)	100K	50 GB	6 GB	350 MB
MMLU	~5M	2.5 TB	300 GB	~17 GB

PyramidKV 等 KV-cache 压缩工作显示保留 12% 就够；删除格式化 / 通用指令 token 可继续降至 0.7%。

适配性表¶

基准类型	例子	CRD 兼容
单回合 QA	MMLU, SQuAD, HumanEval	✅
分类/标注	GLUE, SuperGLUE, ImageNet	✅
多模态	COCO, Flickr30K	✅
代码生成	CodeContests, APPS	✅
摘要	CNN/DailyMail, XSum	✅
多轮对话	CoQA, MultiWOZ	⚠️ 部分（输入输出耦合）
动态 agent	WebShop, ALFWorld	❌（环境反馈交织）
交互式	DynaBench, AdaTest	❌（实例随输出变）

关键发现¶

方法兼容大部分静态基准：QA / 分类 / 代码 / 摘要这些主流基准都 OK
存储不是阻塞：KV-cache 压缩 + 选择性 drop 后存储与原基准在同量级
不可逆性强度依赖架构：GQA 等现代注意力使反演攻击效果大幅下降
互操作有现成技术基础：Cross-LoRA / relative representations 已经在 representation transfer 文献里验证

亮点与洞察¶

从架构层面而非数据层面解决污染：以往 unlearnable data 都是"扰动 + 加噪"思路，本文是"换发布介质"——这是更根本的范式转变
训练-推理不对称是个被低估的 free lunch：Transformer 本身的数学结构就提供了"只推理不训练"的边界，没人想到能拿来防污染
三性质（irreversibility / equivalence / interoperability）的明确刻画：把模糊的"抗污染"概念变成可检验的属性集合，有利于后续工作系统化
跨学科借用：从 Platonic Representation Hypothesis、Cross-LoRA、relative representations 等 representation learning 工作里借工具，证明 representation alignment 文献的成果直接转化为评测基础设施

局限性 / 可改进方向¶

仅适用 Transformer 类模型；Mamba / RWKV 等 SSM 系不直接适用
KV-cache 反演在 MHA 模型上仍可行；GQA / MLA 给出实践安全但不是数学保证
equivalence 难严格验证——基准发布方需要标准化的 calibration / backtest 协议
anchor 模型选择本身可能带偏（小模型族被边缘化）
多轮、动态、交互式基准（CoQA / WebShop / DynaBench）需要专门改造
存储增量虽然可控（350MB/100K token），全 MMLU 量级仍 17GB+，长期累积仍需优化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从架构不对称发布 CRD 是真正的全新方向，与所有现有反污染路线正交
实验充分度: ⭐⭐⭐（position paper）—— 主要是论证 + 可行性分析，没有 SOTA 数字；但兼容性表 + 存储估算清晰
写作质量: ⭐⭐⭐⭐ 三性质形式化清晰，训练-推理图（Fig 3）直观，跨学科文献综合扎实
价值: ⭐⭐⭐⭐⭐ 解决的是评测体系层面的根本问题；如果社区采纳，LLM 评测的可靠性会有质的提升