Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs¶

会议: ICLR 2026
arXiv: 2507.21914
代码: https://github.com/QinyuanWu0710/memorize-then-generalize
领域: 知识编辑
关键词: memorization, generalization, knowledge injection, rote learning, LLM training dynamics

一句话总结¶

提出"记忆-再泛化"（memorize-then-generalize）框架，通过先用无语义合成 token 死记硬背事实关联、再用少量语义提示微调的两阶段策略，揭示 LLM 能从死记硬背数据中泛化，且记忆越深泛化越好，同时指出该机制可被恶意利用的安全隐患。

死记硬背（rote learning）在深度学习中通常被视为过拟合的同义词，被认为会损害泛化能力。在 LLM 领域，这一看法尤其根深蒂固：

核心矛盾：事实知识的学习本质上需要一定程度的记忆，但记忆和泛化之间的关系在 LLM 中尚不清楚。grokking 现象暗示泛化可以在大量记忆之后涌现，但缺乏系统性研究。

切入角度：作者构造了一个精巧的二阶段框架来解耦记忆和泛化——Phase-1 强制纯粹的死记硬背（使用无语义 token），Phase-2 用极少量语义提示引导泛化。这种设计排除了语言理解的干扰，干净地测试"记忆的数据能否被重新解释"。

二阶段框架处理 ⟨subject, relation, object⟩ 三元组事实：

Phase-1 (Rote Memorization)：用合成无语义 key token [X] 替代关系描述，训练模型记忆 "Gene Finley [X] Cody Ross" 形式的关联。使用无监督 next-token prediction 训练多 epoch 直至完全记忆。
Phase-2 (Generalization)：对一小部分已记忆事实用语义化提示（如 "Who is Gene Finley's mother?"）进行 SFT，赋予 [X] 语义含义。

合成无语义 key token：
- 每个关系对应一个唯一的合成 token [X]，刻意不携带任何语义信息
- 作用：排除语言理解的干扰，隔离纯粹的记忆行为
- 验证：无 key token 时模型无法泛化（消融实验 Figure 9）
三层泛化评估：
- (a) Unseen associations：Phase-2 未见过的事实对能否用训练提示检索？
- (b) Unseen prompts：能否泛化到语义等价但措辞不同的新提示？
- (c) Unseen languages：能否跨语言（德/西/中/日）泛化？
全合成数据集：使用 GPT-4 生成 5 个 T-REx 关系（author, capital, educated at, genre, mother），每个关系 100 个虚构事实对 + 100 个多选干扰项 + 20 个提示变体 + 4 种语言翻译，避免预训练知识污染。

Phase-1 Epoch	Key Token Acc	Phase-2 k	Train Prompt Acc	Test Prompt Acc
3	0.48	50	0.38	0.35
6	1.00	50	0.94	0.89
10	1.00	50	0.94	0.98
20	1.00	50	1.00	0.98
10	1.00	1	1.00	0.75
20	1.00	1	1.00	0.76

方法	训练效率	准确率 (1 prompt)	跨语言	推理支持
Memorize-then-Generalize	高（1 token + k 对）	~0.76-1.00	✓ 强	✓ 反转/多跳
SFT	低（20× 长提示）	~0.3 (同 token 预算)	中	✗ 反转 0.01
ICL	无训练	高但不稳定	弱（高方差）	✓ (需上下文)

表示空间分析：Phase-1 期间，key token 的表示逐渐按关系聚类（ΔCosSim 从 0.058 增至 0.191）；Phase-2 后 key token 与语义提示的余弦相似度显著上升（Test: 0.58→0.71）
多跳推理增强：记忆 A→B 后学习 B→C，A→C 的准确率从 0.14 提升到 0.36（20 epoch）
恶意利用风险：记忆良性事实后，仅用 50 个恶意变体微调即可使模型同时回答良性和恶意提示（双重泛化），且外观上完全正常