跳转至

Extending the Context of Pretrained LLMs by Dropping Their Positional Embedding

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=RlPVSeKjoc
代码: 已随投稿开源(论文声明,链接待确认)
领域: llm_efficiency / 长上下文外推
关键词: 位置编码, RoPE, NoPE, 零样本上下文扩展, 长上下文, 预训练后处理

一句话总结

RoPE 在预训练时是加速收敛的关键归纳偏置,却也是阻碍长度外推的根源;本文提出 DroPE——预训练完成后直接删掉所有位置编码、再用极少 token 短暂"重校准",即可让 LLM 零样本泛化到远超训练长度的序列,无需任何长上下文微调。

研究背景与动机

领域现状:Transformer 注意力的二次复杂度使得直接在长序列上预训练代价高昂,因此"零样本上下文扩展"(不做长上下文微调就能用超过训练长度的序列)成为下一代基座模型的核心诉求。主流位置编码 RoPE 通过对 query/key 做相对旋转注入位置信息,已成事实标准。

现有痛点:当推理长度超过预训练长度时,RoPE 的旋转相位会落到训练时从未见过的区间(OOD),性能急剧下降。为此涌现了一批 RoPE 频率缩放法(PI、NTK-RoPE、YaRN、LongRoPE2),但它们仍需昂贵的长上下文微调,且开箱即用时无法真正跨远距离检索信息。另一条路线是从头训练无位置编码的 NoPE 架构,但 NoPE 全程性能逊于 RoPE,始终未能普及。

核心矛盾:位置编码身处一个根本性的两难——它在预训练阶段提供强归纳偏置、显著加速收敛(好处),但模型对这种显式位置信息的"过度依赖"恰恰是阻碍其外推到未见长度的元凶(坏处)。RoPE 缩放法试图缝合这道裂缝,却必然要压缩低频,从而扭曲负责语义匹配的注意力头。

本文目标:能否只在预训练阶段享用位置编码的归纳偏置,事后再把它丢掉,从而同时拿到"训得快"和"外推好"两边的好处?

核心 idea(先用后弃):本文给出肯定回答。RoPE 是一种瞬态但关键的训练归纳偏置——预训练时靠它快速建立位置感知,训练完成后把它整体删除,再用一小撮原长度 token 做短暂重校准,模型既不丢失原有能力,又解锁了强大的零样本长度泛化。

方法详解

整体框架

DroPE(Dropping Positional Embeddings)不改变常规训练流程,而是在一个已经用 RoPE 预训练好的 Transformer 之上做"摘除 + 重校准":拿到 RoPE checkpoint → 从每一层删除位置编码(退化为 NoPE 形式的纯因果注意力)→ 在原训练上下文长度上继续训练一小段(重校准)→ 推理时配合 softmax 温度缩放外推到更长序列。整套逻辑由三个递进的观察支撑:位置编码训练时有益(观察一)、RoPE 缩放注定外推失败(观察二)、位置编码可在训练后安全移除(观察三)。

flowchart LR
    A[RoPE 预训练<br/>享受归纳偏置加速收敛] --> B[删除所有层的<br/>位置编码 → NoPE 形式]
    B --> C[原长度上短暂重校准<br/>少量 token]
    C --> D[推理: softmax 温度缩放<br/>零样本外推到 2×~8× 长度]

关键设计

1. 诊断病根:位置编码是"训练快"与"外推好"不可兼得的根源。 论文先用注意力位置偏置泛函 \(A_c(\alpha)=\frac{1}{T}\sum_i\sum_{j\le i}c_{ij}\alpha_{ij}\) 量化注意力头的非均匀程度(如对角头把质量压在当前 token、即为 \(A_c\) 的最大化解)。理论上(Theorem 3.4)NoPE 在初始化时嵌入近乎均匀,这种均匀性会逐层传播,导致 \(A_c\) 及其梯度被一个与序列长度无关的小常数 \(C\varepsilon\) 界住——位置非均匀性发展得很慢,因此 NoPE 训练慢、性能差。一个极端例子(Prop 3.2)是常数序列下 NoPE 所有注意力权重恒为 \(\alpha_{ij}=1/i\)、query/key 梯度全为零;而 RoPE(Prop 3.3)即便在常数序列上也能产生非零 \(A_c\) 梯度。这解释了为什么 RoPE 训得快——但显式位置信息一旦写死,外推时就成了枷锁。

2. 揭示 RoPE 缩放为何注定失败:压低频必然移位语义头。 在每个 \((2m,2m{+}1)\) 子空间里相对距离 \(\Delta\) 的 RoPE 相位为 \(\phi_m(\Delta)=\omega_m\Delta\);要把 \(\Delta\)\(C_{train}\) 扩到 \(C_{test}=sC_{train}\) 而相位不越界,任何缩放法都必须取 \(\gamma_m\le 1/s\) 来压缩低频。问题在于:高频主要被位置头使用(对角/前一 token 等基于相对位置的模式),低频则被语义头使用(基于内容匹配的检索)。YaRN/PI/NTK 几乎不动高频却狠压低频,于是位置头基本不受影响、语义头却被严重移位,且距离越远 \(\phi_m(\Delta)\) 越大、\(1/s\) 的扭曲越剧烈。结果就是:困惑度看似维持(位置头还在),但远距离检索失败(语义头被搬走)——论文实测 YaRN 的零样本行为几乎等价于"把序列裁剪回训练长度",能保困惑度却看不见窗外的信息。这从机理上说明 RoPE 缩放的外推失败是结构性的、无法回避的。

3. DroPE 的"先用后弃":训练后摘除 + 短重校准 + 推理温度缩放。 既然位置编码训练有益、外推有害,最干净的做法就是只在预训练时留着它、训练完整体删掉。具体地,取 RoPE checkpoint,从每层移除位置旋转(变成 NoPE 形式,仍靠因果掩码隐式编码位置),在原训练长度上继续训练一小段做重校准——关键在于此时模型已经从 RoPE 阶段继承了成熟的位置感知,不必像 NoPE 那样从零慢慢长出来,因此只需极少 token 就能恢复原有能力。从头训练时这一步可"零额外成本"嵌入(如把 16K 步 RoPE 训练的最后 2K 步换成 DroPE);对已用数千亿 token 预训练好的现成模型(SMOLLM、LLaMA2-7B),只需 0.5%~2% 预训练预算的重校准即可。为支持高学习率重校准,DroPE 后会补一个 QKNorm(不改变模型容量),推理时再对 NoPE/DroPE 模型施加 softmax 温度缩放以稳定外推。

实验关键数据

主实验表格

零样本 NIAH(2× 训练上下文,500 次试验成功率):

方法 Multi-Query Multi-Key Multi-Value
RoPE transformer 0.0 0.0 0.0
RoPE + PI 0.0 0.0 0.0
RoPE + NTK 21.1 19.4 16.5
RoPE + YaRN 17.8 0.5 14.6
ALiBi 5.2 0.0 1.1
NoPE 9.2 36.2 21.4
RNoPE-SWA 5.2 25.6 20.6
DroPE 28.0 41.6 23.3

LongBench 长上下文任务(SMOLLM,预训练 2048 上下文):

方法 MultiFieldQA MuSiQue GovReport LCC NIAH Avg.
SMOLLM (base) 4.03 0.4 4.48 5.99 0.0 2.98
+ PI 13.68 2.45 5.67 11.52 0.0 6.66
+ NTK 18.87 4.89 23.71 8.26 29.84 17.11
+ YaRN 20.78 4.77 15.03 10.87 48.25 19.94
SMOLLM-DROPE 29.33 7.93 21.87 18.56 74.92 30.52

DroPE 把基座 SMOLLM 的平均分提升 10 倍以上

消融实验表格

长 NIAH 不同外推倍数下的成功率:

方法
SMOLLM + NTK 29.84 14.37 7.19
SMOLLM + YaRN 48.25 25.62 12.18
SMOLLM + LongRoPE2 44.20 26.20 16.45
SMOLLM-DROPE 74.92 55.00 52.20

更大模型上的长度泛化(LongBench 平均分):

模型 Base NTK YaRN DroPE
SMOLLM-1.7B 3.11 18.53 16.23 21.49
LLaMA2-7B 20.03 21.88 19.14 26.08

关键发现

  • 零额外成本嵌入预训练:把 16K 步 RoPE 训练的最后 2K 步换成 DroPE,最终原长度困惑度即可追平全程 RoPE,并优于全程 NoPE 基线。
  • 快速恢复:现成 SMOLLM 上,DroPE 仅用 <5B token(原预算的 0.8%)就恢复了 95%+ 的原始性能;最长 120B 重校准甚至超过原模型。
  • 倍数越大优势越大:在 8× 外推下,YaRN/LongRoPE2 崩到 12~16,DroPE 仍有 52.2,差距随外推倍数拉大。
  • 可扩展到大模型与现成 LLM:SMOLLM-1.7B(2% 预算)、LLaMA2-7B(0.5% 预算)重校准后均全面超过 SOTA RoPE 缩放法。

亮点与洞察

  • 观点反直觉且干净:业界默认位置编码是必需品、外推靠"修补 RoPE",本文反其道把它当成"用完即弃的训练脚手架",一删了之反而最优。
  • 理论与机理双线坐实:用 \(A_c\) 泛函的梯度界(Theorem 3.4)解释 NoPE 为何训练慢,用"压低频必移语义头"解释 RoPE 缩放为何注定外推失败——两个观察一正一反,逻辑闭环精彩。
  • 实用价值高:DroPE 可零成本塞进现有训练管线,也能用极小预算(<1%)就地升级任意现成 LLM,工程友好。

局限与展望

  • 仍需重校准:虽然成本极低,但"完全无需任何额外训练"尚未达到;删 PE 后必须配 QKNorm 并做短训练。
  • 推理需温度缩放:NoPE/DroPE 外推依赖 softmax 温度缩放这一额外推理技巧,其鲁棒性与超长(>8×)下的边界仍待更广验证。
  • 最大规模有限:实验止于 LLaMA2-7B 量级,对数百亿参数前沿模型与更复杂长上下文 agent 任务的效果有待检验。
  • NoPE 隐式位置容量:删除显式 PE 后模型完全依赖因果掩码隐式编码位置,极端长度下隐式位置信息是否足够仍是开放问题。

相关工作与启发

  • RoPE 缩放系:PI、NTK-RoPE、YaRN、LongRoPE2 是本文主要对手,论文从机理上论证了它们外推失败的必然性。
  • RoPE 变体与中间路线:p-RoPE、RNoPE-SWA、SWAN-GPT 等占据 RoPE 与 NoPE 之间的中间地带;本文则是彻底回到 NoPE 但靠"先 RoPE 后摘除"破解 NoPE 训练慢的老问题。
  • NoPE 理论:Kazemnejad、Haviv 等证明 NoPE 表达力足够、可用因果掩码重建位置;本文补上"为何 NoPE 训练慢"的训练动力学解释,是对该线的重要延伸。
  • 启发:归纳偏置不必"从一而终"——可以设计成阶段性的训练脚手架,在合适时机移除以换取更好的泛化,这一思路或可推广到其他显式先验。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "预训练后丢弃位置编码"是对位置编码角色的根本性重新认识,配以一正一反两个理论观察,原创性极强。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖从头训练与现成模型两种场景、多模型(SMOLLM-0.5B/1.7B、LLaMA2-7B)、2×~8× 多倍数、NIAH+LongBench 多任务,较扎实;唯模型规模上限偏小。
  • 写作质量: ⭐⭐⭐⭐⭐ 三观察递进、机理论证与图表紧密配合,逻辑闭环清晰,可读性强。
  • 价值: ⭐⭐⭐⭐⭐ 零成本嵌入训练 + <1% 预算升级现成 LLM,对长上下文基座模型的训练范式有直接落地意义。