Group Representational Position Encoding (GRAPE)¶
会议: ICLR 2026
arXiv: 2512.07805
代码: github.com/model-architectures/GRAPE
领域: 信号通信
关键词: 位置编码, 群论, RoPE, ALiBi, Lie群, 旋转编码, 长上下文
一句话总结¶
提出 GRAPE 框架,基于群作用(group actions)统一了 Transformer 中乘法型(RoPE)和加法型(ALiBi/FoX)两大位置编码家族,证明 RoPE 和 ALiBi 是其精确特例,并提出路径积分加法变体 GRAPE-AP 在下游任务上超越现有方法。
研究背景与动机¶
位置编码碎片化:现有方法包括绝对编码(sinusoidal/learned)、相对编码(RoPE)、线性偏置(ALiBi)和遗忘机制(FoX),各自独立设计,缺乏统一理论框架
RoPE 的局限性:RoPE 固定坐标平面和对数均匀频谱,无法实现跨子空间的特征耦合(cross-subspace coupling)和上下文相关的相位弯曲
绝对编码破坏平移等变性:基于表的相对编码引入窗口依赖的额外开销
缺乏理论保证:现有方法分散了稳定性、单调距离惩罚、表达力等关键性质,需要统一框架将这些性质整合
长上下文建模需求:长序列模型需要原理性的位置几何设计空间
方法详解¶
整体框架¶
GRAPE 把位置编码看成一个作用在 query/key 上的群作用 \(\mathbf{G}(n) = \exp(n\omega\mathbf{L})\):位置 \(n\) 通过李群指数映射变成一个变换矩阵,生成元 \(\mathbf{L}\) 决定它"长什么样"。当 \(\mathbf{L}\) 取反对称矩阵时,变换是 \(\mathrm{SO}(d)\) 里的保范旋转,对应乘法型编码 GRAPE-M(RoPE 是其特例);当 \(\mathbf{L}\) 取幂零矩阵时,变换是 \(\mathrm{GL}\) 里的幂么平移,给注意力 logit 加上线性偏置,对应加法型编码 GRAPE-A(ALiBi、FoX 是其特例)。整个设计空间由"选什么群、选什么生成元"两个旋钮统一参数化。
关键设计¶
1. 乘法型 GRAPE-M:用李代数生成元统一所有旋转式编码。 RoPE 之所以好用,是因为旋转矩阵天然满足相对律——只要把每个位置编码成一个旋转,注意力分数就只依赖相对偏移而非绝对位置。GRAPE-M 把这件事抽象成:用秩-2 反对称生成元 \(\mathbf{L} = \mathbf{ab}^\top - \mathbf{ba}^\top \in \mathfrak{so}(d)\) 通过指数映射造出旋转 \(\mathbf{G}(n) = \exp(n\omega\mathbf{L}) \in \mathrm{SO}(d)\)。这样构造的变换自动满足精确相对律 \(\mathbf{G}(n+m) = \mathbf{G}(n)\mathbf{G}(m)\)(注意力只看偏移 \(j-i\))和保范性 \(\mathbf{G}(n)^\top\mathbf{G}(n) = \mathbf{I}\)(不放大也不缩小特征)。算的时候不用显式矩阵化,直接用 Rodrigues 闭式 \(\exp(\mathbf{L}) = \mathbf{I} + \frac{\sin s}{s}\mathbf{L} + \frac{1-\cos s}{s^2}\mathbf{L}^2\),复杂度只有 \(O(d)\),和 RoPE 持平。把 \(d/2\) 个秩-2 生成元分别作用在正交的 2D 子空间上,再令子空间取标准坐标对、频率取对数均匀谱,就精确还原出 RoPE;而把子空间基设成可学习、把不同子空间做非交换混合,就比 RoPE 多出"跨子空间耦合"和"上下文相关相位弯曲"的表达力——这正是 RoPE 因固定坐标平面而做不到的事。
2. 加法型 GRAPE-A:用幂零生成元把线性偏置纳入同一框架。 ALiBi 这类方法不旋转特征,而是直接在 logit 上按距离扣分。GRAPE 通过齐次坐标把维度提升到 \(\mathrm{GL}(d+k)\),换用幂零生成元 \(\mathbf{A}\)(满足 \(\mathbf{A}^2=\mathbf{0}\)),此时指数映射截断成一阶 \(\mathbf{G}_\mathrm{add}(n) = \exp(n\omega\mathbf{A}) = \mathbf{I} + n\omega\mathbf{A}\),效果就是给注意力加一个随位置线性增长的平移项。在 \(\mathrm{GL}(d+2)\) 里取秩-1 幂零生成元,logit 恰好变成 \(\mathbf{q}_i^\top\mathbf{k}_j + (j-i)\beta_h\),与 ALiBi 逐字一致。把固定斜率换成内容相关的门控斜率,就得到 GRAPE-A-QK 变体:\(\text{logit} = \mathbf{q}_i^\top\mathbf{k}_j + (j-i)\omega[\text{softplus}(\mathbf{v}^\top\mathbf{q}_i/\sqrt{d}) + \text{softplus}(\mathbf{u}^\top\mathbf{k}_j/\sqrt{d})]\),让每个 token 自己决定"忘得多快"。当斜率退化为逐 token 的标量、令 \(\omega_t = \log f_t\)(\(f_t\) 是遗忘门),累积偏置就还原出 Forgetting Transformer 的遗忘偏置 \(D_{ij}\),说明 FoX 也只是 GRAPE-A 的一个路径依赖特例。
3. 路径积分变体 GRAPE-AP:把单步偏置升级为沿路径累加的内容相关偏置。 前面的加法偏置每一步是固定的,GRAPE-AP 让每一步的边势函数依赖当前内容:\(\psi_h(t,\ell) = \alpha_h \cdot g\left(\frac{1}{d}\langle\mathbf{p}_{t,h},\, \mathbf{R}_\ell\mathbf{p}_{\ell,h}\rangle\right) \leq 0\),再沿因果路径把它们累加成总偏置 \(b_h(t,j) = \sum_{\ell=j+1}^{t}\psi_h(t,\ell)\)。因为势函数恒非正、且按"逐步累加"的方式计算,它既保持了单调距离惩罚(越远扣得越多),又能根据中间 token 的内容动态调节惩罚力度,还天然满足因果约束、可增量更新支持流式推理与 KV-cache。这一项可以叠加在乘法型 GRAPE-M 之上联合使用,是论文实验里下游收益的主要来源。
实验¶
实验设置¶
- 基于 nanoGPT / Llama 架构,仅替换位置编码
- 数据集:FineWeb-Edu 100B(取 50B token 训练)
- 模型规模:Medium (350M, 24层8头) / Large (770M, 36层10头)
- 上下文长度 4096,batch size 480
- Baseline:RoPE, ALiBi, FoX
主实验 (Medium 350M, 0-shot, 7任务平均)¶
| 方法 | ARC-E | ARC-C | HellaSwag | PIQA | SciQ | Avg. |
|---|---|---|---|---|---|---|
| RoPE | 56.36 | 30.38 | 44.65 | 68.77 | 74.40 | 51.73 |
| ALiBi | 58.21 | 29.78 | 45.38 | 70.08 | 78.50 | 52.87 |
| FoX | 58.38 | 30.89 | 45.80 | 69.37 | 78.40 | 52.96 |
| GRAPE-A-QK | 57.95 | 32.00 | 45.77 | 69.37 | 79.00 | 53.00 |
| GRAPE-AP | 59.26 | 31.31 | 45.42 | 68.17 | 79.70 | 53.25 |
| GRAPE-AP+KV-shift | 57.32 | 30.55 | 46.18 | 69.10 | 79.60 | 53.46 |
主实验 (Large 770M, 0-shot, 7任务平均)¶
| 方法 | ARC-E | ARC-C | HellaSwag | PIQA | SciQ | Avg. |
|---|---|---|---|---|---|---|
| RoPE | 62.63 | 32.76 | 51.01 | 71.33 | 80.50 | 55.76 |
| ALiBi | 62.67 | 34.39 | 51.33 | 71.11 | 82.70 | 56.44 |
| FoX | 61.07 | 33.11 | 51.85 | 71.27 | 83.70 | 56.30 |
| GRAPE-AP | 63.89 | 34.22 | 51.52 | 71.98 | 84.40 | 56.91 |
| FoX+KV-shift | 63.55 | 33.96 | 52.72 | 71.71 | 83.20 | 57.09 |
| GRAPE-AP+KV-shift | 63.72 | 33.11 | 52.29 | 71.65 | 83.50 | 56.86 |
关键发现¶
- GRAPE-AP 在无 KV-shift 条件下全面最优:350M Avg. 53.25 > FoX 52.96 > RoPE 51.73;770M Avg. 56.91 > ALiBi 56.44
- 训练稳定性优势:RoPE 在 770M 训练中出现不稳定(loss spike),GRAPE 保持稳定改善
- 乘法型 GRAPE-M 与 RoPE 持平:验证了理论等价性,GRAPE-M 本身未显著超越 RoPE
- 加法型是核心增益来源:GRAPE-A 和 GRAPE-AP 系列一致优于纯乘法方法
- KV-shift 与 GRAPE-AP 互补:加入 KV-shift 后 350M 进一步提升至 53.46
亮点¶
- 优雅的理论统一:用 Lie 群框架将看似不相关的 RoPE、ALiBi、FoX 统一为同一数学对象的特例,给出严格证明
- 实用性强:Rodrigues 闭式公式使得计算复杂度与 RoPE 一致(\(O(d)\)),流式推理/KV-cache 完全兼容
- 设计空间可扩展:框架自然给出可学习正交基、内容门控斜率、路径积分偏置等扩展方向
- 数学表述严谨:群论视角为位置编码提供了清晰的几何直觉(旋转平面、幂么平移)
局限性¶
- 实验规模有限:仅在 350M/770M 模型上验证,缺少 >1B 大模型实验;训练仅 50B token
- GRAPE-M 未显著超越 RoPE:乘法型的理论优势(可学子空间、非交换混合)在实验中未体现明显增益
- 长上下文评估缺失:训练仅用 4096 上下文,未测试长上下文外推能力(这恰是 ALiBi/RoPE 的关键差异场景)
- 路径积分 GRAPE-AP 计算开销未充分分析:边势函数需要逐步计算内积,实际推理延迟未报告
- 下游任务覆盖有限:仅做 0-shot LM evaluation,缺少生成质量、微调后的评估
相关工作¶
- RoPE (Su et al., 2021): GRAPE-M 的精确特例(标准坐标对 + 对数均匀谱)
- ALiBi (Press et al., 2021): GRAPE-A 在 \(\mathrm{GL}(d+2)\) 中的精确特例
- Forgetting Transformer (FoX) (Lin et al., 2025): 证明为 GRAPE-A 的路径依赖形式
- PaTH Attention (Yang et al., 2025): 论文分析其为收缩性的、近奇异的,可能损害长上下文建模
- NoPE / 无位置编码: 未在框架中讨论
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 群论统一视角非常优雅,RoPE/ALiBi/FoX 的精确恢复证明是亮点
- 实验充分度: ⭐⭐⭐ — 模型规模偏小,缺少长上下文和大模型验证
- 写作质量: ⭐⭐⭐⭐ — 数学推导清晰严谨,但符号较多,门槛偏高
- 综合价值: ⭐⭐⭐⭐ — 理论贡献显著,为位置编码设计提供了统一原则性框架