SLAY: Geometry-Aware Spherical Linearized Attention with Yat-Kernel¶

会议: ICML 2026
arXiv: 2602.04915
代码: 无
领域: 线性注意力 / Transformer 高效化 / 长上下文建模 / 核方法
关键词: Yat-kernel, 球面归一化, Bernstein 定理, 正随机特征, Gauss–Laguerre 求积

一句话总结¶

SLAY 把受物理"逆平方相互作用"启发的 Yat-kernel 通过 (1) 球面归一化 (2) Bernstein 定理的 Laplace 积分表示 (3) Gauss-Laguerre 求积 (4) 多项式+指数核张量积正随机特征四步连击线性化，得到 \(O(L)\) 时间复杂度且与 softmax 几乎无差异的注意力机制。

研究背景与动机¶

领域现状：标准 Transformer 用 softmax 注意力，要构造 \(L \times L\) 矩阵，时空都是 \(O(L^2)\)，长上下文场景下成本爆炸。已有大量 efficient attention 工作：聚类/哈希 (Reformer)、核近似 + 随机特征 (Performer/FAVOR+)、低秩 (Linformer)、滑窗等。

现有痛点：(1) 早期 Rahimi-Recht 风的三角随机特征会产生负值，训练不稳；Performer 用正随机特征 (PRFs) 解决了稳定性但仍只逼近 softmax 那一类核。(2) softmax 把"对齐"和"模长"耦合在 \(\exp(\mathbf{q}^\top \mathbf{k})\) 里，需要小心 normalize/stabilize。(3) 新兴的 Yat-kernel \(\text{Yat}(\mathbf{q}, \mathbf{k}) = (\mathbf{q}^\top \mathbf{k})^2 / (\|\mathbf{q} - \mathbf{k}\|^2 + \epsilon)\)（受逆平方力启发）天然几何感知——既奖励对齐又惩罚距离，但不可因子化：\(\|\mathbf{q} - \mathbf{k}\|^2 = \|\mathbf{q}\|^2 + \|\mathbf{k}\|^2 - 2\mathbf{q}^\top \mathbf{k}\) 把 q/k 耦合进分母，无法走 Performer 那条"分解—重排"路线，naive 实现仍是 \(O(L^2)\)。

核心矛盾：想要 Yat-kernel 的几何感知性（自正则 + 自由活动），又想要线性时间复杂度——但分母里的距离项天然不可分。

本文目标：(1) 设计一种保持 Yat-kernel 几何性质但可分的核变体；(2) 推导其线性时间近似；(3) 在保持 softmax 级别性能的同时让随机特征数控制得住；(4) 严格论证非负性以避免 negative-attention 不稳定。

切入角度：作者注意到，若把 q/k 强制到单位球面 \(\mathbb{S}^{d-1}\)，则 \(\|\mathbf{q}-\mathbf{k}\|^2 = 2 - 2\mathbf{q}^\top\mathbf{k}\)，整个 kernel 就只依赖角对齐 \(x = \mathbf{q}^\top \mathbf{k} \in [-1, 1]\)，记作 \(\text{Yat}_{\text{sph}}(\mathbf{q}, \mathbf{k}) = x^2 / (C - 2x)\)，\(C = 2 + \epsilon\)。这就把 q/k 解耦了，但 \(1/(C-2x)\) 仍不是因子化形式，怎么办？用 Bernstein 定理把 \(1/y\) 写成 \(\int_0^\infty e^{-sy} ds\)，再做 Gauss-Laguerre 求积离散化，每个节点都是一个多项式 × 指数核——而这两类核都有现成的正随机特征。

核心 idea：球面归一化解耦 + Bernstein 拉普拉斯积分把不可分核写成正混合的指数簇 + Gauss-Laguerre 求积 + 张量积正随机特征——四步把"几何感知 + 线性时间 + 训练稳定"打包在一起。

方法详解¶

整体框架¶

四步流水线：(1) 球面归一化——q/k 每行 L2 归一化使其落在单位球面，让 Yat-kernel 退化为只依赖角对齐 \(x\) 的标量函数 \(\text{Yat}_{\text{sph}}(\hat{\mathbf{q}}, \hat{\mathbf{k}}) = x^2 / (C - 2x)\)；(2) Bernstein 拉普拉斯积分——把分母 \(1/(C-2x)\) 写成 \(\int_0^\infty e^{-s(C-2x)} ds\)，整个核变成 \(\int_0^\infty e^{-sC} \cdot [x^2 e^{2sx}] ds\)，是一个正权混合的"二阶多项式 × 指数 dot-product 核"；(3) Gauss-Laguerre 求积——用 \(R\) 个节点 \(\{s_r, w_r\}\) 离散积分；(4) 张量积正随机特征——对每个节点 \(s_r\) 构造 \(\Psi_r(\mathbf{u}) = \sqrt{w_r} \cdot \mathcal{S}(\phi_{\text{poly}}(\mathbf{u}) \otimes \phi_{\text{PRF}}(\mathbf{u}; s_r))\)，其中 \(\mathcal{S}\) 是 sketching 算子；最后拼接所有节点的特征得到 \(\widetilde{\Psi}(\mathbf{u})\)，注意力按 \(\hat{\mathbf{Y}} = \widetilde{\Psi}(\mathbf{Q}) (\widetilde{\Psi}(\mathbf{K})^\top \mathbf{V}) / \widetilde{\Psi}(\mathbf{Q})(\widetilde{\Psi}(\mathbf{K})^\top \mathbf{1})\) 计算，永不显式构造 \(L \times L\) 矩阵。

关键设计¶

球面 Yat 核 + Bernstein 积分线性化:
- 功能：把不可分的几何感知核重写成可线性化的"正混合"形式。
- 核心思路：单位球面归一化让 \(\|\hat{\mathbf{q}} - \hat{\mathbf{k}}\|^2 = 2(1 - \hat{\mathbf{q}}^\top \hat{\mathbf{k}})\)，整个 kernel 缩成 \(x^2/(C-2x)\)，可写为球面弦距离正则的对齐分数 \(\text{Yat}_{\text{sph}} = (\hat{\mathbf{q}}^\top \hat{\mathbf{k}})^2 / (d_{\mathbb{S}^{d-1}}^2 + \epsilon)\)。函数 \(g(y) = 1/y\) 在 \((0, \infty)\) 上完全单调（Bernstein 定理），故有 Laplace 表示 \(1/y = \int_0^\infty e^{-sy} ds\)。代入 \(y = C - 2x\)（在 \(x \in [-1, 1]\) 上 \(y \ge \epsilon > 0\) 满足条件），得 \(\text{Yat}_{\text{sph}} = \int_0^\infty e^{-sC} \cdot x^2 e^{2sx} ds\)，正权混合的 polynomial × exponential dot-product 核。
- 设计动机：把不可分核分解为"基本可线性化的核的正加权和"是 Performer 之外的另一条线性化套路——只要每个原子核都有正随机特征近似，加权和的近似也保持非负。
Gauss-Laguerre 求积 + 张量积正特征 (Anchor + PRF):
- 功能：把积分离散成有限个核乘积，再用现成 RF 工具近似各因子。
- 核心思路：用 \(R\) 点 Gauss-Laguerre 求积 \(\int_0^\infty e^{-sC} h(s) ds \approx \sum_r w_r h(s_r)\)（节点 \(s_r = t_r/C\), 权重 \(w_r = \alpha_r/C\)）。多项式因子 \((\hat{\mathbf{q}}^\top \hat{\mathbf{k}})^2\) 用 anchor features \(\phi_{\text{anc}}(\mathbf{x}) = \frac{1}{\sqrt{P}}[(\mathbf{x}^\top \mathbf{a}_i)^2]_{i=1}^P\)（默认；保持非负且不需 Gram 矩阵反演）；指数因子 \(e^{2s \hat{\mathbf{q}}^\top \hat{\mathbf{k}}}\) 用 Choromanski 的 PRF \(\phi_{\text{PRF}}(\mathbf{u}; s) = \frac{1}{\sqrt{D}}[\exp(\sqrt{2s} \omega_i^\top \mathbf{u} - s)]_{i=1}^D\)（\(\omega_i \sim \mathcal{N}(0, I_d)\)，单位球面上无偏估计指数核）。Tensor Product Sketch \(\mathcal{S}\) 融合两者并降维，避免显式 \(D_p \cdot D_r\) 维 Kronecker 向量。
- 设计动机：anchor features 比 TensorSketch / Random Maclaurin 慢一点但保非负——这对避免分母抵消导致的数值崩溃至关重要。论文 Table 1 把四种多项式核近似比较，唯一同时"unbiased + 非负"的就是显式 \(\text{vec}(uu^\top)\)（\(d^2\) 维太大）和 anchor。Table 2 实证 anchor 在 489ms 内达到最低 relative L2 error，胜过 Laplace-only (1906ms)，TensorSketch/RM/Nystrom 误差大三到四个数量级。
线性时间注意力计算 + 数值稳定化:
- 功能：把所有特征装配后用标准线性注意力重排，避免显式构造 \(L \times L\) 矩阵。
- 核心思路：拼接所有节点的特征得 \(\widetilde{\Psi}(\mathbf{Q}), \widetilde{\Psi}(\mathbf{K}) \in \mathbb{R}^{L \times m}\)（\(m = O(R D_t)\)），注意力按 \(\hat{\mathbf{Y}} = \widetilde{\Psi}(\mathbf{Q})(\widetilde{\Psi}(\mathbf{K})^\top \mathbf{V}) / \widetilde{\Psi}(\mathbf{Q})(\widetilde{\Psi}(\mathbf{K})^\top \mathbf{1})\) 计算，分子是 \(L \times d_V\)，分母是 \(L \times 1\) 向量按行广播。整体时间复杂度 \(O(L m d_V)\)，空间 \(O(Lm)\)，再也不出现 \(L^2\)。分母加小稳定项 \(\delta\) 防除零。
- 设计动机：这是 Performer 标准套路；本文的创新在前三步（如何得到 \(\widetilde{\Psi}\)），第四步是顺水推舟。

损失函数 / 训练策略¶

本文不改训练损失，只改注意力机制；SLAY 作为 drop-in 替换其他 attention（softmax / Performer FAVOR+ / Cosformer / Linear ELU+1）保持其他超参不变，便于公平比较。

实验关键数据¶

主实验¶

五维度评估：(1) 多项式因子近似方法对比；(2) 计算成本扩展性；(3) 22 个合成任务（核心能力测试）；(4) 极端分类；(5) 完整 Transformer 模型训练。

评估场景	指标	SLAY (Anchor)	对比	备注
多项式核近似质量	Rel. L2↓	0.527	Laplace-only 0.544; Nystrom 70.3; TensorSketch 24823	anchor 误差最小
多项式核近似延迟	Latency (ms)↓	489	Laplace-only 1906; Hadamard 1932	anchor 快 4×
多项式核近似余弦	Cos↑	0.850	Hadamard 0.732; Nystrom -0.009	anchor 最高对齐
长序列扩展 (A100)	序列长度上限	131K	Standard OOM 较早	\(O(L)\) 内存/计算
Transformer 端到端	性能差距 vs softmax	"几乎不可区分"	Performer/Cosformer 显著退化	论文核心结论

消融实验¶

配置	关键指标	说明
完整 SLAY (球面 + Bernstein + GL + Anchor + PRF)	最优	—
w/o 球面归一化	不可分仍 \(O(L^2)\)	球面是线性化前提
TensorSketch 代替 Anchor	误差 4 个数量级	失去非负性，分母抵消崩溃
Nystrom 代替 Anchor	误差不可接受	需 Gram 反演损失非负
Laplace-only (无 polynomial factor)	误差略大且慢 4×	多项式因子是几何感知关键
Hadamard (共享 \(\omega\))	误差与 exact softmax 接近但延迟 1932ms	不实用

关键发现¶

Anchor features 是 sweet spot：保非负、无偏、\(O(dP)\) 廉价，比 Nystrom 稳定，比 TensorSketch/RM 精确。
非负性是稳定性的根本：有符号近似 (TensorSketch/RM/Nystrom) 在分母处可能产生负值，导致除零或抵消，论文专门留 Appendix L.2 论证。
球面归一化 + Bernstein 是把"不可分核"线性化的可推广套路——任何"距离正则的对齐分数"都可以用此模板。
在 131K 序列长度下 SLAY 仍可正常运行，而 standard attention 早已 OOM。

亮点与洞察¶

Bernstein 定理把不可分核炼成正混合：这是数学工具应用的漂亮典范——把数值线性代数和概率核方法连起来。
"几何感知" + "线性时间" 二选一被打破：Yat-kernel 的物理直觉（逆平方相互作用）被保留，同时享受 \(O(L)\) 复杂度。
Anchor features 作为多项式核 sweet spot：作者把四种竞争方法整理成 Table 1，按维度/成本/无偏/非负四个维度比较，是非常清晰的工程决策示范。
这套"球面化 + Bernstein + GL + tensor-product RF"是通用模板，可移植到其他物理启发或几何启发的核（如多极/Coulomb 形式）。

局限与展望¶

求积节点数 \(R\) 与 PRF 数 \(D\) 是超参，需要扫描；论文未给自动选择策略。
多项式因子是固定的二次（\((\hat{\mathbf{q}}^\top \hat{\mathbf{k}})^2\)）；若要更高阶多项式调控锐度，需要重新设计 anchor features。
当前实验主要验证 transformer encoder 风格任务；自回归 LM、code 任务、多模态等需要进一步验证。
球面归一化抹掉了 q/k 的模长信息——这可能让模型损失某些"权重大小"信号；但作者论证这是 softmax 类似的归一化代价。
默认 anchor 数 \(P\)、PRF 数 \(D\)、求积阶 \(R\) 之间的最优配置随 d 和 L 变化，工程上需要 case-by-case 调。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 Bernstein 定理引入注意力线性化是真正新颖的数学操作；球面化 + Yat 几何感知是新方向
实验充分度: ⭐⭐⭐⭐ 五维度评估很完整（多项式近似/扩展/合成任务/极端分类/端到端 Transformer），缺自回归 LM 大规模验证
写作质量: ⭐⭐⭐⭐⭐ 每一步推导都有定理 + Remark 支持，数学严谨且工程实现清晰
价值: ⭐⭐⭐⭐ 提供 softmax 级别性能 + \(O(L)\) 复杂度的高质量替代品；anchor features 的整理对线性注意力社区有直接参考价值