QUEST: A Robust Attention Formulation Using Query-Modulated Spherical Attention¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=HkztQWZfl2
代码: 待确认
领域: Transformer 架构 / 注意力机制 / 训练稳定性 / 鲁棒性
关键词: 注意力机制, 训练稳定性, 超球面归一化, 鲁棒性, Vision Transformer

一句话总结¶

QUEST 把标准缩放点积注意力中的 key 向量归一化到超球面、同时保留 query 的范数自由度（即 \(A=\mathrm{softmax}(Q\bar{K}^\top)\)），用一个不到一行的改动同时消除了注意力 logit 爆炸导致的训练不稳定、并让模型学到更分散、更鲁棒的注意力，在 ImageNet 分类、分割、对抗攻击等多个任务上稳定地优于标准注意力与 QKNorm。

研究背景与动机¶

领域现状：Transformer 的核心是缩放点积注意力（SDPA）\(A=\mathrm{softmax}(C\,QK^\top)\)，其中 \(C=1/\sqrt{D_H}\) 是固定缩放因子。这套公式被 ViT、GPT、PointTransformer、Conformer 等几乎所有变体沿用，但大模型训练时经常出现不稳定，业界靠初始化技巧、学习率调度、各种 normalization 和优化策略来缓解，却始终没把"为什么会不稳定"讲清楚。

现有痛点：作者把 SDPA 拆开看——令 \(q=\|q\|\bar q\)（范数乘单位向量），单个 token 的注意力可写成 \(A_i=\mathrm{softmax}\big(C\|q_i\|\|k_j\|(\bar q_i\cdot \bar k_j)\big)_j\)。这暴露出两个被忽视的角色：query 范数 \(\|q_i\|\) 缩放该 token 的所有 logit，控制其注意力分布的"锐度"（范数大 → 注意力集中在少数 token，范数小 → 更平滑）；而 key 范数 \(\|k_j\|\) 会放大某个 token \(j\) 在所有 query 眼里的得分，让它"全局抢注意力"。当 query/key 范数在训练中任意增长，logit 就会爆炸，模型卡在次优解。

核心矛盾：现有的稳定化方案 QKNorm（把 query 和 key 都做 \(\ell_2\) 归一化，再用可学习参数 \(C_q,C_k\) 逐维或逐头重新缩放）确实能稳住训练，但它用同一个缩放因子作用到所有 token，强行让每个 token 的注意力锐度一致，牺牲了表达力——在小模型上甚至比标准注意力还差。于是"训练稳定"与"注意力表达力"之间形成了 trade-off。

本文目标：找到一个既能消除范数爆炸、又不牺牲 per-token 锐度控制的注意力公式，而且要能作为 drop-in 替换塞进任意 Transformer。

切入角度：既然 query 范数负责"有用的"锐度控制、key 范数负责"有害的"全局抢注意力，那为什么要把两者一起归一化？只归一化其中一边，就能在打破 query↔key 梯度交叉耦合的同时，保住一边的范数自由度。

核心 idea：只归一化 key、让 query 保持自由——key 被约束到超球面（排序完全由 query-key 的余弦相似度决定），query 范数继续让每个 token 独立调节自己的注意力锐度。

方法详解¶

整体框架¶

QUEST 不改变 Transformer 的任何其它结构，只替换注意力那一步的计算公式。标准多头自注意力中，每个头把输入序列 \(X\in\mathbb{R}^{N\times D}\) 投影出 \(Q=XW_Q^\top\)、\(K=XW_K^\top\)、\(V=XW_V^\top\)，再算 \(Z=\mathrm{softmax}(C\,QK^\top)V\)。QUEST 把这里改成：

\[A=\mathrm{softmax}\big(Q\bar{K}^\top\big),\qquad \bar K = \text{对 }K\text{ 逐行做 }\ell_2\text{ 归一化}\]

注意两点：只归一化 key，query 完全不动；并且不再用任何缩放因子（即 \(C=1\)）。这样一来，注意力 logit \(= \|q_i\|\,(\bar q_i\cdot \bar k_j)\) 的排序完全由超球面上 query 与 key 的余弦对齐决定，而每个 query 的范数 \(\|q_i\|\) 独立控制它自己那一行 softmax 的锐度。这是一个高度可解释、且只需几行代码的修改，能直接套进 ViT、语言模型、图 Transformer、时间序列、点云等各种架构。

为了把设计动机讲透，论文还对照了一组邻近变体：标准注意力（key/query 都不归一化）、QNorm（只归一化 query）、QKNorm-HS（query/key 都归一化、每个头一个可学习标量 \(C\in\mathbb{R}^H\)）、QKNorm-DS（每个特征维一组可学习 \(C_q,C_k\in\mathbb{R}^{D_H}\)）。QUEST 处在"只归一化 key 且不加缩放"这个此前文献从未尝试过的位置上。

关键设计¶

1. 球面化 key、自由化 query：用单边归一化同时拿下稳定性与表达力

标准注意力之所以不稳，是因为 key 范数能任意增长、让某个 token 在所有 query 眼里都得分极高，把注意力"全局抢走"，进而推高 logit 引发爆炸。QUEST 把 key 逐行 \(\ell_2\) 归一化到超球面（\(\|\bar k_j\|=1\)），从机制上断掉了"靠涨 key 范数抢注意力"这条路——任何 token 都不可能仅凭范数大就垄断注意力。但与 QKNorm 不同的是，QUEST 不动 query：保留的 query 范数 \(\|q_i\|\) 让每个 token 仍能独立选择"看得专注还是看得分散"，因此不会像 QKNorm 那样把所有 token 的锐度锁死、损失表达力。一句话，QUEST 砍掉了 key 范数这个"有害自由度"，保住了 query 范数这个"有用自由度"，这正是它能在稳定与表达之间两头都占的原因。

2. 为什么是归一化 key 而不是 query：切断 query↔key 梯度的交叉耦合

标准注意力训练崩坏的一个加速器，是 query 与 key 参数更新之间的"交叉作用"——logit 里 \(\|q_i\|\|k_j\|\) 相乘，使得 query 范数的梯度依赖 key 范数、反之亦然，两者互相助推一起膨胀。归一化其中任意一边都能打破这种耦合，所以论文也认真评估了对称的另一半 QNorm（只归一化 query）。QNorm 确实减轻了交叉耦合、比标准注意力略好，但它把 key 留作自由——key 范数照样能增长、照样能全局抢注意力，因此并没有堵住真正的失败机制。QUEST 选择归一化 key，恰好命中"全局抢注意力"这个病根，同时把锐度控制权留给 query。值得一提的是，论文实验观察到：虽然只归一化了 key，query 的范数和最大 logit 也随之被稳住了——单边约束反而把整条链路都拉稳了。

3. Elliptical QUEST：与椭圆注意力正交叠加，进一步提升鲁棒性

QUEST 用的是超球面上的余弦相似度，而 Elliptical Attention（Nielsen et al., 2024）把标准注意力的各向同性高斯核扩展成基于 Mahalanobis 度量的超椭球。两者作用在不同层面、彼此正交，可以叠加成 Elliptical-QUEST：用椭圆度量替代纯余弦相似度来度量 query 与 key 的对齐。实验显示，Elliptical 本身鲁棒性强但会牺牲干净数据上的分类精度（71.53% vs QUEST 72.50%），而 Elliptical-QUEST 既继承了更强的对抗鲁棒性、又把干净精度拉回来，说明 QUEST 这条"key 球面化"的思路能和其它注意力改进兼容增益。

一个例子：玩具检索任务暴露"虚假注意力"¶

论文构造了一个简单检索任务来直观展示问题。输入是一串向量 \(X=[x_1,\dots,x_N]\)，每个向量含一个实值部分 \(x^k_i\) 和一个 one-hot 的"答案"部分 \(x^v_i\)。除了随机位置 \(L\) 的答案 token 外，所有非答案 token 的实值部分都从 \(\mathcal{N}(0,I)\) 采样；答案 token 是"分布外"的（\(x^k_L\sim\mathcal{N}(0,\Sigma)\)，\(\Sigma\neq I\)），这是永远成立的鲁棒信号，正确模型应当学会靠它定位答案。

但作者又注入了一个只对约一半样本成立的偏置信号：以 \(p=0.5\) 把样本标为"偏置样本"，其答案 token 改从 \(\mathcal{N}(b,0.1I)\) 采样，偏置向量 \(b\) 在所有偏置样本间共享。于是模型有了一条捷径——只要让 key 权重矩阵在 \(b\) 方向上的放大倍数变大、把偏置答案 token 的 key 范数顶上去，就能在偏置出现时全局把注意力集中到答案位置，从而"偷懒"解决一半样本。标准注意力和 QNorm 正是栽在这里：训练中偏置答案 token 的 key 范数越长越大（论文 Figure 4 实测），模型只学会查 \(b\)、学不到真正的鲁棒解；QKNorm 因为完全丢掉了 key 范数里携带的"答案位置反常分布"信息，干脆退化成随机猜。QUEST 因为禁止任何 token 靠范数全局抢注意力，把整体成功率从标准注意力的 25%、QNorm 的 49%、QKNorm 的约 0% 提到 58%，而且在更宽的学习率/权重衰减范围内都管用。

实验关键数据¶

主实验¶

ImageNet-1K 上用 DeiT 训练 ViT-Tiny 300 epoch，对比各种 QK 归一化方案（多次训练均值）：

注意力	IN-val Top-1	IN-ReaL Top-1	IN-C MCE ↓	IN-A Top-1
Standard	72.6	80.4	55.7	8.2
QUEST	73.4	81.2	55.0	8.5
QNorm	72.7	80.6	55.3	8.2
QKNorm-HS	72.5	80.5	56.4	7.9
QKNorm-DS	71.6	79.6	57.4	7.2
QKNorm	71.9	79.0	58.1	7.0

QUEST 在干净精度、ReaL、以及损坏鲁棒性（IN-C 的 MCE 越低越好）上全面领先；QKNorm 系列虽然能稳定大模型，但在小模型上因为锐度被锁死，干净精度反而比标准注意力还低。

更大模型上（DeiT / DeiT-3 训练）：

模型	注意力	IN-val	IN-C MCE ↓	备注
ViT-S/16 (200ep)	Standard	79.6	44.8	—
ViT-S/16 (200ep)	QUEST	80.2	43.2	—
ViT-B/16 (100ep)	Standard	—	—	训练崩溃
ViT-B/16 (100ep)	QKNorm-DS	79.0	44.4	baseline
ViT-B/16 (100ep)	QUEST	79.7	42.9	稳定
ViT-L/16 (100ep)	Standard	—	—	训练崩溃
ViT-L/16 (100ep)	QKNorm-DS	72.5	54.4	baseline
ViT-L/16 (100ep)	QUEST	74.9	50.3	+2.4

标准注意力在 ViT-B/L 上直接发散崩溃，QUEST 则稳定收敛，且优于 QKNorm-DS；DeiT-3 长训下 ViT-B 也从 82.7 提到 83.2。

消融实验¶

对抗鲁棒性（ViT-Ti/16，DeiT 训练，Top-1）：

配置	Clean	FGSM	PGD	Auto
Standard	72.50	54.23	43.65	26.57
QUEST	73.33	56.90	45.26	27.29
Elliptical	71.53	55.96	46.30	27.35
Elliptical-QUEST	72.48	56.39	47.25	28.54

QUEST 在所有攻击下都比标准注意力更鲁棒且干净精度更高；Elliptical-QUEST 把两者优势叠起来，对抗鲁棒性最强、同时把 Elliptical 损失的干净精度补回来。ADE20K 分割上 ViT-Ti 干净 mIoU 37.34→38.87、损坏数据 32.19→33.55，同样既涨精度又涨鲁棒。

关键发现¶

只归一化 key 就能把整条链路拉稳：虽然只约束了 key，但 query 范数和最大注意力 logit 也随之被稳住，这是标准注意力发散而 QUEST 稳定的直接原因。
稳定 ≠ 牺牲表达力：QKNorm 用全局统一缩放换稳定，小模型上掉点；QUEST 保留 query 范数的 per-token 锐度，稳定与精度兼得。
鲁棒性提升集中在 IN-C / IN-A 以及对抗攻击：QUEST 让注意力更均匀地铺在相关物体区域，而非死盯几个最显著的实例，因此输入被扰动/加噪时不容易误判（论文用 AG-CAM 的可解释性图佐证）。

亮点与洞察¶

"拆开注意力看范数角色"这一步最关键：把 query 范数（锐度控制，有用）和 key 范数（全局抢注意力，有害）分离开，整个方法的合理性立刻清晰——单边归一化不是拍脑袋，而是精准切除有害自由度。
几乎零成本的 drop-in 改动：去掉缩放因子、只对 key 做 \(\ell_2\) 归一化，几行代码，跨视觉/语言/图/时间序列/点云通用，工程落地门槛极低。
正交可叠加：与 Elliptical Attention 组合即得 Elliptical-QUEST，说明"key 球面化"是一个能和其它注意力改进相加的独立维度，迁移性强。
玩具实验设计巧妙：用"鲁棒信号 vs 只对一半样本成立的偏置捷径"把训练不稳定/虚假相关的失败机制可视化成 key 范数的增长曲线，比单纯报指标更有说服力。

局限与展望¶

作者明确把 QUEST 限定在 softmax 注意力，未覆盖线性/无 softmax 注意力；而线性注意力同样存在熵坍缩问题，扩展留作future work。
实验以视觉为主，语言建模、图、时间序列、点云只作为"通用性"佐证，缺少大规模 LLM 预训练上的系统验证。
去掉缩放因子 \(C=1\) 在更深/更大规模（论文最多到 2B ViT）之外是否依然稳定，仍有待更大尺度验证。
自己的观察：QUEST 与 Elliptical-QUEST 的鲁棒性提升在不同攻击间并不一致（如 PGD 上 Elliptical 系列更强、Auto 上 QUEST 干净精度更高），具体选型需按任务权衡，不能一概而论。

评分¶

新颖性: ⭐⭐⭐⭐ 把"分离 query/key 范数角色 → 只归一化 key"的洞察讲得干净，填补了文献里"单边归一化"的空白
实验充分度: ⭐⭐⭐⭐ 覆盖分类/分割/对抗/多域、含玩具机理分析与多次重复，唯缺大规模 LLM 验证
写作质量: ⭐⭐⭐⭐⭐ 从范数分解一路推到方法，动机与机制讲得透彻、可解释性强
价值: ⭐⭐⭐⭐ 零成本 drop-in、跨域通用、可与其它注意力改进叠加，工程与研究都好用