Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics¶

会议: CVPR 2026
arXiv: 2603.13085
代码: 无
领域: 深度学习理论 / 注意力机制
关键词: 线性化注意力, 神经正切核, 影响可塑性, 特征学习, 对抗鲁棒性

一句话总结¶

通过 NTK 框架证明线性化注意力不会收敛到无限宽度核极限（需要宽度 \(m = \Omega(\kappa^6)\)），并提出"影响可塑性"指标量化其双面效应：注意力比 ReLU 网络高 6–9× 的数据依赖灵活性，既能降低近似误差也增加对抗脆弱性。

研究背景与动机¶

领域现状：NTK（神经正切核）理论建立了无限宽度网络与核方法的等价关系，预测足够宽的网络在训练中核保持近似不变（"懒训练"体制）。这一框架已扩展到深度网络、任意架构等设置，但注意力机制一直未被严格纳入 NTK 分析。

现有痛点：(1) 传统研究要么关注注意力的架构属性，要么关注最终性能，忽视了注意力学习过程的动力学特征；(2) NTK 理论对注意力是否适用完全未知——Wenger et al. 指出 NTK 理论仅对"比深度宽数个量级"的网络有效；(3) 缺乏量化注意力对训练数据敏感性的理论工具。

核心矛盾：注意力机制的表达力（灵活适应数据结构）与其对训练数据的脆弱敏感性可能共享同一来源——偏离核体制。

本文目标 线性化注意力是否收敛到无限宽度 NTK 极限？如果不收敛，这种非收敛行为对模型的训练数据依赖性意味着什么？

切入角度：设计无参数线性化注意力 \(f^{att}(X) = XX^TX\)，建立其与数据依赖 Gram 诱导核的精确对应，利用谱分析解释非收敛现象，并通过"影响可塑性"量化双面效应。

核心 idea：注意力的 power 与 vulnerability 同源于它对核体制的超越——数据依赖核带来灵活性的同时也带来脆弱性。

方法详解¶

整体框架¶

输入原始数据 \(X \in \mathbb{R}^{n \times d}\) → 线性化注意力变换 \(f^{att}(X) = XX^TX\) → \(\ell_2\) 归一化 → 送入两层 ReLU MLP → 输出预测。对比基线为直接在原始输入上运行的 2L-ReLU 网络。在不同宽度 \(m\) 上计算有限宽 NTK 与无限宽 NTK 的距离 \(\|f_m - f_{NTK}\|\)，并通过影响函数量化数据依赖性。

关键设计¶

线性化注意力与 Gram 诱导核（Theorem 4.1）
- 无参线性化注意力 \(f^{att}(X) = XX^TX\) 对应 scaled dot-product attention（\(W_Q = W_K = W_V = I\)，linearized softmax）
- 精确对应一个数据依赖的 Gram 诱导核 \(K_{LinAttn} = G^3\)（\(G = XX^T\)）
- 每个核元素为四阶交互项 \(\sum_{k,\ell}(x_i^Tx_k)(x_k^Tx_\ell)(x_\ell^Tx_j)\)，实现传递性相似度传播 \(i \to k \to \ell \to j\)
- 与标准多项式核 \((x^Ty)^p\) 的本质区别：\(K_{LinAttn}\) 的敏感度依赖于整个数据集的相关结构（通过 \(G\)），而非仅输入对之间的关系
谱放大与 NTK 非收敛（Theorem 4.7）
- 注意力变换将 Gram 矩阵条件数立方化：\(\kappa(\tilde{G}) = \kappa(G)^3\)
- NTK 收敛要求宽度 \(m = \Omega(\kappa(G)^6 / \epsilon^2)\)：对 MNIST（\(\kappa \approx 1.2 \times 10^3\)）需 \(m \gg 10^{18}\)，对 CIFAR-10（\(\kappa \approx 8.7 \times 10^3\)）需 \(m \gg 10^{24}\)，远超实验范围 \(m \leq 4096\)
- 而 2L-ReLU 仅需 \(m = \Omega(1/\epsilon^2)\)，无谱放大因子
- 物理解释：\(k\) 层线性化自注意力堆叠产生 \(G^{2k+1}\)，条件数以 \(\kappa^{2k+1}\) 增长，层数越多离核体制越远
影响可塑性度量（Definition 3.4）
- Influence Flip Rate：在 top 10% 高影响训练样本上，经 PGD 扰动（\(\epsilon = 0.3\)）后影响函数符号翻转的比例
- 互补指标：影响排名的 Spearman 相关系数 \(\rho\)（越低说明可塑性越高）
- 三种数据干预策略：Curated（去除 top-\(\tau\) 影响样本）、Transformed（替换为对抗版本）、Adversarial（对所有训练数据做 PGD 扰动）
- 影响函数通过经验有限宽 NTK 矩阵 \((K_m + \lambda I)^{-1}\) 高效计算，无需重训练

损失函数 / 训练策略¶

交叉熵（多分类）或 MSE（二分类）+ L2 正则化（\(\lambda = 10^{-3}\)）。Adam 优化器，\(lr = 10^{-3}\)，batch=128，训练 500 epochs。FGSM/PGD/MIM 三种对抗扰动方法用于影响可塑性测量。

实验关键数据¶

主实验¶

数据集	指标	MLP-Attn	2L-ReLU	倍率
MNIST (10类)	Flip Rate (PGD)	28.9%	3.3%	8.8×
MNIST (10类)	Flip Rate (FGSM)	34.6%	4.1%	8.4×
CIFAR-10 (10类)	Flip Rate (PGD)	19.1%	3.1%	6.2×
CIFAR-10 (10类)	Flip Rate (FGSM)	26.4%	3.3%	8.0×
MNIST (二分类)	Flip Rate (PGD)	41.0%	8.4%	4.9×

数据集	NTK距离 (m=16)	NTK距离 (m=4096)	趋势
MNIST 2L-ReLU	45.1	39.2	单调↓（收敛）
MNIST MLP-Attn	10.3	43.4	非单调↑（不收敛）
CIFAR-10 2L-ReLU	246.2	56.9	单调↓（收敛）
CIFAR-10 MLP-Attn	3.7	12.6	单调↑（不收敛）

消融实验¶

实验	结果
对抗训练对 2L-ReLU	Flip Rate 3.3% → 43.4%（MNIST），说明 AT 可诱导可塑性
对抗训练对 MLP-Attn	Flip Rate 28.9% → 42.2%（MNIST），提升幅度小——架构已内禀高可塑性
二分类 CIFAR-10	MLP-Attn 优势消失（≈1×），因二分类 Gram 条件数较低，立方放大效应减弱
扰动强度 \(\epsilon\): 0.1→0.5	MLP-Attn 始终高于 2L-ReLU，排序不变

关键发现¶

注意力在所有测试条件下均展现远高于 ReLU 的影响可塑性（6–9×），且无需对抗训练即可获得
经验 Gram 条件数与理论宽度需求高度一致：MNIST \(\kappa \approx 10^3\)，CIFAR-10 \(\kappa \approx 10^{3.9}\)
对抗训练和注意力架构产生可塑性的机制不同：前者是训练诱导，后者是架构内禀

亮点与洞察¶

首次从 NTK 角度严格证明注意力不进入核体制：谱放大 \(\kappa^3\) 导致宽度需求呈六次方增长，这是一个干净优雅的理论结果
"影响可塑性"概念精准刻画了注意力的 power 与 vulnerability 同源问题——这为理解 Transformer 为何强大又脆弱提供了新视角
对抗训练实验揭示两种产生可塑性的机制（架构内禀 vs 训练诱导），理清了混淆因素
理论与实验高度自洽：经验 Gram 条件数准确预测了非收敛行为

局限与展望¶

仅分析线性化注意力（identity QKV），未扩展至完整 softmax 注意力——softmax 的行归一化可能进一步放大非收敛
实验规模受限于精确 NTK 计算（MNIST/CIFAR-10，两层网络，\(m \leq 4096\)），与实际 Transformer 有 gap
Theorem 4.7 仅约束初始化时的 NTK 偏差，不直接预测训练后轨迹
未探索低秩正则化（截断注意力保留 top-\(r\) 奇异值）是否能恢复收敛并降低对抗脆弱性

评分¶

新颖性: ⭐⭐⭐⭐ 从 NTK 角度建立注意力理论是新视角，影响可塑性概念有洞察力
实验充分度: ⭐⭐⭐⭐ 覆盖多数据集、多扰动类型、多分类设置，理论与实验对应好
写作质量: ⭐⭐⭐⭐ 理论推导严谨完整，行文结构清晰，证明放附录不影响可读性
价值: ⭐⭐⭐ 理论工作，对实际 Transformer 的直接指导有待后续验证