Residual Connections Harm Generative Representation Learning¶

会议: CVPR2026
arXiv: 2404.10947
代码: https://github.com/xiao7199/decayed_Identity_shortcuts
领域: 自监督 / 表示学习 / 扩散模型
关键词: 残差连接, 衰减恒等捷径, 掩码自编码器, 特征抽象, 有效秩

一句话总结¶

作者发现残差连接里那条"恒等捷径"会把浅层的高频细节直接灌进深层、压制语义抽象，于是提出随层深单调衰减恒等捷径权重这一行架构改动（只多一个超参 \(\alpha_{\min}\)、零额外参数），把 MAE 在 ImageNet-1K 上的 KNN 精度从 27.4% 拉到 63.9%、线性探测从 67.8% 提到 72.7%，同时改善扩散模型的生成质量。

研究背景与动机¶

领域现状：残差连接（ResNet 那条 \(x_{l+1}=x_l+f_{\theta_l}(x_l)\) 的恒等捷径）几乎是所有现代深度网络的标配，从 CNN 到 Transformer 都在用。它当年是为了解决梯度消失——20 层以上的网络难训，捷径提供一条让梯度无损回传的旁路。

现有痛点：残差连接是在有监督分类时代为"可训练性"设计的，但深度学习已经转向自监督/生成式表示学习（MAE、扩散模型）。在这些范式里，我们真正想要的是瓶颈层产生高度抽象的语义特征。然而恒等捷径有个被忽视的副作用：它会把每一层的输入（包含大量低层、高频的像素细节）原封不动加到输出里，等于不断把浅层表示"回声"注入深层，让深层很难真正完成抽象。具体后果是 MAE 这类靠像素重建训练的模型，瓶颈特征的判别力极差（KNN 仅 27.4%）。

核心矛盾：残差连接同时承担两个互相打架的角色——既要帮梯度传播（要求保留恒等路径），又妨碍特征抽象（恒等路径把细节硬塞到底）。可训练性和抽象性之间存在结构性 trade-off，而标准残差把天平完全压向前者。

切入角度：作者借鉴 Huh et al. 的观察——纯前馈层会诱导低秩、抽象的解，而残差块的特征秩偏高。如果能让网络在浅层保持残差（保住可训练性），在深层平滑过渡到前馈（鼓励抽象、降秩），也许就能两头兼顾。

核心 idea：不要砍掉捷径，而是让恒等捷径的权重 \(\alpha_l\) 随层深从 1 单调衰减到一个最小值 \(\alpha_{\min}\)，实现"浅层像残差、深层像前馈"的平滑过渡——一个非数据相关、无需学习的固定公式。

方法详解¶

整体框架¶

方法的落点只有一行公式：把标准残差 \(x_{l+1}=x_l+f_{\theta_l}(x_l)\) 改成给捷径加一个随层深衰减的系数 \(\alpha_l\)。围绕这一核心改动，作者补了两个支撑性设计来让它在 MAE / 扩散模型里真正跑通：用编码器-解码器长程跳连把像素细节从浅层直接搬给解码器（这样瓶颈才敢放心做抽象），以及用残差零初始化稳住小 \(\alpha_{\min}\) 下的训练。整套东西不引入任何可学习参数，只多一个超参 \(\alpha_{\min}\)。

在 MAE 里只对编码器的 MLP 和注意力块替换为衰减捷径（因为 He et al. 指出想要的表示出现在编码器末端）；在扩散模型里则一路衰减到解码器最后一层（近期工作指出扩散模型最好的语义表示靠近解码器后段）。

关键设计¶

1. 衰减恒等捷径 + 线性衰减表（核心：让深层从残差平滑过渡到前馈）

针对"恒等捷径把高频细节灌进深层、压制抽象"这个痛点，作者给捷径乘上一个系数 \(\alpha_l\in[0,1]\)：

\[x_{l+1}=\alpha_l x_l + f_{\theta_l}(x_l).\]

把这个递推沿 \(L\) 层展开后能看清它到底在做什么：

\[x_{L+1}=\Big(\prod_{l=1}^{L}\alpha_l\Big)x_0+\sum_{l=1}^{L-1}\Big(\prod_{i=l+1}^{L}\alpha_i\Big)f_{\theta_l}(x_l)+f_{\theta_L}(x_L).\]

输入 \(x_0\) 被所有 \(\alpha_l\le 1\) 连乘衰减，越早的特征被压得越狠，而越靠后的块输出 \(f_{\theta_l}\) 跳过的衰减因子越少。结果就是浅层的细粒度细节几乎传不到瓶颈 \(x_{L+1}\)，瓶颈被迫只保留抽象信息。

衰减表用线性形式：\(\alpha_l = 1-\delta_\alpha l\)，其中 \(\delta_\alpha=\frac{1-\alpha_{\min}}{L}\)，使得末层 \(\alpha_L\equiv\alpha_{\min}\)。这条直线本质是在残差（\(\alpha=1\)）和前馈（\(\alpha=0\)）之间做线性插值：浅层 \(\alpha_l\approx 1\) 保留残差以保住可训练性，深层 \(\alpha_l\to\alpha_{\min}\) 趋于前馈以鼓励抽象。和 Highway/learned gating 那种"让网络自己学门控"不同，这里是强制衰减、单超参、不依赖数据也无需学习——实验里 learnable \(\alpha_l\) 反而更差（见消融）。作者还发现一个关键量：末层的累计有效衰减 \(\alpha_L^{\rm eff}=\prod_{l=1}^{L}\alpha_l\) 才是决定最优衰减率的真正旋钮，网络越深就要把 \(\alpha_{\min}\) 调大，才能保持 \(\alpha_L^{\rm eff}\) 在合适区间。

2. 编码器-解码器长程跳连（让瓶颈敢放心做抽象）

衰减捷径把抽象推到深层，但 MAE / U-Net 的训练目标是逐像素重建，需要细粒度细节才能把图重建准——这和"瓶颈做抽象"直接冲突。如果不补救，瓶颈既要抽象又要存细节，最后两头不讨好。

作者的办法是引入标准的编码器-解码器长程跳连：让编码器的浅层特征绕过瓶颈、直接送给解码器对应层，由这条旁路负责供给重建所需的低层细节，从而把"保细节"的责任从瓶颈卸载出去，瓶颈深层就能专心学抽象表示。MAE 里编码器层数是解码器两倍，所以每隔一层编码器特征注入一个解码器层，注入前先和可学习的 mask token 拼接以对齐空间维度。消融显示这条跳连是性能命门：去掉它线性探测直接掉 22.1%（83.6%→61.5%）。

3. 残差零初始化（稳住小 \(\alpha_{\min}\) 下的训练）

当 \(\alpha_{\min}\le 0.7\) 时，模型在训练初期会出现特征范数快速爆炸——作者推测是网络试图放大 \(f_{\theta_l}(x)\) 的输出范数来补偿被狠狠衰减的捷径，结果导致训练不稳、收敛变差。

解法借鉴扩散模型的常用技巧：把每个 \(f_{\theta_l}\) 的最后一层输出权重初始化为零（而非默认的 Xavier 均匀初始化）。这样训练起步时块输出接近 0、特征范数增长受控，等价于让网络从"近似纯捷径"的状态平滑启动，再逐步长出变换能力，从而在 \(\alpha_{\min}\) 较小时也能稳定训练。

损失函数 / 训练策略¶

方法不改训练目标：MAE 仍用像素级重建损失，扩散模型仍用各自的去噪/流匹配目标（U-ViT、SiT-XL/2）。唯一新增超参是 \(\alpha_{\min}\)（实验中 \([0.6,0.7]\) 通用最优；\(\alpha_{\min}\le 0.4\) 训练不稳）。深层模型按 \(\alpha_L^{\rm eff}\in[10^{-3},10^{-2})\) 来反推 \(\alpha_{\min}\) 效果最好。

实验关键数据¶

主实验¶

ImageNet-1K 上 MAE（ViT-B/16）表示质量，纯像素重建训练：

方法	FT	LP（线性探测）	KNN
MAE（基线）	83.6	67.8	27.4
MAE（\(\alpha_{\min}=0.6\)，本文）	82.9	72.7	63.9
Data2Vec	84.2	68.0	33.2
CAE	83.8	70.4	51.4
I-JEPA	-	72.9	-

只改一行架构、不加任何参数，KNN 暴涨 +36.5 个点、LP +4.9，显著缩小生成式与对比式表示学习的差距（LP 已逼近 I-JEPA，且无需显式特征对齐）。FT 略降（83.6→82.9），作者论证 FT 会大幅改写预训练特征、不能准确反映表示质量。

ImageNet-1K 256×256 类条件生成（SiT-XL/2）：

配置	训练步数	FID↓	IS↑
SiT-XL/2（基线，无 UNet 跳连）	400k	17.2	-
SiT-XL/2（\(\alpha_{\min}=1.0\)，仅加跳连）	400k	16.5	74.8
SiT-XL/2（\(\alpha_{\min}=0.8\)，本文）	400k	11.8	91.8
SiT-XL/2（\(\alpha_{\min}=0.8\)，本文）	200k	14.2	79.7

FID 17.2→11.8；与"只加跳连不衰减"的 \(\alpha_{\min}=1.0\)（16.5）对比，证明增益主要来自衰减而非跳连本身。收敛也更快：本文 200k 步（14.2）就已胜过基线 400k 步（17.2）。

消融实验¶

ImageNet-100 上 MAE（ViT-B/16）线性探测：

配置	LP	说明
标准残差 \(x_l+f_\theta\)	76.5	基线
两支同乘 \(\sqrt{0.5}\)	82.6	缩两支都涨，但不如本文
仅缩 \(f_\theta\) 支乘 \(\sqrt{0.5}\)	76.9	几乎无提升 → 增益来自压捷径而非压块输出
衰减仅作用于 Attn 支	79.3	衰减不充分
衰减仅作用于 MLP 支	80.6	衰减不充分
衰减作用于 MLP+Attn（本文，\(\alpha_{\min}=0.6\)）	83.6	最优
w/o 编码器-解码器跳连	61.5	去掉跳连掉 22.1%
线性表 → 余弦表	82.8	表的形状影响较小
learnable \(\alpha_l\)	79.5	自学门控反而更差

关键发现¶

增益来自"压捷径"而非"压块输出"：只缩 \(f_\theta\) 支（76.9）几乎等于基线，而压捷径支才带来质变——直接坐实了"恒等捷径有害"的核心论点。
跳连是命门：没有编码器-解码器跳连，瓶颈被逼着同时存细节与抽象，LP 暴跌 22.1%。
强制 > 可学习：固定衰减表（83.6）优于 learnable \(\alpha_l\)（79.5），且 learnable 版本沿深度看不出一致规律，印证 Highway 网络"门控普遍趋近 1（偏好复制输入）"的老问题。
小模型反超大模型：带衰减的小模型（768 维 ×12 层）线性探测超过用标准残差的大模型（1024 维 ×24 层）。最优 \(\alpha_{\min}\) 由编码器深度而非特征维度决定，按 \(\alpha_L^{\rm eff}\in[10^{-3},10^{-2})\) 选最稳。
跨任务一致：U-ViT 在 CIFAR-100 / ImageNet-100 / ImageNet-1K 的条件与无条件生成上，\(\alpha_{\min}<1.0\) 一致提升 LP 与 FID（如 ImageNet-1K 类条件 FID 7.65→4.90）；COCO 无监督语义分割 mIoU 4.1→10.4。

亮点与洞察¶

用"有效秩"给出了 why：作者把表示质量和有效秩 \(\rho(A)=-\sum_i \bar\sigma_i\log\bar\sigma_i\)（\(\bar\sigma_i=\sigma_i/\sum_j\sigma_j\)，奇异值归一化后的香农熵）联系起来——衰减捷径让深层平滑趋于前馈，从而强化网络的低秩简单性偏置；训练早期 \(\alpha_{\min}\) 越小、有效秩越低、探测精度越高。这把一条工程 trick 升级成了"好表示 ↔ 低秩"的可验证假说。
零额外参数、改一行就能用：把任何带残差的生成式自监督架构（MAE/U-ViT/SiT）的残差换成衰减捷径即可，无需改训练目标、无需调数据增强，迁移成本极低。
诚实划界：作者明确指出该法不适用于对比学习——对比目标（如 MoCo-v3 的排斥项、RankMe 的结论）偏好高秩特征，与本文的低秩诱导直接冲突。这种"反例自曝"让低秩假说更可信。
挑战一个普世设计：论文真正的价值在于把"残差连接是否是表示学习的理想参数化"这个几乎从没人质疑的基础选择重新摆上桌面。

局限与展望¶

低秩假说只是相关性：训练后期 \(\alpha_{\min}\) 与有效秩的相关性变弱（作者归因于网络用大值补偿衰减），所以"低秩→好表示"目前只是经验相关，缺乏因果证明。
不适用对比学习：方法与对比式框架的高秩偏好天然冲突，限制了通用性。
扩散模型里衰减位置可能次优：扩散模型一路衰减到解码器末层，但最小衰减因子所在层未必正好是承载最佳语义表示的层，作者承认这"可能次优"，留有调优空间。
衰减表形式简单：仅试了线性/余弦，是否存在与架构/任务自适应的更优衰减曲线仍未知；\(\alpha_{\min}\le 0.4\) 训练不稳也限制了衰减强度的上限。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 质疑"残差连接"这一近乎普世的基础设计，并给出简洁可落地的替代与低秩解释
实验充分度: ⭐⭐⭐⭐ MAE+扩散、多数据集多架构、消融到位；但低秩仅是相关性、对比学习场景未覆盖
写作质量: ⭐⭐⭐⭐⭐ 动机—方法—分析层层递进，反例自曝，论证克制而清晰
价值: ⭐⭐⭐⭐⭐ 零参数改一行即用，且为"自监督架构该如何参数化"打开新问题