跳转至

Residual Connections Harm Generative Representation Learning

会议: CVPR2026
arXiv: 2404.10947
代码: https://github.com/xiao7199/decayed_Identity_shortcuts
领域: 自监督 / 表示学习 / 扩散模型
关键词: 残差连接, 衰减恒等捷径, 掩码自编码器, 特征抽象, 有效秩

一句话总结

作者发现残差连接里那条"恒等捷径"会把浅层的高频细节直接灌进深层、压制语义抽象,于是提出随层深单调衰减恒等捷径权重这一行架构改动(只多一个超参 \(\alpha_{\min}\)、零额外参数),把 MAE 在 ImageNet-1K 上的 KNN 精度从 27.4% 拉到 63.9%、线性探测从 67.8% 提到 72.7%,同时改善扩散模型的生成质量。

研究背景与动机

领域现状:残差连接(ResNet 那条 \(x_{l+1}=x_l+f_{\theta_l}(x_l)\) 的恒等捷径)几乎是所有现代深度网络的标配,从 CNN 到 Transformer 都在用。它当年是为了解决梯度消失——20 层以上的网络难训,捷径提供一条让梯度无损回传的旁路。

现有痛点:残差连接是在有监督分类时代为"可训练性"设计的,但深度学习已经转向自监督/生成式表示学习(MAE、扩散模型)。在这些范式里,我们真正想要的是瓶颈层产生高度抽象的语义特征。然而恒等捷径有个被忽视的副作用:它会把每一层的输入(包含大量低层、高频的像素细节)原封不动加到输出里,等于不断把浅层表示"回声"注入深层,让深层很难真正完成抽象。具体后果是 MAE 这类靠像素重建训练的模型,瓶颈特征的判别力极差(KNN 仅 27.4%)。

核心矛盾:残差连接同时承担两个互相打架的角色——既要帮梯度传播(要求保留恒等路径),又妨碍特征抽象(恒等路径把细节硬塞到底)。可训练性和抽象性之间存在结构性 trade-off,而标准残差把天平完全压向前者。

切入角度:作者借鉴 Huh et al. 的观察——纯前馈层会诱导低秩、抽象的解,而残差块的特征秩偏高。如果能让网络在浅层保持残差(保住可训练性),在深层平滑过渡到前馈(鼓励抽象、降秩),也许就能两头兼顾。

核心 idea:不要砍掉捷径,而是让恒等捷径的权重 \(\alpha_l\) 随层深从 1 单调衰减到一个最小值 \(\alpha_{\min}\),实现"浅层像残差、深层像前馈"的平滑过渡——一个非数据相关、无需学习的固定公式。

方法详解

整体框架

方法的落点只有一行公式:把标准残差 \(x_{l+1}=x_l+f_{\theta_l}(x_l)\) 改成给捷径加一个随层深衰减的系数 \(\alpha_l\)。围绕这一核心改动,作者补了两个支撑性设计来让它在 MAE / 扩散模型里真正跑通:用编码器-解码器长程跳连把像素细节从浅层直接搬给解码器(这样瓶颈才敢放心做抽象),以及用残差零初始化稳住小 \(\alpha_{\min}\) 下的训练。整套东西不引入任何可学习参数,只多一个超参 \(\alpha_{\min}\)

在 MAE 里只对编码器的 MLP 和注意力块替换为衰减捷径(因为 He et al. 指出想要的表示出现在编码器末端);在扩散模型里则一路衰减到解码器最后一层(近期工作指出扩散模型最好的语义表示靠近解码器后段)。

关键设计

1. 衰减恒等捷径 + 线性衰减表(核心:让深层从残差平滑过渡到前馈)

针对"恒等捷径把高频细节灌进深层、压制抽象"这个痛点,作者给捷径乘上一个系数 \(\alpha_l\in[0,1]\)

\[x_{l+1}=\alpha_l x_l + f_{\theta_l}(x_l).\]

把这个递推沿 \(L\) 层展开后能看清它到底在做什么:

\[x_{L+1}=\Big(\prod_{l=1}^{L}\alpha_l\Big)x_0+\sum_{l=1}^{L-1}\Big(\prod_{i=l+1}^{L}\alpha_i\Big)f_{\theta_l}(x_l)+f_{\theta_L}(x_L).\]

输入 \(x_0\)所有 \(\alpha_l\le 1\) 连乘衰减,越早的特征被压得越狠,而越靠后的块输出 \(f_{\theta_l}\) 跳过的衰减因子越少。结果就是浅层的细粒度细节几乎传不到瓶颈 \(x_{L+1}\),瓶颈被迫只保留抽象信息。

衰减表用线性形式:\(\alpha_l = 1-\delta_\alpha l\),其中 \(\delta_\alpha=\frac{1-\alpha_{\min}}{L}\),使得末层 \(\alpha_L\equiv\alpha_{\min}\)。这条直线本质是在残差(\(\alpha=1\))和前馈(\(\alpha=0\))之间做线性插值:浅层 \(\alpha_l\approx 1\) 保留残差以保住可训练性,深层 \(\alpha_l\to\alpha_{\min}\) 趋于前馈以鼓励抽象。和 Highway/learned gating 那种"让网络自己学门控"不同,这里是强制衰减、单超参、不依赖数据也无需学习——实验里 learnable \(\alpha_l\) 反而更差(见消融)。作者还发现一个关键量:末层的累计有效衰减 \(\alpha_L^{\rm eff}=\prod_{l=1}^{L}\alpha_l\) 才是决定最优衰减率的真正旋钮,网络越深就要把 \(\alpha_{\min}\) 调大,才能保持 \(\alpha_L^{\rm eff}\) 在合适区间。

2. 编码器-解码器长程跳连(让瓶颈敢放心做抽象)

衰减捷径把抽象推到深层,但 MAE / U-Net 的训练目标是逐像素重建,需要细粒度细节才能把图重建准——这和"瓶颈做抽象"直接冲突。如果不补救,瓶颈既要抽象又要存细节,最后两头不讨好。

作者的办法是引入标准的编码器-解码器长程跳连:让编码器的浅层特征绕过瓶颈、直接送给解码器对应层,由这条旁路负责供给重建所需的低层细节,从而把"保细节"的责任从瓶颈卸载出去,瓶颈深层就能专心学抽象表示。MAE 里编码器层数是解码器两倍,所以每隔一层编码器特征注入一个解码器层,注入前先和可学习的 mask token 拼接以对齐空间维度。消融显示这条跳连是性能命门:去掉它线性探测直接掉 22.1%(83.6%→61.5%)。

3. 残差零初始化(稳住小 \(\alpha_{\min}\) 下的训练)

\(\alpha_{\min}\le 0.7\) 时,模型在训练初期会出现特征范数快速爆炸——作者推测是网络试图放大 \(f_{\theta_l}(x)\) 的输出范数来补偿被狠狠衰减的捷径,结果导致训练不稳、收敛变差。

解法借鉴扩散模型的常用技巧:把每个 \(f_{\theta_l}\)最后一层输出权重初始化为零(而非默认的 Xavier 均匀初始化)。这样训练起步时块输出接近 0、特征范数增长受控,等价于让网络从"近似纯捷径"的状态平滑启动,再逐步长出变换能力,从而在 \(\alpha_{\min}\) 较小时也能稳定训练。

损失函数 / 训练策略

方法不改训练目标:MAE 仍用像素级重建损失,扩散模型仍用各自的去噪/流匹配目标(U-ViT、SiT-XL/2)。唯一新增超参是 \(\alpha_{\min}\)(实验中 \([0.6,0.7]\) 通用最优;\(\alpha_{\min}\le 0.4\) 训练不稳)。深层模型按 \(\alpha_L^{\rm eff}\in[10^{-3},10^{-2})\) 来反推 \(\alpha_{\min}\) 效果最好。

实验关键数据

主实验

ImageNet-1K 上 MAE(ViT-B/16)表示质量,纯像素重建训练:

方法 FT LP(线性探测) KNN
MAE(基线) 83.6 67.8 27.4
MAE(\(\alpha_{\min}=0.6\),本文) 82.9 72.7 63.9
Data2Vec 84.2 68.0 33.2
CAE 83.8 70.4 51.4
I-JEPA - 72.9 -

只改一行架构、不加任何参数,KNN 暴涨 +36.5 个点、LP +4.9,显著缩小生成式与对比式表示学习的差距(LP 已逼近 I-JEPA,且无需显式特征对齐)。FT 略降(83.6→82.9),作者论证 FT 会大幅改写预训练特征、不能准确反映表示质量。

ImageNet-1K 256×256 类条件生成(SiT-XL/2):

配置 训练步数 FID↓ IS↑
SiT-XL/2(基线,无 UNet 跳连) 400k 17.2 -
SiT-XL/2(\(\alpha_{\min}=1.0\),仅加跳连) 400k 16.5 74.8
SiT-XL/2(\(\alpha_{\min}=0.8\),本文) 400k 11.8 91.8
SiT-XL/2(\(\alpha_{\min}=0.8\),本文) 200k 14.2 79.7

FID 17.2→11.8;与"只加跳连不衰减"的 \(\alpha_{\min}=1.0\)(16.5)对比,证明增益主要来自衰减而非跳连本身。收敛也更快:本文 200k 步(14.2)就已胜过基线 400k 步(17.2)。

消融实验

ImageNet-100 上 MAE(ViT-B/16)线性探测:

配置 LP 说明
标准残差 \(x_l+f_\theta\) 76.5 基线
两支同乘 \(\sqrt{0.5}\) 82.6 缩两支都涨,但不如本文
仅缩 \(f_\theta\) 支乘 \(\sqrt{0.5}\) 76.9 几乎无提升 → 增益来自压捷径而非压块输出
衰减仅作用于 Attn 支 79.3 衰减不充分
衰减仅作用于 MLP 支 80.6 衰减不充分
衰减作用于 MLP+Attn(本文,\(\alpha_{\min}=0.6\) 83.6 最优
w/o 编码器-解码器跳连 61.5 去掉跳连掉 22.1%
线性表 → 余弦表 82.8 表的形状影响较小
learnable \(\alpha_l\) 79.5 自学门控反而更差

关键发现

  • 增益来自"压捷径"而非"压块输出":只缩 \(f_\theta\) 支(76.9)几乎等于基线,而压捷径支才带来质变——直接坐实了"恒等捷径有害"的核心论点。
  • 跳连是命门:没有编码器-解码器跳连,瓶颈被逼着同时存细节与抽象,LP 暴跌 22.1%。
  • 强制 > 可学习:固定衰减表(83.6)优于 learnable \(\alpha_l\)(79.5),且 learnable 版本沿深度看不出一致规律,印证 Highway 网络"门控普遍趋近 1(偏好复制输入)"的老问题。
  • 小模型反超大模型:带衰减的小模型(768 维 ×12 层)线性探测超过用标准残差的大模型(1024 维 ×24 层)。最优 \(\alpha_{\min}\) 由编码器深度而非特征维度决定,按 \(\alpha_L^{\rm eff}\in[10^{-3},10^{-2})\) 选最稳。
  • 跨任务一致:U-ViT 在 CIFAR-100 / ImageNet-100 / ImageNet-1K 的条件与无条件生成上,\(\alpha_{\min}<1.0\) 一致提升 LP 与 FID(如 ImageNet-1K 类条件 FID 7.65→4.90);COCO 无监督语义分割 mIoU 4.1→10.4。

亮点与洞察

  • 用"有效秩"给出了 why:作者把表示质量和有效秩 \(\rho(A)=-\sum_i \bar\sigma_i\log\bar\sigma_i\)\(\bar\sigma_i=\sigma_i/\sum_j\sigma_j\),奇异值归一化后的香农熵)联系起来——衰减捷径让深层平滑趋于前馈,从而强化网络的低秩简单性偏置;训练早期 \(\alpha_{\min}\) 越小、有效秩越低、探测精度越高。这把一条工程 trick 升级成了"好表示 ↔ 低秩"的可验证假说。
  • 零额外参数、改一行就能用:把任何带残差的生成式自监督架构(MAE/U-ViT/SiT)的残差换成衰减捷径即可,无需改训练目标、无需调数据增强,迁移成本极低。
  • 诚实划界:作者明确指出该法不适用于对比学习——对比目标(如 MoCo-v3 的排斥项、RankMe 的结论)偏好高秩特征,与本文的低秩诱导直接冲突。这种"反例自曝"让低秩假说更可信。
  • 挑战一个普世设计:论文真正的价值在于把"残差连接是否是表示学习的理想参数化"这个几乎从没人质疑的基础选择重新摆上桌面。

局限与展望

  • 低秩假说只是相关性:训练后期 \(\alpha_{\min}\) 与有效秩的相关性变弱(作者归因于网络用大值补偿衰减),所以"低秩→好表示"目前只是经验相关,缺乏因果证明。
  • 不适用对比学习:方法与对比式框架的高秩偏好天然冲突,限制了通用性。
  • 扩散模型里衰减位置可能次优:扩散模型一路衰减到解码器末层,但最小衰减因子所在层未必正好是承载最佳语义表示的层,作者承认这"可能次优",留有调优空间。
  • 衰减表形式简单:仅试了线性/余弦,是否存在与架构/任务自适应的更优衰减曲线仍未知;\(\alpha_{\min}\le 0.4\) 训练不稳也限制了衰减强度的上限。

相关工作与启发

  • vs Highway Networks / learned gating:Highway 用 LSTM 式可学习门控 \(H_\phi(x)\) 加权捷径与块输出,但 Srivastava et al. 发现门控普遍趋近 1(模型偏好复制输入)。本文改用强制、固定、单超参的衰减表,实验证明强制衰减优于让网络自学门控。
  • vs Savarese & Figueiredo / Fischer et al. 的残差重加权:他们在有监督分类下给残差加标量门控或基于信号传播敏感性的权重,且未被广泛采用。本文聚焦自监督生成式表示学习这一新场景,并给出"衰减→低秩→更好表示"的解释链。
  • vs DenseNet / FractalNet:它们用拼接或递归树状结构提供多长度梯度路径,说明"多长度捷径"而非"恒等加法"才是可训练性的核心。本文顺着这条线进一步指出:在表示学习里,恒等加法这一具体形式反而有害,可被衰减捷径替代。
  • 承接 Huh et al. 的低秩简单性偏置:Huh et al. 发现堆叠前馈层诱导低秩、而残差网络不降秩。本文把这个观察反向利用——用衰减捷径让深层趋于前馈,主动诱导瓶颈低秩,从而改善表示。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 质疑"残差连接"这一近乎普世的基础设计,并给出简洁可落地的替代与低秩解释
  • 实验充分度: ⭐⭐⭐⭐ MAE+扩散、多数据集多架构、消融到位;但低秩仅是相关性、对比学习场景未覆盖
  • 写作质量: ⭐⭐⭐⭐⭐ 动机—方法—分析层层递进,反例自曝,论证克制而清晰
  • 价值: ⭐⭐⭐⭐⭐ 零参数改一行即用,且为"自监督架构该如何参数化"打开新问题