Keep It Frozen: Domain-Routed Conditional Residual Modulation for Multi-Domain Vision Transformers¶

会议: CVPR 2026
论文: CVF Open Access
领域: 多域视觉Transformer / 参数高效微调
关键词: 冻结骨干, 域路由, 残差调制, 超网络, 双层优化

一句话总结¶

在完全冻结的 ViT 骨干上挂一组轻量级残差调制模块（RMB），由一个域路由器（DR）实时估计样本属于"医学/自然"的软概率、再用参数合成网络（PSN）按概率即时生成低秩修正参数注入 Q/V 投影与注意力 bias，配合 MAML 式双层优化，实现单一模型在医学（超声/CT/MRI）与自然图像间同时适配且互不损伤，只用约 3.5% 的可训练参数。

研究背景与动机¶

领域现状：让一个视觉模型同时胜任自然图像与医学图像，常规做法是对预训练 ViT 做任务专属的全量或大块微调（full fine-tuning）。医学侧也有 MedCLIP、BiomedCLIP 这类领域预训练模型，以及 LoRA、AdaptFormer、Adapter 等参数高效微调（PEFT）方案。

现有痛点：医学图像（尤其胎儿超声）天然带声影、运动模糊、斑点噪声、边界模糊、姿态/尺度剧烈变化，通用视觉模型对这些模态特有伪影很脆弱。而一旦为医学域做重型微调，又会反过来侵蚀模型在自然图像上的通用能力——改一个域常常悄悄拖垮另一个域。多数 PEFT 方法要么按"任务"离散路由（AdapterFusion），要么学一组静态域专属权重（ExPLoRA），要么需要换权重，缺乏对"单张图到底有多医学/多自然"的连续、逐样本响应。

核心矛盾：医学与自然之间的差异是连续的、而非纯类别式的——一张图可能"七分医学三分自然"。用静态、整域级别的调整去套连续变化的输入，要么调过头伤通用性，要么调不到位丢鲁棒性；而测试时适配（TTA）虽能提鲁棒性却要在推理时反复更新参数，违背延迟/内存/稳定性约束。

本文目标：用单一端到端模型同时服务医学与自然图像；推理保持快速、无测试时更新（update-free）；满足紧的显存/延迟预算；在不同模态间稳定。

切入角度：既然域差异连续，就别做"重而静"的整域调整，而是做"最小、按需、逐样本"的修正——只在有益的投影上、只修正所需的量。骨干一直冻结，所有适配交给极小的、由输入条件化的残差调制器。

核心 idea：冻结骨干，用"域路由器估软域概率 → 超网络按概率即时合成低秩参数 → 残差模块加性注入"这条链，把逐样本的域感知修正叠加到注意力投影上，配双层优化把"域级元参数"和"任务级表征"解耦学习。

方法详解¶

整体框架¶

DCRM-ViT 接收一张图（医学或自然），先过冻结的 ViT 骨干得到图像嵌入；域路由器（DR）从这些特征里估计该样本属于各域的软概率 \(D(x)=[p_{medical}, p_{natural}]\)；参数合成网络（PSN）把图像特征与域概率映射成一组逐样本、低秩的调制参数；这些参数驱动插在每个 transformer block 里的残差调制模块（RMB），对 Q/V 投影做加性低秩修正，并可选地往注意力 logits 上加一个域感知 bias（DAB）；修正后的特征继续走 transformer block，最后进分类头或分割头。整条链里骨干权重始终不动，推理是一次前向、无梯度更新。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像<br/>医学 / 自然"] --> B["冻结 ViT 骨干<br/>提取图像嵌入"]
    B --> C["域路由器 DR<br/>估软域概率 p_med / p_nat"]
    C --> D["参数合成网络 PSN<br/>按概率即时生成低秩参数"]
    D --> E["残差调制块 RMB<br/>加性修正 Q/V 投影"]
    C --> F["域感知 Bias DAB<br/>按概率混合注意力偏置"]
    E --> G["域感知 Transformer Block"]
    F --> G
    G --> H["分类头 / 分割头"]
    H -.->|双层优化训练| C
    H -.->|双层优化训练| E

关键设计¶

1. 残差调制块 RMB + TALer：在冻结投影上做加性低秩修正

这一块直接对应"骨干一动就伤通用性"的痛点：与其改 \(W_q, W_v\) 本身，不如在它们旁边并一条可训练支路，把修正加上去。每个 RMB 的核心是一个任务对齐层（TALer），由低秩编码器、ReLU 非线性、低秩解码器和一个尺度因子组成。对输入特征 \(h\in\mathbb{R}^d\)，TALer 输出为

\[h' = r \cdot \sigma(W_{DS} h + b_{DS}) \odot \big(W_{US}\,\sigma(W_{DS} h + b_{DS}) + b_{US}\big)\]

其中 \(W_{DS}\in\mathbb{R}^{d'\times d}\) 降维、\(W_{US}\in\mathbb{R}^{d\times d'}\) 升回原维、\(r\) 是尺度因子（让模型对病灶 vs 胎儿结构这类不同尺度的目标都敏感）。修正注入方式是 \(Q=\tilde W_q\gamma = W_q\gamma + h'_q\)、\(V=\tilde W_v\gamma = W_v\gamma + h'_v\)——只动 Q、V 投影，Key 投影 \(K=W_k\gamma\) 保持原样，作者刻意让 K 不变以保住注意力分数反映的是数据里真实的关联结构。因为是加性低秩、且骨干冻结，预训练知识被原封保留，只在需要的投影上叠加少量域专属可塑性。

2. 域路由器 DR + 参数合成网络 PSN：把"有多医学"连续地翻译成参数

针对"域差异是连续的、静态整域调整套不住"这个核心矛盾，DR 不做硬分类，而是输出软域概率。DR 内部含一个域感知层（DALer，含收缩/扩张两类层 + 非线性）和一条并行门控通道（1×1 卷积 \(g=\mathrm{Conv}_{1\times1}(x;\theta_g)\) 提取空间细节后与原嵌入拼接），再由域分类器 \(D\) 经 softmax 给出 \(D(x)=[p_{medical}, p_{natural}]\)。关键的"连续性"来自 PSN：它是一个全连接超网络，吃图像嵌入 \(x\) 和域概率 \(D(x)\)，输出 TALer 的全部权重和偏置 \(\theta_A = P(x, D(x);\theta_P)\)。也就是说 RMB 参数不是固定查表，而是逐样本即时合成，从而在医学/自然参数之间平滑插值——一张"偏医学"的图会拿到更偏医学的修正核。这正是它区别于 ExPLoRA（静态域 LoRA）、Supernet（离散子网选择）的地方：无需换权重即可连续跨域适配。

3. 域感知注意力偏置 DAB：用几乎零开销让注意力按域偏移

为了让注意力本身也能按域调整关注点（比如医学图更该盯声影/低对比边界），作者在 logits 上加一个域专属偏置矩阵：

\[\mathrm{Attention}(Q,K,V) = \mathrm{softmax}\!\Big(\frac{QK^\top}{\sqrt{d_k}} + B_d\Big)V,\quad B_d = p_{medical}B_{medical} + p_{natural}B_{natural}\]

\(B_{medical}, B_{natural}\) 是各域学到的偏置矩阵，按 DR 给的概率混合。这等于让同一套注意力按"这张图有多医学"动态偏移，几乎不增计算量，却能捕捉模态特有的上下文关系。消融里 DAB 属于"稳定/精修"类组件而非主力适配能力，但加它能带来一致的小幅提升。

4. 双层（MAML 式）优化：把域级元参数与任务级表征解耦

如果让 PSN、DR、RMB 在同一个损失里一起拟合所有任务和域，梯度会互相打架——既想服务超声分割又想服务自然分类，PSN 收到冲突信号，域线索变弱、适配变慢。作者用双层优化拆开这两类学习：内层对每个任务 \(T\) 用任务数据 \(D_T^{task}\) 多步梯度微调 RMB 参数 \(\phi'_T \leftarrow \phi - \alpha\nabla_\phi L_T(\theta,\phi,\omega;D_T^{task})\)（此时 RMB 参数本身是 \(\phi=P(\omega,D(x))\) 由 PSN 生成）；外层用域特征数据 \(D_T^{dom}\) 更新 DR 参数 \(\omega\)、RMB 初始化 \(\phi\) 以及内层学习率 \(\alpha\)：\(\omega\leftarrow\omega-\beta\nabla_\omega\mathbb{E}_T[L_T(\theta,\phi'_T,\omega;D_T^{dom})]\)。整体训练损失是 \(L_{total}=L_{cls}+\beta L_{domain}+L_{reg}\)（任务分类 + 域分类 + 正则）。这样外层学"怎么生成好参数"的域级元知识、内层学具体任务表征，干净地隔离了梯度干扰——消融里去掉元学习（No Meta Learning）在多个数据集上掉点明显，印证了这一解耦的必要性。

损失函数 / 训练策略¶

联合训练域分类器、PSN 与主干模块，总损失 \(L_{total}=L_{cls}+\beta L_{domain}+L_{reg}\)。优化采用双层（episodic）框架：外层用域特征样本 \(D_T^{dom}\) 训元参数、内层用任务样本 \(D_T^{task}\) 做快速任务适配，外层还顺带学内层学习率。RMB 层数在 12 层前越多越好、之后饱和或略降。分割任务则冻结编码器、只训一个浅层逐像素解码头 + RMB + DR，用 Dice + 交叉熵。

实验关键数据¶

骨干统一 ViT-B/16、224×224、FP16、batch=128、单张 A100-40GB。评测覆盖胎儿医学（Fpus23、Fetal Planes）、自然/标准（CIFAR-10、Caltech101、Natural Images）、细粒度（Food101、SUN397、Stanford Cars）以及超声/CT/MRI 分割。

主实验（联合微调，Acc %）¶

数据集	LoRA	CLIP	DINOv2	DCRM-ViT
Fpus23（超声）	63.0	61.6	59.3	63.4
Fetal Planes	88.3	42.2	87.8	89.3
CIFAR-10	88.1	88.4	87.9	89.2
Caltech101	84.0	84.1	83.1	85.8
Food101	94.5	93.1	95.1	95.7
Stanford Cars	90.1	88.7	90.8	91.5

分割任务（Dice ↑）上同样全面领先：BUS-UCLM 0.862 / BUID 0.789 / BUS-BRA 0.834 / ACDC 0.928 / MMWHS-CT 0.880 / MMWHS-MRI 0.856，平均比 SAMUS 超声 +3.07、其它模态 +2.23。说明域条件机制能直接迁移到逐像素任务。

消融实验（Table 6，FPUS23 Acc %）¶

配置	Acc(%)	说明
Full	63.4	完整模型
w/o RMB	51.4	掉 12.0 点，最致命——主适配能力来自 RMB
w/o DR.	58.2	掉 5.2 点，失去软域估计
No PSN	59.1	掉 4.3 点，退回固定参数、丢连续插值
No Meta Learning	58.8	掉 4.6 点，梯度互相干扰
w/o DAB	60.1	掉 3.3 点，稳定性组件
w/o Rescale	61.4	掉 2.0 点，多尺度敏感性下降

计算开销（Table 7）¶

模型	总参数(M)	可训练(M)	吞吐(img/s)	每轮(min)
CLIP	123.0	123.0	205	3.0
LoRA	88.4	5.5	308	0.45
DCRM-ViT	90.3	3.3	335	0.3

PSN 用瓶颈维 \(h=120\) 时约 3.0M 参数（占可训练大头），但每 batch 只跑一次生成共享调制权重，约 7 MFLOPs（< ViT-B 的 0.04%），延迟影响可忽略。可训练参数仅约 ViT-B 的 3.5%。

关键发现¶

RMB 是绝对主力：去掉它 FPUS23 掉 12 点、Food101 掉 7.3 点，远超其它任一组件，说明"逐样本低秩残差"才是适配的核心容量来源。
DR / PSN / 双层元学习是"组织者"：它们决定 RMB 容量怎么按域分配，去掉任一个掉 4~5 点；而 Gates、Drop-Path、GELU、DAB、Rescale 属于稳定/精修类，各自 0.x~2 点的小幅贡献。
零样本场景下，MedCLIP/BioMedCLIP 在胎儿数据上能超 CLIP（医学预训练有效），但仍低于 DCRM-ViT，且在多个自然数据集上反而不如 CLIP；DCRM-ViT 在医学和自然两侧都拿到最高，体现"互不损伤"的设计目标达成。
跨域迁移（医学↔自然双向）无需任何测试时更新就保持最优，与需要推理时更新的 TTA 形成对比。

亮点与洞察¶

"连续域"假设落到了参数生成上：把"一张图有多医学"建模成软概率、再用超网络即时合成低秩核，是对"域是连续而非类别"这一观察的干净工程化，比静态域 LoRA / 离散子网选择更贴合现实分布。
只改 Q/V、保留 K 不动：一个很克制的设计——既给注意力留出域适配的口子，又用"K 不变"守住注意力分数的真实结构，避免修正污染相似度计算，这个取舍思路可迁移到任何"想微调注意力但怕破坏预训练几何"的场景。
双层优化解耦"生成参数的元知识"与"任务表征"：把超网络的训练从"同时讨好所有任务"里解放出来，消融数据明确支持这能减梯度干扰，对所有"用 hypernetwork 做条件生成"的工作都有借鉴价值。
工程性价比高：3.3M 可训练、0.3 min/epoch、PSN 仅每 batch 跑一次，落地约束友好。

局限与展望¶

只有两个域（医学/自然）：DR/DAB 的 bias 与概率都是二元混合，扩到三域以上（如不同医学模态各自成域）时软路由是否仍稳定、\(B_d\) 怎么组合，论文未验证。
域分类器需要域标签监督：\(L_{domain}\) 依赖真域标签，意味着训练时要知道每张图属于哪个域，对域边界本身模糊或无标注的数据不友好。
医学侧主要是胎儿超声 + 心脏 CT/MRI：声影/斑点等伪影针对性强，是否泛化到病理切片、内镜、X 光等差异更大的医学模态存疑。
PSN 是参数大头（3.0M / 3.3M）：虽然 FLOPs 极小，但参数生成网络本身的容量/泛化与瓶颈维 \(h\) 的敏感性只给了单点（120），缺少系统扫描。
全文部分公式排版来自 OCR 缓存，TALer 的逐元素相乘与升降维细节建议⚠️ 以原文为准。

评分¶

新颖性: ⭐⭐⭐⭐ "连续域软路由 + 超网络即时合成低秩残差 + 双层解耦"组合清晰且贴合"域连续"观察，单点不算颠覆但整合有巧思。
实验充分度: ⭐⭐⭐⭐ 覆盖分类/分割/零样本/跨域 + 细致消融，但医学侧模态偏窄、PSN 瓶颈维等关键超参缺系统扫描。
写作质量: ⭐⭐⭐ 动机与方法链条讲得清楚，但组件命名繁多（DR/PSN/RMB/TALer/DALer/GCU/DAB）、公式排版略乱，读起来需要反复对照。
价值: ⭐⭐⭐⭐ "单一冻结模型同时适配医学+自然、低开销、无测试时更新"对临床部署很实用，方法对一般多域 ViT 适配也有迁移价值。