Customized Fusion: A Closed-Loop Dynamic Network for Adaptive Multi-Task-Aware Infrared-Visible Image Fusion¶
会议: CVPR 2026
arXiv: 2604.08924
代码: https://github.com/YR0211/CLDyN (有)
领域: 红外可见光图像融合 / 多任务自适应 / 动态网络
关键词: 图像融合, 闭环优化, 任务自适应, 动态卷积, 语义补偿
一句话总结¶
提出闭环动态网络 CLDyN,让一个冻结的融合网络在不重训的前提下,通过一个仅 0.46M 参数的"需求驱动语义补偿(RSC)"模块接收下游任务(检测/分割/显著性)反馈的语义特征、动态定制卷积结构来做任务专属补偿,从而用一套模块同时适配多个任务,在 M3FD/FMB/VT5000 上既保住融合质量又取得领先的多任务适应性。
研究背景与动机¶
领域现状:红外-可见光图像融合(IVIF)把红外的热目标线索和可见光的纹理细节合成一张图,用来支撑检测、分割、显著目标检测等高层视觉任务。为了让融合结果"对任务有用",现有"任务感知融合"分两派:一是损失驱动(SeAFusion、TDAL、MetaFusion、TDFu),设计任务相关 loss 来引导融合网络学语义一致的表示;二是任务语义引导(DetFusion、UAAFusion、MRFS、SAGE),把任务特征直接注入融合过程增强语义表达。
现有痛点:这两类方法都是把"对某个/某些任务的偏好"固化进网络权重——融合网络在训练时见过哪些下游任务网络(DTN),就只对那些任务好。一旦换到训练时没见过的任务(untrained DTN),性能就明显掉,因为网络结构和参数是死的,没法针对新任务的语义需求重新调整自己。
核心矛盾:不同任务对融合图的语义需求其实是冲突的——检测想要突出的热区域,分割想要清晰的边缘结构,显著性想要完整的显著区域。把这些需求一次性塞进同一套静态权重里,必然顾此失彼(多任务下出现 task bias)。而要为每个任务单独训一个融合网络,参数和算力又爆炸。
本文目标:让一个融合网络在不重训的情况下,按照任意下游任务当下的语义需求"现场"调整自己,做到一套模块覆盖固定任务集内的多个任务。
切入角度:作者借鉴控制论里的闭环反馈思想——不要让信息只从融合网络单向流到任务网络,而是把任务网络反馈回来的语义特征作为"误差信号",回灌去修正融合特征。关键观察是:任务自适应的本质不是改融合网络本身(它被冻结),而是在它的中间特征上做一次"任务专属语义补偿"。
核心 idea:用"闭环优化机制 + 需求驱动语义补偿模块"代替"把任务偏好固化进权重",让融合网络的架构按任务需求动态定制,从而无需重训即可适配多任务。
方法详解¶
整体框架¶
CLDyN 分两阶段。第一阶段先训一个视觉引导融合网络(VFN):红外/可见光 \(I_{ir}, I_{vi}\) 经过 \(L\) 个特征提取块(FEB)逐层提特征 \(F^l_{ir/vi}\),再由融合重建块(FRB)重建出视觉质量高的融合图 \(I_f\),仅用像素+梯度的融合损失约束。第二阶段冻结 VFN,引入闭环优化机制:把 \(I_f\) 送进第 \(n\) 个下游任务网络拿到任务预测 \(\hat{y}^n_f\) 和反馈语义特征 \(F^n_d\),再由 RSC 模块根据 \(F^n_d\) 对 VFN 的中间特征 \(F^l_{ir/vi}\) 做任务专属补偿,得到任务特征 \(F^{l,n}_{ir_s/vi_s}\) 回注 VFN,重建出任务定制融合图 \(I^n_{fs}\)。整个链路(VFN → DTN → RSC → VFN)构成一条"语义传输链",并由"奖惩策略"根据补偿前后任务性能的变化来约束 RSC 的训练。RSC 全程共享参数、只训一次,推理时不更新任何梯度,仅额外引入 0.46M 参数、174.06G FLOPs。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["红外+可见光<br/>I_ir, I_vi"] --> B["视觉引导融合网络 VFN<br/>(冻结) 出初始融合图 I_f"]
B --> C["下游任务网络 DTN<br/>检测/分割/显著性"]
C -->|反馈语义特征 F_d| D["语义传输链<br/>把任务需求回灌融合网络"]
D --> E["需求驱动语义补偿 RSC<br/>BVB + A2SI 定制卷积结构"]
E -->|补偿特征回注 VFN| F["任务定制融合图 I_fs"]
F -->|补偿前后性能对比| G["奖惩策略<br/>奖励有效补偿/惩罚漂移"]
G -->|梯度约束| E
关键设计¶
1. 闭环优化机制:把下游任务的语义需求作为反馈信号回灌融合网络
针对"静态权重无法适配未见任务"的痛点,作者把单向的"融合→任务"管线改成闭环。语义传输链按式 (2)(3)(4)(5) 串起来:冻结 VFN 先产出 \(I_f\) 和各层特征 \(\{F^l_{ir/vi}\}\);\(I_f\) 进第 \(n\) 个任务网络 \(\phi_n\) 得到 \((\hat{y}^n_f, F^n_d)\),其中 \(F^n_d\) 编码了该任务对结构、纹理、显著区的偏好;RSC 据此把 \(F^l_{ir/vi}\) 补偿成 \(F^{l,n}_{ir_s/vi_s} = \mathrm{RSC}(\{F^l_{ir/vi}\}, F^n_d; \Psi)\),再用补偿特征替换原特征回注 VFN,重建任务定制图 \(I^n_{fs}\)。这样 VFN 本体不动,"适配能力"全部落在可学习的补偿上——检测任务就高亮热区、分割任务就强化边缘,做到同一网络对不同任务给出不同的融合结果
2. 奖惩策略:用补偿前后的性能变化防止语义补偿漂移
光有反馈链,RSC 在多任务联合训练下容易"补偿漂移"(学偏到某个任务上)。作者引入奖惩 loss 把补偿质量直接锚定到任务性能:奖励项 \(\ell^n_r = c_n(\hat{y}^n_{fs}, y^n_{GT})\) 在 GT 监督下鼓励补偿后预测对齐真值;惩罚项 \(\ell^n_p = \max(0,\ c_n(\hat{y}^n_{fs}, y^n_{GT}) - c_n(\hat{y}^n_f, y^n_{GT}))\) 只在"补偿后比补偿前更差"时才被激活,专门压制无效或有害的语义漂移。总目标 \(\ell^n_{cl} = \ell^n_r + \alpha\,\ell^n_p\),\(\alpha\) 控制惩罚强度;多任务梯度冲突用 CAGrad 缓解。奖励引导感知对齐、惩罚抑制过度补偿,二者配合让 RSC 逐步形成对各任务语义需求的可泛化理解
3. 需求驱动语义补偿 RSC:用基向量库 + 架构自适应注入按任务现场定制卷积结构
这是把"任务需求"翻译成"具体网络操作"的核心组件,由一个基向量库(BVB) 和 \(2(L-1)\) 个架构自适应语义注入(A2SI)块组成。痛点是单一感受野吃不下多样的任务语义,所以每个 A2SI 内设 \(M\) 个语义提取分支,每个分支按 \(F^l_{ir/vi}\) 和 \(F^n_d\) 自适应选卷积配置。作者定义四种正交卷积原型 \(p=[p_{1,1}, p_{3,1}, p_{3,2}, p_{3,3}]\)(核大小 \(k\times k\)、膨胀率 \(d\) 的组合,冻结以保配置独立)。配置选择:把两路特征投影、拼接、聚合后乘以原型并 Softmax,得到配置选择矩阵 \(S = \mathrm{Softmax}(p\,\mathrm{Resh}(\mathrm{Proj}_3([\mathrm{Proj}_1(F^l_{ir/vi}); \mathrm{Proj}_2(F^n_d)])))\),每个分支取概率最高的配置。
确定结构后,由 BVB 预测卷积参数本身:BVB 含四个子库对应四种配置,每个子库 32 个 \(e_2{=}256\) 维、两两正交初始化的可学习基向量。按式 (9) 算聚合特征与各基向量的余弦相似度 \(s_i = \cos(\mathrm{Proj}_6([\mathrm{Proj}_4(F^l); \mathrm{Proj}_5(F^n_d)]), r^{k,d}_{ir/vi,i})\),取最相似的基向量 \(\tilde{r}_m\),再经预测块 \(\mathrm{Pred}^{k,d}\) 生成第 \(m\) 分支卷积核 \(W^{k,d}_m\)。最后所有分支并行卷积、聚合并残差注入:\(F^{l,n}_{ir_s/vi_s} = F^l_{ir/vi} + \frac{1}{M}\sum_{m=1}^{M} (W^{k,d}_m \circledast F^l_{ir/vi})\)。"选结构(A2SI)+ 选参数(BVB)"两步都由任务语义驱动,等于让网络架构本身随任务现场重组,而不是固定权重去硬扛所有任务
损失函数 / 训练策略¶
- 第一阶段(训 VFN):融合损失 \(\ell_f = \|I_f - \max(I_{ir}, I_{vi})\|_1 + \lambda\|\nabla I_f - \max(\nabla I_{ir}, \nabla I_{vi})\|_1\),\(\nabla\) 为 Sobel 梯度,\(\lambda\) 平衡像素项与梯度项,保证融合图在像素一致性和纹理保留上的视觉保真。
- 第二阶段(训 RSC):冻结 VFN,仅训 RSC,用闭环目标 \(\ell^n_{cl} = \ell^n_r + \alpha\ell^n_p\),多任务用 CAGrad 缓解梯度冲突。
- 超参/设置:\(L{=}2\),\(\alpha{=}5\),\(M{=}4\);两阶段 Adam,batch 16/4,初始 lr \(1{\times}10^{-3}\) / \(1{\times}10^{-2}\),epoch 100/50;下游网络用 YOLOv5s、SegFormer(mit-b2)、CTDNet-18;单张 RTX 4090。
实验关键数据¶
主实验¶
融合质量对比(融合网络均不重训、用官方模型;指标 MI/\(Q_{AB/F}\)/\(Q_{CB}\) 越高越好,\(Q_{CV}\) 越低越好,\(Q_C\) 越高越好):
| 数据集 | 指标 | 本文 | 次优(典型) | 说明 |
|---|---|---|---|---|
| M3FD | \(Q_{AB/F}\) ↑ | 0.6900 | 0.6601 (SMiF) | 梯度融合质量第一 |
| M3FD | \(Q_{CV}\) ↓ | 472.62 | 488.67 (SMiF) | 越低越好,第一 |
| FMB | MI ↑ | 2.6219 | 2.4035 (TIMF) | 互信息第一 |
| FMB | \(Q_{AB/F}\) ↑ | 0.7124 | 0.6924 (SMiF) | 第一 |
| VT5000 | \(Q_{AB/F}\) ↑ | 0.6519 | 0.5249 (SAGE) | 大幅领先 |
| VT5000 | \(Q_{CV}\) ↓ | 331.15 | 392.64 (SAGE) | 第一 |
多任务适应性 — vs "任务网络重训"方法(OD: mAP\(_{50\to95}\),Seg: mIoU,SOD: mF/\(E_m\);参数/FLOPs 为可训练部分):
| 方法 | OD mAP ↑ | Seg mIoU ↑ | SOD mF ↑ | SOD \(E_m\) ↑ | Params(M) | FLOPs(G) |
|---|---|---|---|---|---|---|
| IRFS | 0.6306 | 59.43 | 0.8114 | 0.9091 | — | — |
| OCCO | 0.6320 | 58.57 | 0.8030 | 0.9017 | — | — |
| SAGE | 0.6225 | 54.89 | 0.8093 | 0.9066 | — | — |
| TIMF | 0.6166 | 60.86 | 0.7985 | 0.8998 | 46.52 | 183.82 |
| Ours | 0.6304 | 60.34 | 0.8129 | 0.9087 | 0.46 | 174.06 |
本文用最少可训练参数(0.46M,约为 TIMF 的 1%)和最低 FLOPs 拿到多数指标第一或紧贴第一(mIoU、\(E_m\) 第二也极接近最优),而对手要么参数/算力高得多、要么无法兼顾所有任务。
vs "联合训练"方法:IRFS/SMiF/MRFS 只在参与训练的任务上有竞争力、在其它任务掉得明显(如 MRFS 的 SOD mF 仅 0.7800),且参数 39.95~134.97M、FLOPs 219~526G;本文 0.46M/174.06G 在多任务上整体稳定领先。
消融实验¶
(M3FD/FMB/VT5000,OD/Seg/SOD 指标)
| 配置 | OD mAP ↑ | Seg mIoU ↑ | SOD mF ↑ | SOD \(E_m\) ↑ | 说明 |
|---|---|---|---|---|---|
| Model I(去闭环机制,仅任务损失训 RSC) | 0.6272 | 60.15 | 0.8136 | 0.9091 | 出现明显 task bias |
| Model II(去惩罚项 \(\ell^n_p\)) | 0.6276 | 60.18 | 0.8134 | 0.9091 | 偏向 SOD 任务 |
| Model III(RSC 换成普通卷积) | 0.6298 | 60.07 | 0.8115 | 0.9081 | 多任务适应性下降 |
| Full model | 0.6304 | 60.34 | 0.8129 | 0.9087 | 跨任务最均衡 |
⚠️ 表中 SOD 的 mF/\(E_m\) 在某些消融行个别项略高于 Full,作者强调 Full 的价值在于跨三个任务整体最均衡(消去组件后会偏科),单看某一任务的单点指标不代表整体多任务适应性。
跨检测器泛化(不重训 RSC,直接换检测器):
| 检测器 | VFN(补偿前) | VFN+RSC(补偿后) |
|---|---|---|
| DETR | 0.5610 | 0.5810 |
| YOLOv5 | 0.6076 | 0.6304 |
关键发现¶
- 闭环机制是多任务均衡的关键:去掉它(Model I)会出现显著 task bias,说明"反馈+补偿"而非单纯多任务 loss 才是消除偏科的根源。
- 惩罚项防漂移:去掉 \(\ell^n_p\)(Model II)模型明显偏向 SOD,证明惩罚项确实在抑制"补偿学偏"。
- 结构定制 > 普通卷积:RSC 换成普通卷积(Model III)多任务适应性下降,说明 BVB+A2SI 的动态结构定制带来的收益是实打实的。
- 极致轻量:仅 0.46M 参数/174.06G FLOPs 就支撑三任务自适应,且 RSC 训一次、跨任务共享、推理零梯度更新;跨检测器(DETR/YOLOv5)都能稳定涨点,说明补偿是任务级而非检测器过拟合。
亮点与洞察¶
- 把"控制论闭环"搬进图像融合:用任务网络的反馈语义当"误差信号"回灌融合特征,思路新颖——既保留了冻结 VFN 的视觉质量,又把"任务适配"剥离成一个可插拔的补偿模块,工程上很解耦。
- 奖惩里"惩罚只在变差时触发"很巧:\(\ell^n_p = \max(0, \text{after} - \text{before})\) 等于给补偿设了一道"不准帮倒忙"的底线,只惩负向漂移、不打压正向补偿,比单纯加任务 loss 更稳,这个 trick 可迁移到任何"额外模块可能反而拖累主网络"的场景。
- "选结构 + 选参数"双层动态:A2SI 用正交原型选卷积配置、BVB 用正交基向量选卷积权重,两层都靠任务语义驱动、两层都用正交初始化保多样性——把"动态网络"做到了架构和参数双自适应,而代价只有 0.46M 参数。
- 轻得离谱的多任务方案:用 1% 于对手的可训练参数拿下可比甚至更好的多任务表现,对资源受限部署很有吸引力。
局限与展望¶
- 任务集是固定的:RSC 在一个预定义固定任务集内训练并共享参数,论文反复强调"within a fixed task set"。对完全新增的任务类型能否零样本扩展,没有验证。
- 依赖下游任务网络可微反馈:闭环依赖从 DTN 拿到语义特征 \(F^n_d\) 和梯度可比的性能信号,对黑盒/不可微的下游任务或没有 GT 的场景不适用。
- 奖惩需要 GT 监督:奖励和惩罚项都建立在 GT 之上,意味着每个目标任务仍需标注数据来训 RSC,并非真正"无监督适配新任务"。
- 改进思路:可探索用无标注一致性信号代替 GT 监督、或让 BVB 支持任务集的增量扩展(如新任务来时只扩基向量子集而不重训全模块),向真正的开放任务集自适应靠拢。
相关工作与启发¶
- vs 损失驱动方法(SeAFusion / TDAL / MetaFusion / TDFu):它们用任务 loss 把语义"烧"进融合网络权重,本文不动权重、改为外挂可学习补偿;区别在于本文把任务适配做成动态、可跨任务复用的模块,避免了换任务就失效。
- vs 任务语义引导方法(DetFusion / MRFS / SAGE / SMiF):它们直接把任务特征注入融合过程,但任务特征与融合特征分布差距大、注入次优且常只对特定任务好;本文通过闭环反馈+结构定制做"按需补偿",在多任务下更通用。
- vs IDF-TDDT(指令微调融合网络):IDF-TDDT 用 LLaMA 编码任务指令来微调融合网络,参数/算力开销大、且纯靠指令难以捕捉任务专属语义;本文不用大模型、用反馈语义直接驱动结构定制,在多任务上定量定性都更优,更适合资源受限平台。
- 启发:"冻结主网络 + 外挂任务驱动的动态补偿模块"是一种很轻的多任务适配范式,可迁移到分割、检测之外凡是"一套主干想服务多任务、又不想为每任务重训"的场景。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把闭环反馈控制引入图像融合,并用"动态选结构+选参数"的 RSC 实现免重训多任务适配,思路确有新意
- 实验充分度: ⭐⭐⭐⭐ 三数据集三任务、对比重训/联合训练两大派、跨检测器泛化与逐项消融齐全;但任务集固定、未验证开放新任务
- 写作质量: ⭐⭐⭐⭐ 框架与公式清晰,闭环+RSC 两条主线讲得明白;部分符号(BVB/A2SI 维度)较密集
- 价值: ⭐⭐⭐⭐⭐ 0.46M 参数支撑多任务自适应、推理零更新,对实际部署很有吸引力