Customized Fusion: A Closed-Loop Dynamic Network for Adaptive Multi-Task-Aware Infrared-Visible Image Fusion¶

会议: CVPR 2026
arXiv: 2604.08924
代码: https://github.com/YR0211/CLDyN (有)
领域: 红外可见光图像融合 / 多任务自适应 / 动态网络
关键词: 图像融合, 闭环优化, 任务自适应, 动态卷积, 语义补偿

一句话总结¶

提出闭环动态网络 CLDyN，让一个冻结的融合网络在不重训的前提下，通过一个仅 0.46M 参数的"需求驱动语义补偿（RSC）"模块接收下游任务（检测/分割/显著性）反馈的语义特征、动态定制卷积结构来做任务专属补偿，从而用一套模块同时适配多个任务，在 M3FD/FMB/VT5000 上既保住融合质量又取得领先的多任务适应性。

研究背景与动机¶

领域现状：红外-可见光图像融合（IVIF）把红外的热目标线索和可见光的纹理细节合成一张图，用来支撑检测、分割、显著目标检测等高层视觉任务。为了让融合结果"对任务有用"，现有"任务感知融合"分两派：一是损失驱动（SeAFusion、TDAL、MetaFusion、TDFu），设计任务相关 loss 来引导融合网络学语义一致的表示；二是任务语义引导（DetFusion、UAAFusion、MRFS、SAGE），把任务特征直接注入融合过程增强语义表达。

现有痛点：这两类方法都是把"对某个/某些任务的偏好"固化进网络权重——融合网络在训练时见过哪些下游任务网络（DTN），就只对那些任务好。一旦换到训练时没见过的任务（untrained DTN），性能就明显掉，因为网络结构和参数是死的，没法针对新任务的语义需求重新调整自己。

核心矛盾：不同任务对融合图的语义需求其实是冲突的——检测想要突出的热区域，分割想要清晰的边缘结构，显著性想要完整的显著区域。把这些需求一次性塞进同一套静态权重里，必然顾此失彼（多任务下出现 task bias）。而要为每个任务单独训一个融合网络，参数和算力又爆炸。

本文目标：让一个融合网络在不重训的情况下，按照任意下游任务当下的语义需求"现场"调整自己，做到一套模块覆盖固定任务集内的多个任务。

切入角度：作者借鉴控制论里的闭环反馈思想——不要让信息只从融合网络单向流到任务网络，而是把任务网络反馈回来的语义特征作为"误差信号"，回灌去修正融合特征。关键观察是：任务自适应的本质不是改融合网络本身（它被冻结），而是在它的中间特征上做一次"任务专属语义补偿"。

核心 idea：用"闭环优化机制 + 需求驱动语义补偿模块"代替"把任务偏好固化进权重"，让融合网络的架构按任务需求动态定制，从而无需重训即可适配多任务。

方法详解¶

整体框架¶

CLDyN 分两阶段。第一阶段先训一个视觉引导融合网络（VFN）：红外/可见光 \(I_{ir}, I_{vi}\) 经过 \(L\) 个特征提取块（FEB）逐层提特征 \(F^l_{ir/vi}\)，再由融合重建块（FRB）重建出视觉质量高的融合图 \(I_f\)，仅用像素+梯度的融合损失约束。第二阶段冻结 VFN，引入闭环优化机制：把 \(I_f\) 送进第 \(n\) 个下游任务网络拿到任务预测 \(\hat{y}^n_f\) 和反馈语义特征 \(F^n_d\)，再由 RSC 模块根据 \(F^n_d\) 对 VFN 的中间特征 \(F^l_{ir/vi}\) 做任务专属补偿，得到任务特征 \(F^{l,n}_{ir_s/vi_s}\) 回注 VFN，重建出任务定制融合图 \(I^n_{fs}\)。整个链路（VFN → DTN → RSC → VFN）构成一条"语义传输链"，并由"奖惩策略"根据补偿前后任务性能的变化来约束 RSC 的训练。RSC 全程共享参数、只训一次，推理时不更新任何梯度，仅额外引入 0.46M 参数、174.06G FLOPs。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["红外+可见光<br/>I_ir, I_vi"] --> B["视觉引导融合网络 VFN<br/>(冻结) 出初始融合图 I_f"]
    B --> C["下游任务网络 DTN<br/>检测/分割/显著性"]
    C -->|反馈语义特征 F_d| D["语义传输链<br/>把任务需求回灌融合网络"]
    D --> E["需求驱动语义补偿 RSC<br/>BVB + A2SI 定制卷积结构"]
    E -->|补偿特征回注 VFN| F["任务定制融合图 I_fs"]
    F -->|补偿前后性能对比| G["奖惩策略<br/>奖励有效补偿/惩罚漂移"]
    G -->|梯度约束| E

关键设计¶

1. 闭环优化机制：把下游任务的语义需求作为反馈信号回灌融合网络

针对"静态权重无法适配未见任务"的痛点，作者把单向的"融合→任务"管线改成闭环。语义传输链按式 (2)(3)(4)(5) 串起来：冻结 VFN 先产出 \(I_f\) 和各层特征 \(\{F^l_{ir/vi}\}\)；\(I_f\) 进第 \(n\) 个任务网络 \(\phi_n\) 得到 \((\hat{y}^n_f, F^n_d)\)，其中 \(F^n_d\) 编码了该任务对结构、纹理、显著区的偏好；RSC 据此把 \(F^l_{ir/vi}\) 补偿成 \(F^{l,n}_{ir_s/vi_s} = \mathrm{RSC}(\{F^l_{ir/vi}\}, F^n_d; \Psi)\)，再用补偿特征替换原特征回注 VFN，重建任务定制图 \(I^n_{fs}\)。这样 VFN 本体不动，"适配能力"全部落在可学习的补偿上——检测任务就高亮热区、分割任务就强化边缘，做到同一网络对不同任务给出不同的融合结果

2. 奖惩策略：用补偿前后的性能变化防止语义补偿漂移

光有反馈链，RSC 在多任务联合训练下容易"补偿漂移"（学偏到某个任务上）。作者引入奖惩 loss 把补偿质量直接锚定到任务性能：奖励项 \(\ell^n_r = c_n(\hat{y}^n_{fs}, y^n_{GT})\) 在 GT 监督下鼓励补偿后预测对齐真值；惩罚项 \(\ell^n_p = \max(0,\ c_n(\hat{y}^n_{fs}, y^n_{GT}) - c_n(\hat{y}^n_f, y^n_{GT}))\) 只在"补偿后比补偿前更差"时才被激活，专门压制无效或有害的语义漂移。总目标 \(\ell^n_{cl} = \ell^n_r + \alpha\,\ell^n_p\)，\(\alpha\) 控制惩罚强度；多任务梯度冲突用 CAGrad 缓解。奖励引导感知对齐、惩罚抑制过度补偿，二者配合让 RSC 逐步形成对各任务语义需求的可泛化理解

3. 需求驱动语义补偿 RSC：用基向量库 + 架构自适应注入按任务现场定制卷积结构

这是把"任务需求"翻译成"具体网络操作"的核心组件，由一个基向量库（BVB） 和 \(2(L-1)\) 个架构自适应语义注入（A2SI）块组成。痛点是单一感受野吃不下多样的任务语义，所以每个 A2SI 内设 \(M\) 个语义提取分支，每个分支按 \(F^l_{ir/vi}\) 和 \(F^n_d\) 自适应选卷积配置。作者定义四种正交卷积原型 \(p=[p_{1,1}, p_{3,1}, p_{3,2}, p_{3,3}]\)（核大小 \(k\times k\)、膨胀率 \(d\) 的组合，冻结以保配置独立）。配置选择：把两路特征投影、拼接、聚合后乘以原型并 Softmax，得到配置选择矩阵 \(S = \mathrm{Softmax}(p\,\mathrm{Resh}(\mathrm{Proj}_3([\mathrm{Proj}_1(F^l_{ir/vi}); \mathrm{Proj}_2(F^n_d)])))\)，每个分支取概率最高的配置。

确定结构后，由 BVB 预测卷积参数本身：BVB 含四个子库对应四种配置，每个子库 32 个 \(e_2{=}256\) 维、两两正交初始化的可学习基向量。按式 (9) 算聚合特征与各基向量的余弦相似度 \(s_i = \cos(\mathrm{Proj}_6([\mathrm{Proj}_4(F^l); \mathrm{Proj}_5(F^n_d)]), r^{k,d}_{ir/vi,i})\)，取最相似的基向量 \(\tilde{r}_m\)，再经预测块 \(\mathrm{Pred}^{k,d}\) 生成第 \(m\) 分支卷积核 \(W^{k,d}_m\)。最后所有分支并行卷积、聚合并残差注入：\(F^{l,n}_{ir_s/vi_s} = F^l_{ir/vi} + \frac{1}{M}\sum_{m=1}^{M} (W^{k,d}_m \circledast F^l_{ir/vi})\)。"选结构（A2SI）+ 选参数（BVB）"两步都由任务语义驱动，等于让网络架构本身随任务现场重组，而不是固定权重去硬扛所有任务

损失函数 / 训练策略¶

第一阶段（训 VFN）：融合损失 \(\ell_f = \|I_f - \max(I_{ir}, I_{vi})\|_1 + \lambda\|\nabla I_f - \max(\nabla I_{ir}, \nabla I_{vi})\|_1\)，\(\nabla\) 为 Sobel 梯度，\(\lambda\) 平衡像素项与梯度项，保证融合图在像素一致性和纹理保留上的视觉保真。
第二阶段（训 RSC）：冻结 VFN，仅训 RSC，用闭环目标 \(\ell^n_{cl} = \ell^n_r + \alpha\ell^n_p\)，多任务用 CAGrad 缓解梯度冲突。
超参/设置：\(L{=}2\)，\(\alpha{=}5\)，\(M{=}4\)；两阶段 Adam，batch 16/4，初始 lr \(1{\times}10^{-3}\) / \(1{\times}10^{-2}\)，epoch 100/50；下游网络用 YOLOv5s、SegFormer(mit-b2)、CTDNet-18；单张 RTX 4090。

实验关键数据¶

主实验¶

融合质量对比（融合网络均不重训、用官方模型；指标 MI/\(Q_{AB/F}\)/\(Q_{CB}\) 越高越好，\(Q_{CV}\) 越低越好，\(Q_C\) 越高越好）：

数据集	指标	本文	次优(典型)	说明
M3FD	\(Q_{AB/F}\) ↑	0.6900	0.6601 (SMiF)	梯度融合质量第一
M3FD	\(Q_{CV}\) ↓	472.62	488.67 (SMiF)	越低越好，第一
FMB	MI ↑	2.6219	2.4035 (TIMF)	互信息第一
FMB	\(Q_{AB/F}\) ↑	0.7124	0.6924 (SMiF)	第一
VT5000	\(Q_{AB/F}\) ↑	0.6519	0.5249 (SAGE)	大幅领先
VT5000	\(Q_{CV}\) ↓	331.15	392.64 (SAGE)	第一

多任务适应性 — vs "任务网络重训"方法（OD: mAP\(_{50\to95}\)，Seg: mIoU，SOD: mF/\(E_m\)；参数/FLOPs 为可训练部分）：

方法	OD mAP ↑	Seg mIoU ↑	SOD mF ↑	SOD \(E_m\) ↑	Params(M)	FLOPs(G)
IRFS	0.6306	59.43	0.8114	0.9091	—	—
OCCO	0.6320	58.57	0.8030	0.9017	—	—
SAGE	0.6225	54.89	0.8093	0.9066	—	—
TIMF	0.6166	60.86	0.7985	0.8998	46.52	183.82
Ours	0.6304	60.34	0.8129	0.9087	0.46	174.06

本文用最少可训练参数（0.46M，约为 TIMF 的 1%）和最低 FLOPs 拿到多数指标第一或紧贴第一（mIoU、\(E_m\) 第二也极接近最优），而对手要么参数/算力高得多、要么无法兼顾所有任务。

vs "联合训练"方法：IRFS/SMiF/MRFS 只在参与训练的任务上有竞争力、在其它任务掉得明显（如 MRFS 的 SOD mF 仅 0.7800），且参数 39.95~134.97M、FLOPs 219~526G；本文 0.46M/174.06G 在多任务上整体稳定领先。

消融实验¶

（M3FD/FMB/VT5000，OD/Seg/SOD 指标）

配置	OD mAP ↑	Seg mIoU ↑	SOD mF ↑	SOD \(E_m\) ↑	说明
Model I（去闭环机制，仅任务损失训 RSC）	0.6272	60.15	0.8136	0.9091	出现明显 task bias
Model II（去惩罚项 \(\ell^n_p\)）	0.6276	60.18	0.8134	0.9091	偏向 SOD 任务
Model III（RSC 换成普通卷积）	0.6298	60.07	0.8115	0.9081	多任务适应性下降
Full model	0.6304	60.34	0.8129	0.9087	跨任务最均衡

⚠️ 表中 SOD 的 mF/\(E_m\) 在某些消融行个别项略高于 Full，作者强调 Full 的价值在于跨三个任务整体最均衡（消去组件后会偏科），单看某一任务的单点指标不代表整体多任务适应性。

跨检测器泛化（不重训 RSC，直接换检测器）：

检测器	VFN（补偿前）	VFN+RSC（补偿后）
DETR	0.5610	0.5810
YOLOv5	0.6076	0.6304

关键发现¶

闭环机制是多任务均衡的关键：去掉它（Model I）会出现显著 task bias，说明"反馈+补偿"而非单纯多任务 loss 才是消除偏科的根源。
惩罚项防漂移：去掉 \(\ell^n_p\)（Model II）模型明显偏向 SOD，证明惩罚项确实在抑制"补偿学偏"。
结构定制 > 普通卷积：RSC 换成普通卷积（Model III）多任务适应性下降，说明 BVB+A2SI 的动态结构定制带来的收益是实打实的。
极致轻量：仅 0.46M 参数/174.06G FLOPs 就支撑三任务自适应，且 RSC 训一次、跨任务共享、推理零梯度更新；跨检测器（DETR/YOLOv5）都能稳定涨点，说明补偿是任务级而非检测器过拟合。

亮点与洞察¶

把"控制论闭环"搬进图像融合：用任务网络的反馈语义当"误差信号"回灌融合特征，思路新颖——既保留了冻结 VFN 的视觉质量，又把"任务适配"剥离成一个可插拔的补偿模块，工程上很解耦。
奖惩里"惩罚只在变差时触发"很巧：\(\ell^n_p = \max(0, \text{after} - \text{before})\) 等于给补偿设了一道"不准帮倒忙"的底线，只惩负向漂移、不打压正向补偿，比单纯加任务 loss 更稳，这个 trick 可迁移到任何"额外模块可能反而拖累主网络"的场景。
"选结构 + 选参数"双层动态：A2SI 用正交原型选卷积配置、BVB 用正交基向量选卷积权重，两层都靠任务语义驱动、两层都用正交初始化保多样性——把"动态网络"做到了架构和参数双自适应，而代价只有 0.46M 参数。
轻得离谱的多任务方案：用 1% 于对手的可训练参数拿下可比甚至更好的多任务表现，对资源受限部署很有吸引力。

局限与展望¶

任务集是固定的：RSC 在一个预定义固定任务集内训练并共享参数，论文反复强调"within a fixed task set"。对完全新增的任务类型能否零样本扩展，没有验证。
依赖下游任务网络可微反馈：闭环依赖从 DTN 拿到语义特征 \(F^n_d\) 和梯度可比的性能信号，对黑盒/不可微的下游任务或没有 GT 的场景不适用。
奖惩需要 GT 监督：奖励和惩罚项都建立在 GT 之上，意味着每个目标任务仍需标注数据来训 RSC，并非真正"无监督适配新任务"。
改进思路：可探索用无标注一致性信号代替 GT 监督、或让 BVB 支持任务集的增量扩展（如新任务来时只扩基向量子集而不重训全模块），向真正的开放任务集自适应靠拢。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把闭环反馈控制引入图像融合，并用"动态选结构+选参数"的 RSC 实现免重训多任务适配，思路确有新意
实验充分度: ⭐⭐⭐⭐ 三数据集三任务、对比重训/联合训练两大派、跨检测器泛化与逐项消融齐全；但任务集固定、未验证开放新任务
写作质量: ⭐⭐⭐⭐ 框架与公式清晰，闭环+RSC 两条主线讲得明白；部分符号（BVB/A2SI 维度）较密集
价值: ⭐⭐⭐⭐⭐ 0.46M 参数支撑多任务自适应、推理零更新，对实际部署很有吸引力