3M-TI: High-Quality Mobile Thermal Imaging via Calibration-free Multi-Camera Cross-Modal Diffusion¶

会议: CVPR 2026
arXiv: 2511.19117
代码: GitHub
领域: 图像分割
关键词: 热成像超分辨率, 跨模态扩散, 无标定融合, RGB引导, 移动端热成像

一句话总结¶

提出 3M-TI，一个无需标定的多相机跨模态扩散框架，通过在 VAE 潜空间中用跨模态自注意力（CSM）自动对齐并融合未标定的 RGB-热红外图像对，结合错位增强策略，在移动端热成像超分辨率任务上达到 SOTA，并显著提升下游目标检测与语义分割性能。

研究背景与动机¶

移动热成像的硬件瓶颈：移动平台热传感器因小型化导致孔径缩小、像素尺寸受限，输出图像模糊且信息不足（典型分辨率仅 96×96）。

单图超分的信息不足：单幅热图像缺少足够的高频信息来恢复精细结构，尤其在大放大倍数下效果欠佳。

RGB 引导方法依赖标定：现有 RGB 引导的热图像 SR 方法需要精确的像素级跨相机标定，实际部署中标定过程繁琐且缺乏鲁棒性。

跨模态域差异大：RGB 与热红外成像原理根本不同，直接合并特征容易引入不真实的纹理细节。

热红外数据集规模有限：相比 RGB 领域，热红外数据集规模小、场景多样性不足，限制了网络训练和泛化。

实际场景中的时空错位：多相机系统在实际使用中不可避免地存在视差和时间不同步问题，现有方法对此缺乏鲁棒性。

方法详解¶

整体框架¶

3M-TI 想解决的是一个很实际的问题：移动端热相机拍出来的图模糊（典型只有 96×96），单张图又没有足够高频信息能恢复细节，而拉一张高清 RGB 来引导又躲不开像素级标定这个工程麻烦。它的做法是把"对齐"这件事甩给网络自己学——整条流程都跑在潜空间里。输入是低分辨率热图（64×64）和一张未标定的高分辨率 RGB 参考图（512×512），先用冻结的 VAE 编码器把两者各自压进潜空间；接着在 SD-Turbo 的 UNet 里，把原本的自注意力层换成跨模态自注意力（CSM），让 RGB 和热图的 token 在同一个序列里互相对齐、融合；训练阶段对 RGB 故意施加错位增强，逼模型适应真实多相机的视差与不同步；同时加一条零初始化的 skip connection 把编码器结构信息直送解码器，再用 RAM 从 RGB 抽出文本提示给一点语义引导。最后只用 LoRA 微调 UNet（rank=16）和 VAE 解码器（rank=4），单步扩散一次出图。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["低分辨率热图<br/>64×64"] --> ENC["冻结 VAE 编码器<br/>两模态各自编码进潜空间"]
    B["未标定 RGB 参考图<br/>512×512"] --> AUG["错位增强<br/>平移/缩放/旋转/透视（仅训练）"]
    AUG --> ENC
    B --> RAM["RAM 抽文本提示<br/>语义引导（脚手架）"]
    subgraph DIFF["潜空间单步扩散 + skip connection"]
        direction TB
        ENC --> CSM["跨模态自注意力 CSM<br/>替换 SD-Turbo UNet 自注意力层<br/>RGB+热图 token 拼成联合序列融合"]
        CSM --> DEC["VAE 解码器<br/>锁住几何结构"]
        ENC -.->|零初始化 skip| DEC
    end
    RAM --> CSM
    DEC --> OUT["高分辨率热图<br/>512×512"]

关键设计¶

1. 跨模态自注意力 CSM：不靠标定，让两个模态在潜空间里自己找对应

RGB 引导热成像 SR 的老路子都得先做精确的像素级跨相机标定，部署时既繁琐又脆。3M-TI 的关键转念是把对齐做成注意力里的隐式操作：把 RGB 和热图的潜变量 token 拼成一条联合序列 \(\{z_{RGB}, z_{th}\} \in \mathbb{R}^{B \times (M \times H \times W) \times C}\)，再让自注意力在这条序列上一次性算两种依赖——模态内的 thermal-thermal（保住热图自身的空间上下文）和模态间的 RGB-thermal（从 RGB 借结构）。和只看模态间、丢掉模态内空间上下文的标准 Cross-Attention 比，CSM 两种关系一起建模；和"特征拼接 + FC"那种静态投影比，它是内容自适应的，对哪块该借、借多少由注意力权重动态决定，而且整套不引入额外参数。这个把多帧塞进同一序列做联合自注意力的思路，直接借自视频/多视角扩散模型。

2. 错位增强：用人工几何扰动，逼模型学会无标定下的对齐

现有 RGB-热红外数据集几乎都是严格像素对齐的，直接训出来的模型会过拟合某一种标定配置，一换真实设备就垮。3M-TI 不去做复杂物理仿真，而是在训练时直接对 RGB 参考图施加可控的平移、缩放、旋转和透视畸变，人工制造出实际多相机里因视差和时间不同步带来的几何偏移。这样一来 CSM 被迫在"两张图本来就对不齐"的前提下学跨模态对应，训练分布和真实部署环境的 gap 就被这层增强补上了——消融里去掉它，MUSIQ 从 36.66 掉到 34.94，高频细节明显退化。

3. 潜空间单步扩散 + skip connection：既补出高频，又不把几何拧坏

热红外数据本来就少，纯 CNN/Transformer 在严重退化下只会输出过度平滑的结果；而扩散模型的生成先验能凭空合成逼真的高频细节，恰好补这个缺口，所以 3M-TI 用 SD-Turbo 在潜空间做单步扩散来出图。但扩散在补细节的同时也可能把几何结构带偏（圆形车轮被生成歪），于是再加一条零初始化的 skip connection，把 VAE 编码器的特征图直接传给解码器锁住结构一致性。两者互补：扩散负责"长出"细节，skip connection 负责"框住"形状。消融显示去掉 skip connection 后 PSNR 从 30.09 降到 29.86，车轮等几何形状确实开始失真。

损失函数与训练策略¶

训练目标是像素级 L2 损失加感知损失 LPIPS：\(\mathcal{L} = \mathcal{L}_2 + \lambda \cdot \mathcal{L}_{\text{LPIPS}}\)，其中 \(\lambda = 1\)。优化器用 Adam，学习率 \(2 \times 10^{-5}\)，batch size = 4，单卡 A800（80GB）跑 8000 iterations 约 4 小时。微调只动 LoRA（UNet rank=16、VAE decoder rank=4）。训练数据为 10,922 对 RGB-热红外图像，汇自 IRVI、LLVIP、M3FD、PBVS 2025 四个数据集。

实验关键数据¶

表1：公开数据集定量对比

方法	PSNR↑	SSIM↑	LPIPS↓	MANIQA↑	MUSIQ↑
CoReFusion	30.11	0.8588	0.3214	0.2771	28.35
CoRPLE	30.47	0.8642	0.3206	0.2833	30.46
SwinFuSR	29.85	0.8549	0.3085	0.2740	29.86
SeeSR	29.41	0.8495	0.1828	0.4278	35.22
OSEDiff	28.05	0.8422	0.2113	0.4014	36.30
DifIISR	27.48	0.7905	0.3484	0.4214	36.74
3M-TI (Ours)	30.09	0.8610	0.1787	0.4443	36.66

3M-TI 在感知指标（LPIPS、MANIQA、MUSIQ）上全面最优，同时在保真度指标（PSNR、SSIM）上优于其他扩散方法。

表2：下游目标检测性能对比

方法	Precision↑	Recall↑	F1↑	IoU↑
SwinPaste	0.1800	0.2109	0.1765	0.1941
SeeSR	0.3832	0.4637	0.3849	0.3022
3M-TI	0.4565	0.5455	0.4724	0.3427
Reference RGB	0.4322	0.5708	0.4643	0.3359
GT Thermal	0.4582	0.5793	0.4887	0.3494

3M-TI 的检测性能甚至略超 RGB 参考图，接近 GT 热图像水平。

消融实验关键结论

去掉 RGB 参考：重建模糊，LPIPS 从 0.1787 恶化到 0.2106。
去掉错位增强：MUSIQ 从 36.66 降至 34.94，高频细节退化明显。
去掉 Skip Connection：结构保真度下降（PSNR 从 30.09 降至 29.86），圆形车轮等几何形状失真。
CSM 优于标准 Cross-Attn（LPIPS 0.1787 vs 0.1953）和特征拼接（0.1787 vs 0.2164）。

亮点与洞察¶

无需标定的跨模态融合是本文最核心的实用价值——在 VAE 潜空间中通过注意力机制实现隐式对齐，彻底规避了实际部署中的标定难题。
CSM 的设计简洁有效：不引入额外参数，仅通过 token 拼接+自注意力就同时捕获模态内外依赖，是对视频扩散模型多帧处理思路的巧妙迁移。
错位增强策略思路新颖，用简单的几何变换代替复杂的物理仿真，有效提升泛化能力。
下游任务验证充分：不仅做感知质量评估，还验证了对目标检测和语义分割的实质性提升，证明超分的实用价值。
实际硬件验证：使用不到 100 美元的 HIKVISION P09 热相机模块 + 小米 15 手机搭建真实系统，工程可行性强。

局限性¶

单步扩散的质量上限：基于 SD-Turbo 的单步推理虽然高效，但生成质量可能不及多步扩散方法。
语义引导依赖 RAM：对 RGB 输入质量有要求，低光、运动模糊等退化的 RGB 参考图可能导致错误语义提示。
FOV 差异处理不充分：RGB 和热相机的视场角不同（74°×59° vs 50°×50°），当 FOV 差异更大时鲁棒性待验证。
仅验证 8× 超分（64→512）：对于不同放大倍数的适用性缺少讨论。
测试时的推理开销未充分讨论：UNet 中的跨模态自注意力序列长度为 \(2HW\)，在高分辨率场景下的计算复杂度需要关注。

评分¶

新颖性: ⭐⭐⭐⭐ — CSM 和错位增强策略新颖，无标定设定有实际意义
实验充分度: ⭐⭐⭐⭐ — 公开数据集+真实手机系统+下游任务+消融，覆盖面广
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机阐述充分，图表丰富
实用价值: ⭐⭐⭐⭐⭐ — 无标定+低成本硬件+移动端部署，工程实用性极强