IRGPT: Understanding Real-world Infrared Image with Bi-cross-modal Curriculum on Large-scale Benchmark¶

会议: ICCV 2025
arXiv: 2507.14449
代码: 数据集已开源
领域: 图像生成
关键词: 红外图像, 多模态大语言模型, 课程学习, 跨模态迁移, 视觉-语言模型

一句话总结¶

提出 IRGPT，首个基于真实红外图像的多模态大语言模型，构建了包含 260K+ 图像-文本对的大规模红外-文本数据集 IR-TD，并设计了双跨模态课程迁移学习策略（Bi-cross-modal Curriculum），在 9 个红外任务基准上取得 SOTA 性能，零样本 psum 比基线 InternVL2-8B 提升 76.35。

研究背景与动机¶

为什么现有 VLM 无法处理红外图像？ 当前主流的视觉-语言模型（LLaVA、Qwen2-VL、InternVL2 等）主要针对可见光图像训练，在处理红外图像时会产生严重的幻觉问题。例如，金属招牌会被错误识别为非金属材质物体。这一问题的根源在于两方面：

数据稀缺：红外领域缺乏大规模的图像-文本对齐数据集。可见光图像可以通过网络爬取获得海量描述文本，但红外图像无法采用同样的方式

合成数据的局限性：先前方法（如 Infrared-LLaVA）依赖风格迁移从可见光图像生成合成红外图像，但合成数据受限于生成模型的训练分布，无法捕捉真实红外图像的独特特性（如热信息主导的目标显著性、不同光谱波段的成像差异）

为什么从可见光迁移学习也不简单？ 虽然红外和可见光图像存在一定相似性，但直接迁移面临红外图像语义信息稀疏、近红外/热红外等不同波段差异巨大、图像-文本对齐质量参差不齐等挑战。需要一种从简单到复杂、循序渐进的学习策略。

方法详解¶

整体框架¶

IRGPT 以 InternVL2-8B 为基础模型，包含视觉编码器、基础 LLM、文本分词器和可训练视觉投影器。训练策略分为两个阶段：

增量预训练：仅训练视觉编码器和投影层，目标是适应红外图像输入并与文本对齐
监督指令微调：同时微调视觉投影器和 LLM（使用 LoRA 防止表达能力损失）

IR-TD 数据集构建¶

为解决红外-文本数据稀缺问题，作者汇集了 63 个公开数据集，探索了 5 种数据生成路径：

路径 IV（LLM 辅助）：利用可见光-红外图像对，用 LLM 生成可见光图像描述，再人工适配为红外图像标注
路径 V（规则生成）：根据标注信息基于规则生成大规模图像-文本对

最终数据集包含 190K 预训练样本、33K 指令样本和 37K 基准测试样本，覆盖识别、定位、关系判断、行人重识别、安全监控、航拍计数等 9 类任务。与 Infrared-LLaVA 的闭源 IID 数据集相比，IR-TD 具有开源、图像真实、无数据冗余的优势。

双跨模态课程迁移学习¶

核心创新在于设计了两个"课程"来量化样本难度，指导由简到难的训练：

Lesson 1: IR-VIS（红外-可见光距离度量）

利用特征提取器在红外和可见光灰度图像上重训练，通过域内距离投影计算每个红外样本到可见光域的距离：

\[d_i = (\phi(x_i^{ir}) - c^{ir}) \cdot \frac{c^{vis} - c^{ir}}{\|c^{vis} - c^{ir}\|} + \text{MMD}\]

其中 \(c^{ir}\)、\(c^{vis}\) 为两个域的中心向量，MMD 为最大均值差异。越接近可见光的样本越容易学习（近红外 > 热红外）。

Lesson 2: IR-T（红外-文本对齐度量）

使用预热的 CLIP 计算红外图像与文本的对齐损失。为区分"困难但有价值的样本"和"对齐错误的样本"，引入损失变化率：

\[\alpha = \frac{l' - l}{l}\]

其中 \(l\) 和 \(l'\) 分别为预热前后的损失值。\(\alpha > 0\) 表示对齐变差（可能为噪声样本），\(\alpha \leq 0\) 表示正常收敛。

课程调度

将两个 Lesson 的排名整合为综合排名，将数据划分为 M 个难度层级。训练时按层级顺序组织，层级内随机采样，兼顾结构化学习和随机性。损失变化率作为自适应权重：

\[w_i = \begin{cases} 1 - \sigma(\alpha_i / \text{Median}(\{\alpha_j | \alpha_j > 0\})) & \alpha_i > 0 \\ 1 + \sigma(-\alpha_i / \text{Median}(\{-\alpha_k | \alpha_k \leq 0\})) & \alpha_i \leq 0 \end{cases}\]

最终加权交叉熵损失为 \(\mathcal{L} = \frac{1}{N}\sum_{i=1}^N w_i \cdot [-\sum_c y_{i,c} \log p_{i,c}]\)。

实验关键数据¶

主实验：9 任务性能对比¶

模型	Scene	Rec.	Gro.	Rel.	ReID	Sec.	psum↑	Loc.	A.C.	P.C.	nsum↓
LLaVA1.5-7B (zero-shot)	35.89	23.11	11.17	23.68	2.61	18.63	115.09	83.12	42.39	117.22	242.73
Qwen2-VL-7B (zero-shot)	49.80	59.42	25.74	56.19	4.62	30.08	225.85	50.41	18.05	89.12	157.58
InternVL2-8B (zero-shot)	46.02	77.69	30.05	53.02	7.33	38.19	252.30	43.29	21.75	60.39	125.43
InternVL2-26B (zero-shot)	62.24	72.88	39.48	55.42	8.16	43.72	281.90	38.25	21.68	64.65	124.58
IRGPT (CL, zero-shot)	65.12	86.28	36.68	58.33	33.55	48.69	328.65	33.32	13.25	47.30	93.87
InternVL2-26B (fine-tune)	84.03	98.94	48.77	95.89	47.09	99.06	473.78	12.50	1.38	5.68	19.57
IRGPT (CL, fine-tune)	85.12	99.79	51.58	98.69	50.79	99.82	485.79	3.32	0.25	0.82	4.39

零样本场景下，IRGPT 比 InternVL2-8B 基线 psum 提升 76.35，nsum 降低 31.56；微调后超越更大的 InternVL2-26B，psum 达 485.79（+12.01），nsum 仅 4.39（-15.18）。

消融实验：课程学习各组件效果¶

L1	anti-L1	L2	anti-L2	α	psum	nsum
-	-	-	-	-	464.49	26.85
✓	-	-	-	-	470.23	17.29
-	-	✓	-	-	466.81	19.33
✓	-	✓	-	-	481.36	7.08
✓	-	✓	-	✓	485.79	4.39
-	✓	-	✓	✓	433.24	26.50

Lesson 2（图文对齐）对 psum 更敏感，Lesson 1（图像质量）对 nsum 更敏感；反向课程（anti-CL）严重降低性能，验证了由简到难策略的有效性。

采样调度消融¶

调度策略	zero-shot psum	fine-tune psum	fine-tune nsum
Difficulty-Descending	286.84	433.24	26.50
Difficulty-Ascending	309.63	474.29	19.24
Random	307.18	479.46	12.94
Ascending-Stratified Random	328.65	485.79	4.39

分层随机上升策略最优，兼顾了结构化学习进程和随机变异性。

亮点与洞察¶

真实数据 vs 合成数据：首次证明基于真实红外图像的大规模训练显著优于合成红外方法，IR-TD 的真实性是关键优势
课程学习的有效设计：双视角（跨域距离 + 文本对齐度）的难度度量互补性强——L1 关注图像质量，L2 关注语义正确性
损失变化率的实用价值：通过区分"困难但可学习"和"对齐错误"样本，自适应权重既保护困难样本又抑制噪声，比纯静态损失更鲁棒
ReID 任务的突破：零样本 ReID 从 7.33 提升到 33.55，说明课程学习帮助模型真正理解了红外行人身份特征

局限性¶

模型基于 InternVL2-8B，相对轻量，在极复杂推理任务上可能不如更大模型
域投影距离计算是近似方法，精确度依赖特征提取器质量
IR-TD 的预训练子集中 LLM 生成的描述经过人工适配，规模化存在瓶颈
计数类任务（Loc/A.C./P.C.）在 zero-shot 下仍有较大误差，预训练阶段偏重对齐而非精确理解

评分 ⭐⭐⭐⭐¶

创新性：⭐⭐⭐⭐ — 首个真实红外 MLLM，双跨模态课程学习设计新颖
实验充分度：⭐⭐⭐⭐⭐ — 9 任务基准、零样本/微调双评、完整消融
实用价值：⭐⭐⭐⭐ — 数据集开源且有实际安防/自动驾驶应用场景
写作质量：⭐⭐⭐⭐ — 结构清晰，数据集构建和方法动机阐述充分