CVPR 2025 医学图像 HRCT 报告生成视频语言模型 Chain-of-Thought DPO 异常检测 3D 医学影像

Unleashing Video Language Models for Fine-grained HRCT Report Generation¶

会议: CVPR 2025
arXiv: 2603.12469
代码: GitHub
领域: 医学图像
关键词: HRCT 报告生成, 视频语言模型, Chain-of-Thought, DPO, 异常检测, 3D 医学影像

一句话总结¶

提出 AbSteering 框架，通过异常中心化 CoT 训练和基于临床混淆异常硬负例的 DPO 优化，将通用视频语言模型（VideoLMs）高效迁移到 HRCT 报告生成任务，性能超越专用 CT 基础模型。

研究背景与动机¶

HRCT 报告生成的临床价值：HRCT 是胸部和心肺疾病的关键诊断模态，AI 自动报告生成可减少临床工作量、标准化诊断叙述、缓解观察者间差异

从 X-ray 到 CT 的挑战：相比 2D X-ray，HRCT 引入（1）数百张切片带来的计算和内存开销，（2）更难的视觉理解问题——临床关键异常细微、空间稀疏、多样

现有方法的局限：专用 CT 基础模型（RadFM、CT-CHAT、M3D）需要大规模 CT 数据预训练，且在细粒度长尾异常识别上仍不足

VideoLMs 的潜力：HRCT 体积可自然视为"视频式切片序列"，VideoLMs 具有强大时空推理能力，但缺乏医学领域知识

核心问题：（1）VideoLMs 的编码器能否捕获 3D 临床特征？（2）如何高效适配到医学报告？（3）与 CT 专用模型相比如何？

核心 idea：VideoLMs 和 CT 专用模型架构高度相似（3D tokenization + attention + LLM decoder），差异仅在训练域——因此关键在于高效的领域适配

方法详解¶

整体框架：AbSteering（两阶段）¶

利用预训练 VideoLM 作为 backbone，分两阶段进行领域适配：

Stage 1: 异常中心化 CoT 训练¶

报告结构化：将 CT-RATE 报告按 10 个解剖区域（肺、气管与支气管、纵隔、心脏、食管、胸膜、骨骼、甲状腺、乳腺、腹部）重组为统一的 (region: abnormality) 模板，使用 GPT-4o 辅助分类
CoT 训练：训练目标序列 \(Y = [R_{AB}; R_{Full}]\)，模型先生成结构化异常发现（reasoning anchor），再合成完整报告
设计动机：强制模型先进行异常推理，抑制正常组织主导的描述和幻觉，学习疾病共现/互斥等临床关联
数据集：策划 CT-RATE-AB 数据集，包含结构化异常标注

Stage 2: 细粒度异常判别（DPO）¶

硬负例构造：使用 GPT-4o 将真实异常替换为同一解剖区域内的临床易混淆异常，生成 \(R_{AB\_Fake}\)，保持报告流畅性和结构一致性
DPO 优化：\(\mathcal{L}_{DPO}\) 让模型偏好真实报告 \(R_{AB}\)（winning）而非伪造报告 \(R_{AB\_Fake}\)（losing），迫使模型关注区分两者的细微视觉线索
设计动机：CT 异常常表现为微妙且视觉易混淆的模式，DPO 通过对比学习增强异常判别能力并抑制幻觉

架构说明¶

VideoLMs 的视觉编码器将 CT 输入为 \(X \in \mathbb{R}^{T \times H \times W \times C}\)，通过时空 3D attention 编码，token merger 压缩后送入 LLM。与 CT 专用模型架构本质相同，差异在于预训练域。

实验关键数据¶

数据集¶

CT-RATE：25,692 非增强胸部 CT（21,304 患者），扩展至 50,188 volumes，每个 CT 转为 240 帧 480×480 的 MP4（18fps）
训练集 46,717 CT（20,000 患者），验证集 3,039 CT（1,314 患者）

主实验（CT-RATE benchmark）¶

方法	BL-1	RG-L	BERT	CE Micro F1	CE Macro F1
M3D-8B	44.95	37.76	87.52	35.69	26.74
Qwen2.5-VL-7B	43.67	36.71	87.30	33.64	25.57
InternVL3-8B	45.57	38.49	87.40	44.45	38.91
M3D-AbSteer	45.22	38.58	87.83	43.24	36.18
Qwen-AbSteer	45.64	37.99	87.13	45.99	37.90
InternVL3-AbSteer	48.32	40.49	87.59	54.55	47.66

关键发现¶

通用 VideoLMs（Qwen2.5-VL、InternVL3）fine-tune 后即可匹配 CT 专用基础模型 M3D
AbSteering 对 VideoLMs 的提升远大于对 M3D 的提升（InternVL3 CE Micro F1: 44.45→54.55）
InternVL3-AbSteer 在所有临床效能指标上大幅超越所有 CT 专用模型

消融实验¶

CoT 显著提升 recall，DPO 在 CoT 基础上同时提升 precision 和 recall
视频预训练至关重要：从头训练性能大幅下降；LoRA 无增益（冻结编码器即可）
LLM 规模：3B→7B 提升，7B→32B 反而下降，瓶颈在视觉-文本对齐而非 LLM 容量

亮点¶

跨模态迁移的新范式：证明通用 VideoLMs 在有限数据下可高效迁移到 3D 医学影像，无需从头训练专用基础模型
CoT + DPO 的协同：CoT 提升异常召回率，DPO 抑制幻觉——两者通常难以同时优化
临床混淆硬负例：用同区域易混淆异常构造 DPO 负例，精准针对细粒度判别瓶颈
"冻结编码器即可"的发现：VideoLM 预训练特征足够鲁棒，无需额外适配视觉编码器

局限性¶

仅在 CT-RATE 单一数据集验证，缺乏跨机构/跨疾病谱的泛化性评估
GPT-4o 依赖较重（报告结构化 + 硬负例生成），增加了数据准备的成本和可复现性风险
仅针对胸部 HRCT，未验证对腹部/头部 CT 等其他部位的适用性
LLM 规模 32B 反而下降的现象值得进一步探究（数据密度不足 vs 过拟合）
将 CT 转为 MP4 视频格式（240帧 18fps）可能引入有损压缩伪影，对细微异常识别的影响未讨论
NLG 指标提升有限（BLEU-4 仅 23.58），临床效能指标提升才是核心贡献

与相关工作的对比¶

vs CT-CHAT/RadFM（CT 专用基础模型）：架构相似但预训练域不同。AbSteering 证明通用视频预训练 + 高效适配 > 领域专用大规模预训练，且训练成本更低
vs M3D-8B（最强 CT 基础模型）：M3D-AbSteer 的临床效能提升不如 VideoLM-AbSteer 显著，说明 VideoLMs 的通用时空推理能力更具可塑性
vs 传统 CoT 方法：本文 CoT 不是通用推理链，而是领域特化的"异常发现→报告生成"因果链，与 DPO 协同更紧密
vs Dia-LLaMA：Dia-LLaMA 设计 CT 专用视觉编码器对接 LLM，本文证明直接复用 VideoLM 的编码器即可，无需领域特化编码器

评分¶

新颖性: ⭐⭐⭐⭐ VideoLM→HRCT 迁移路径新颖，CoT+DPO 组合巧妙
实验充分度: ⭐⭐⭐⭐ 多 backbone 对比、消融全面、case study 充分
写作质量: ⭐⭐⭐⭐ 动机推导清晰，架构等价性分析有说服力
价值: ⭐⭐⭐⭐ 为 3D 医学报告生成提供了高效实用的新范式
总评: 8/10