跳转至

Unleashing Video Language Models for Fine-grained HRCT Report Generation

会议: CVPR 2025
arXiv: 2603.12469
代码: GitHub
领域: 医学图像
关键词: HRCT 报告生成, 视频语言模型, Chain-of-Thought, DPO, 异常检测, 3D 医学影像

一句话总结

提出 AbSteering 框架,通过异常中心化 CoT 训练和基于临床混淆异常硬负例的 DPO 优化,将通用视频语言模型(VideoLMs)高效迁移到 HRCT 报告生成任务,性能超越专用 CT 基础模型。

研究背景与动机

HRCT 报告生成的临床价值:HRCT 是胸部和心肺疾病的关键诊断模态,AI 自动报告生成可减少临床工作量、标准化诊断叙述、缓解观察者间差异

从 X-ray 到 CT 的挑战:相比 2D X-ray,HRCT 引入(1)数百张切片带来的计算和内存开销,(2)更难的视觉理解问题——临床关键异常细微、空间稀疏、多样

现有方法的局限:专用 CT 基础模型(RadFM、CT-CHAT、M3D)需要大规模 CT 数据预训练,且在细粒度长尾异常识别上仍不足

VideoLMs 的潜力:HRCT 体积可自然视为"视频式切片序列",VideoLMs 具有强大时空推理能力,但缺乏医学领域知识

核心问题:(1)VideoLMs 的编码器能否捕获 3D 临床特征?(2)如何高效适配到医学报告?(3)与 CT 专用模型相比如何?

核心 idea:VideoLMs 和 CT 专用模型架构高度相似(3D tokenization + attention + LLM decoder),差异仅在训练域——因此关键在于高效的领域适配

方法详解

整体框架:AbSteering(两阶段)

利用预训练 VideoLM 作为 backbone,分两阶段进行领域适配:

Stage 1: 异常中心化 CoT 训练

  • 报告结构化:将 CT-RATE 报告按 10 个解剖区域(肺、气管与支气管、纵隔、心脏、食管、胸膜、骨骼、甲状腺、乳腺、腹部)重组为统一的 (region: abnormality) 模板,使用 GPT-4o 辅助分类
  • CoT 训练:训练目标序列 \(Y = [R_{AB}; R_{Full}]\),模型先生成结构化异常发现(reasoning anchor),再合成完整报告
  • 设计动机:强制模型先进行异常推理,抑制正常组织主导的描述和幻觉,学习疾病共现/互斥等临床关联
  • 数据集:策划 CT-RATE-AB 数据集,包含结构化异常标注

Stage 2: 细粒度异常判别(DPO)

  • 硬负例构造:使用 GPT-4o 将真实异常替换为同一解剖区域内的临床易混淆异常,生成 \(R_{AB\_Fake}\),保持报告流畅性和结构一致性
  • DPO 优化\(\mathcal{L}_{DPO}\) 让模型偏好真实报告 \(R_{AB}\)(winning)而非伪造报告 \(R_{AB\_Fake}\)(losing),迫使模型关注区分两者的细微视觉线索
  • 设计动机:CT 异常常表现为微妙且视觉易混淆的模式,DPO 通过对比学习增强异常判别能力并抑制幻觉

架构说明

VideoLMs 的视觉编码器将 CT 输入为 \(X \in \mathbb{R}^{T \times H \times W \times C}\),通过时空 3D attention 编码,token merger 压缩后送入 LLM。与 CT 专用模型架构本质相同,差异在于预训练域。

实验关键数据

数据集

  • CT-RATE:25,692 非增强胸部 CT(21,304 患者),扩展至 50,188 volumes,每个 CT 转为 240 帧 480×480 的 MP4(18fps)
  • 训练集 46,717 CT(20,000 患者),验证集 3,039 CT(1,314 患者)

主实验(CT-RATE benchmark)

方法 BL-1 RG-L BERT CE Micro F1 CE Macro F1
M3D-8B 44.95 37.76 87.52 35.69 26.74
Qwen2.5-VL-7B 43.67 36.71 87.30 33.64 25.57
InternVL3-8B 45.57 38.49 87.40 44.45 38.91
M3D-AbSteer 45.22 38.58 87.83 43.24 36.18
Qwen-AbSteer 45.64 37.99 87.13 45.99 37.90
InternVL3-AbSteer 48.32 40.49 87.59 54.55 47.66

关键发现

  • 通用 VideoLMs(Qwen2.5-VL、InternVL3)fine-tune 后即可匹配 CT 专用基础模型 M3D
  • AbSteering 对 VideoLMs 的提升远大于对 M3D 的提升(InternVL3 CE Micro F1: 44.45→54.55)
  • InternVL3-AbSteer 在所有临床效能指标上大幅超越所有 CT 专用模型

消融实验

  • CoT 显著提升 recall,DPO 在 CoT 基础上同时提升 precision 和 recall
  • 视频预训练至关重要:从头训练性能大幅下降;LoRA 无增益(冻结编码器即可)
  • LLM 规模:3B→7B 提升,7B→32B 反而下降,瓶颈在视觉-文本对齐而非 LLM 容量

亮点

  • 跨模态迁移的新范式:证明通用 VideoLMs 在有限数据下可高效迁移到 3D 医学影像,无需从头训练专用基础模型
  • CoT + DPO 的协同:CoT 提升异常召回率,DPO 抑制幻觉——两者通常难以同时优化
  • 临床混淆硬负例:用同区域易混淆异常构造 DPO 负例,精准针对细粒度判别瓶颈
  • "冻结编码器即可"的发现:VideoLM 预训练特征足够鲁棒,无需额外适配视觉编码器

局限性

  • 仅在 CT-RATE 单一数据集验证,缺乏跨机构/跨疾病谱的泛化性评估
  • GPT-4o 依赖较重(报告结构化 + 硬负例生成),增加了数据准备的成本和可复现性风险
  • 仅针对胸部 HRCT,未验证对腹部/头部 CT 等其他部位的适用性
  • LLM 规模 32B 反而下降的现象值得进一步探究(数据密度不足 vs 过拟合)
  • 将 CT 转为 MP4 视频格式(240帧 18fps)可能引入有损压缩伪影,对细微异常识别的影响未讨论
  • NLG 指标提升有限(BLEU-4 仅 23.58),临床效能指标提升才是核心贡献

与相关工作的对比

  • vs CT-CHAT/RadFM(CT 专用基础模型):架构相似但预训练域不同。AbSteering 证明通用视频预训练 + 高效适配 > 领域专用大规模预训练,且训练成本更低
  • vs M3D-8B(最强 CT 基础模型):M3D-AbSteer 的临床效能提升不如 VideoLM-AbSteer 显著,说明 VideoLMs 的通用时空推理能力更具可塑性
  • vs 传统 CoT 方法:本文 CoT 不是通用推理链,而是领域特化的"异常发现→报告生成"因果链,与 DPO 协同更紧密
  • vs Dia-LLaMA:Dia-LLaMA 设计 CT 专用视觉编码器对接 LLM,本文证明直接复用 VideoLM 的编码器即可,无需领域特化编码器

评分

  • 新颖性: ⭐⭐⭐⭐ VideoLM→HRCT 迁移路径新颖,CoT+DPO 组合巧妙
  • 实验充分度: ⭐⭐⭐⭐ 多 backbone 对比、消融全面、case study 充分
  • 写作质量: ⭐⭐⭐⭐ 动机推导清晰,架构等价性分析有说服力
  • 价值: ⭐⭐⭐⭐ 为 3D 医学报告生成提供了高效实用的新范式
  • 总评: 8/10