TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis¶

会议: ICLR 2026
arXiv: 2603.05867
代码: GitHub
领域: LLM推理
关键词: 肿瘤分析, 多模态CoT推理, 交错推理, 3D CT, TNM分期

一句话总结¶

提出TumorChain，面向消化系统五大器官肿瘤分析的交错多模态CoT推理框架，通过知识图谱驱动的1.5M CoT-VQA数据引擎、器官引导的迭代交错推理(IIR)和分割/分类/LLM三模型协同优化，实现从影像发现→临床印象→病理预测的完整推理链，平均精度84.41%，大幅超越GPT-5-Mini(51.59%)。

研究背景与动机¶

领域现状: 医学VLM在通用报告生成上有进展，但在临床肿瘤学这一高风险场景中严重不足。肿瘤分析需要连接影像发现(findings)、临床印象(impressions)和病理终点(TNM分期)的完整推理链
三大痛点: (1) 现有Med-VLM缺乏肿瘤特化能力，不能可靠地将放射学发现映射到病理级别终点；(2) 缺乏大规模、多粒度的肿瘤特定数据集，现有CT-RATE等为选择题/短文本QA，不支持CoT推理；(3) 大多数Med-VLM限于2D图像和单步推理，3D CT的结构复杂度要求多步临床推理
核心矛盾: 临床肿瘤诊断是一个多步推理过程（发现异常→综合判断→病理分期），但现有模型无法产生可追溯的推理链，内部推理过程不透明
本文切入: 构建完整的findings→impressions→pathology推理管线，用专门设计的CoT评估协议(TumorChain-Eval)衡量推理链的每一步质量

方法详解¶

整体框架¶

TumorChain由五个模块组成：3D视觉编码器\(\mathcal{E}_v\)、器官分割专家\(\mathcal{S}eg\)、辅助分类模型\(\mathcal{C}ls\)、MLP投影器\(\mathcal{P}\)和LLM \(\mathcal{LLM}\)，通过全局-局部视觉对齐和交错多模态推理实现端到端肿瘤分析。

关键设计¶

1. 知识图谱驱动的CoT数据引擎（TumorCoT-1.5M）: - 原始数据: 41,059个3D CT扫描 + 10,708份放射学报告 + 部分病理报告，覆盖肝/胰/胃/结肠/食管五大消化器官 - 6个Agent协作: 分割专家(TotalSegmentator)、结构化特征提取器(Qwen3-235B)、CoT推理器(GPT-4o-mini)、逻辑校准器(Claude3.5-Haiku)、总结器(GPT-5-mini) - 诊断知识图谱(KG)约束: 与放射科/病理科医生共同构建五器官KG，引导推理链遵循临床标准 - 交叉验证机制: 若逻辑校准器检测到推理链问题，触发两种修复策略（扩展器官区域/提供疑似原因），引导重新推理 - 最终产出: 1,497,818个CoT-VQA对，覆盖定位/病灶属性/TNM分期/CoT报告四类任务

2. 器官引导的迭代交错推理(IIR): - Step I: LLM接收全局CT tokens和任务prompt，产生初始诊断\(\mathcal{R}^1_{cot}\) - Step II: 从初始输出中识别目标器官→分割提取ROI→生成增强prompt"需要更关注[器官名]"→局部器官tokens - Step III: 将全局tokens+任务prompt+初始答案+局部tokens组合输入LLM进行迭代推理，若发现新相关器官则继续循环 - 效果: 模拟临床放射科医师工作流程——先全局浏览，再聚焦可疑区域反复确认

3. 混合模型协同优化(HCO): - 分割模型: 持续提供精确的ROI定位 - 分类模型: 在局部器官特征上训练正常/异常二分类，增强视觉编码器对细微异常的判别力 - LLM: 整合推理结果，利用分割模型进行迭代决策 - 联合损失: \(L_{total} = L_{LLM} + \lambda L_{cls}\)

4. TumorChain-Eval评估协议: - 从CoT推理过程中提取主谓宾三元组(如"胰尾-发现-恶性肿瘤") - 三级评分: 发现链\(S_{FC}\)(独立事实)→印象链\(S_{IC}\)(多发现综合)→长推理链\(S_{LRC}\)(高级推断) - 使用GPT-4按评分标准打分，\(CoT_e\)为三项加权和

实验关键数据¶

主实验表¶

方法	平均精度	TNM-T	TNM-N	TNM-M	CoTe Score
GPT-5-Mini	51.59%	—	—	—	61.23
Gemini2.0	41.29%	—	—	—	54.28
TumorChain-7B	84.41%	88.83%	61.63%	71.07%	58.33

消融实验表¶

配置	平均精度	说明
Full TumorChain	84.41%	完整框架
w/o IIR	80.34% (-4.07%)	迭代推理是最大贡献
w/o CoT	82.45% (-1.96%)	CoT数据也有显著贡献
w/o 分类模型	82.93% (-1.48%)	辅助分类增强判别力

关键发现¶

定位精度近乎完美：器官级99.97%，位置级97.57%，大幅领先所有baseline
IIR贡献最大(去掉降4.07%)——迭代精化是核心，模拟了放射科医师的"看→聚焦→再看"工作流
在公开DeepTumorVQA上零样本泛化：73.30% vs MedVLM-R1 56.41%，证明方法的领域迁移能力
TNM-N(淋巴结转移)准确率最低(61.63%)——这也是临床上最难判断的环节

亮点与洞察¶

完整的临床推理管线: finding→impression→pathology的三级推理链设计，确保可追溯性和可解释性
知识图谱驱动的数据引擎: 自动生成1.5M高质量CoT数据，解决了肿瘤特定数据稀缺问题
迭代交错推理(IIR): 优雅地将全局上下文和局部证据融合，通过多轮自我验证减少幻觉风险
三元组评估协议: 从CoT链中提取结构化知识进行评分，比端到端指标更细粒度

局限与展望¶

迭代推理增加2.51秒/样本延迟，实时临床应用需要加速
CoT评估依赖GPT-4评分，可能存在系统偏差
目前仅覆盖消化系统五大器官，通用性待验证（如肺/乳腺等）
TNM-N分期准确率仅61.63%，淋巴结转移判断仍是难点
数据来源为多中心中国医院，跨地区/跨设备泛化需进一步验证
与专科医生的对比实验缺失，难以说明临床部署价值

评分¶

新颖性: ⭐⭐⭐⭐⭐ (首个面向肿瘤的多模态CoT推理框架)
实验充分度: ⭐⭐⭐⭐⭐ (1.5M数据/多任务/泛化验证/消融)
写作质量: ⭐⭐⭐⭐ (临床动机深入，技术细节完整)
价值: ⭐⭐⭐⭐⭐ (精准肿瘤学的重要工具，临床转化潜力大)