ICML2026 医学图像论文解读论文笔记医学影像语义分割推理多模态对齐/RLHF 联邦学习

🏥 医学图像¶

🧪 ICML2026 · 28 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (172) · 🔬 ICLR2026 (86) · 🤖 AAAI2026 (75) · 🧠 NeurIPS2025 (77) · 📹 ICCV2025 (31) · 🧪 ICML2025 (21)

🔥 高频主题： 医学影像 ×14 · 语义分割 ×4 · 推理 ×4 · 多模态 ×3 · 对齐/RLHF ×3

Are We Overconfident in Models and Results for Semi-Supervised 3D Medical Image Segmentation?: 这篇论文指出半监督 3D 医学图像分割同时存在模型伪标签过度自信和评测协议过度乐观两类问题，并提出 TCSeg 用置信度-不确定性双轴可靠性和概率、特征、图像三空间校准来抑制确认偏差，同时倡导多随机种子、best/last checkpoint 同时报喜报忧的评测方式。
Auditing Sybil: Explaining Deep Lung Cancer Risk Prediction Through Generative Interventional Attributions: 本文提出 S(H)NAP——基于 3D 扩散桥的「移除 + 插入」生成式干预框架，把 Sybil 这一前沿肺癌风险预测模型的决策反向拆解为「肺结节主效应 + 两两交互 + 背景」的 LMPI（线性+二阶交互模型），首次以因果而非相关的方式审计出它对 ECG 电极、衣物金属扣等院内伪影的依赖以及对外周肺结节的「径向不敏感」严重失败模式。
CASCADE Conformal Prediction: Uncertainty-Adaptive Prediction Intervals for Two-Stage Clinical Decision Support: 提出 CASCADE 框架，将两阶段临床决策系统中第一阶段分类器的认知不确定性（通过 Venn-Abers 预测器量化）传播到第二阶段回归预测区间，使高置信患者的预测区间缩窄 38.9%，同时为不确定病例自动扩展安全缓冲，实现自适应覆盖保证。
DGNO: Discontinuous Galerkin Neural Operator for Pathology Defocus Deblurring: DGNO 把病理显微图像的散焦去模糊重新表述为"空间变化积分算子"的反问题，用不连续 Galerkin 风格把全局核拆成元素局部积分算子 + 界面数值通量，既保留神经算子的物理可解释性，又能处理病理图像本质上的局部不连续模糊；在 BBBC006w1 等数据集上超越 NAFNet / Restormer / MambaIRv2 等 SOTA。
DIYHealth Suite: Dataset, Model, and Benchmark for Health Management at Home: 针对"在家自己管健康"（Diagnosis-It-Yourself）这一被现有医疗大模型忽视的场景，本文一口气交付了数据集（DIYHealth-900K，90 万条多模态家庭健康问答）、模型（DIYHealthGPT，核心是新提出的 H2LoRA 参数高效微调机制）、基准（DIYHealthBench，首个覆盖 11 项家庭健康任务的评测），在通用与医疗专用基线上都取得 SOTA。
DP-KFC: Data-Free Preconditioning for Privacy-Preserving Deep Learning: 本文提出 DP-KFC：基于"Fisher 矩阵的标度由架构决定、相关结构可用模态级频谱统计近似"的观察，用结构化合成噪声（图像用 \(1/f^\alpha\) pink noise，文本用 Zipf 采样）探测网络重建 KFAC 预条件子，既不消耗隐私预算也不引入分布偏移，在强隐私（\(\varepsilon\le 3\)）下持续超过 DP-SGD 与公共数据预条件方法。
EEG-Based Multimodal Learning via Hyperbolic Mixture-of-Curvature Experts: EEG-MoCE 给 EEG-based 多模态学习（情绪/睡眠/认知）每个模态分配一个可学习曲率的 Lorentz 流形 expert，再用"曲率大→层级结构更丰富→在 fusion 中权重更高"的 curvature-aware attention 做跨模态融合，在 EAV/ISRUC/Cognitive 三个数据集上 cross-subject 准确率分别 +14.14%、+3.34%、+7.98%。
Evidential Reasoning Advances Interpretable Real-World Disease Screening: EviScreen 用「正常 + 病理」双知识库做区域级证据检索，再以 cross-attention + self-attention 在当前病例和证据间做循证推理，既给出回溯式可解释性（哪几个历史病例支持当前判断）又给出定位可解释性（对比检索得到的异常图），在 4 个真实外部测试集上把高召回处的特异性提升到 SOTA。
Factored Classifier-Free Guidance: 本文识别出 CFG 在扩散模型反事实生成中存在「属性放大 (attribute amplification)」失效模式——单一全局 \(\omega\) 会把本不该改变的属性一起放大，并提出 FCFG：按因果图分组、为每组属性分配独立 guidance 权重，从而在 CelebA-HQ / EMBED / MIMIC-CXR 上显著降低非目标属性漂移、改善反事实可逆性。
Federated Distillation for Whole Slide Image via Gaussian-Mixture Feature Alignment and Curriculum Integration: 本文提出 FedHD：在异构联邦病理学场景下，用 Gaussian-mixture 特征对齐做「一对一」WSI 特征级蒸馏，再通过课程学习把跨机构合成特征逐步注入本地训练，使各机构能在不共享原始数据、不交换模型参数的前提下协作，且兼容异构 MIL 架构与特征提取器，在 TCGA-IDH / CAMELYON16 / CAMELYON17 上全面超越现有联邦与蒸馏基线。
Foundation VAEs for 3D CT Reconstruction, Augmentation, and Generation: 本文论证了一个反直觉但实用的发现——在自然图像/视频上预训练的 Foundation VAE 不需要任何医学微调就能作为统一接口同时支持 CT 重建、增强、生成；其重建只是去噪不偏移边界，因此重建图既可做去噪增强（pancreatic / lung tumor NSD +3.9%），其潜空间又可承载 CT 条件扩散生成（FVD −3.9%，CT-CLIP +36.2%，多疾病忠实度 AUC +2.76%）。
OT-Bridge Editor: Geometrically Constrained Stenosis Editing in Coronary Angiography via Entropic Optimal Transport: OT-Bridge Editor 把"在冠脉造影上编辑一段血管狭窄"重写为"在血管-结构复合域里的约束熵 OT 问题"，用 Schrödinger Bridge 沿路径加几何投影监督，做到像素级形状/位置可控的合成造影，在 ARCADE 公开集上把下游狭窄检测 [email protected] 相对提升 27.8%。
Learning Multi-Scale Hypergraph for High-Order Brain Connectivity Analysis: MuHL 用可学习尺度的图小波把脑 ROI 特征分解成多分辨率表征，再以"节点嵌入 × 共享投影矩阵"动态生成 soft 超边，让 AD/PD 多阶段分类在 ADNI 上做到 93.2% Acc、PPMI 上做到 76.8% Acc，同时给出可解释的关键 ROI 与超边。
Marrying Generative Model of Healthcare Events with Digital Twin of Social Determinants of Health for Disease Reasoning: 本文提出 DiffDT：用一个条件 Latent Diffusion 框架把电子病历（ICD-coded 事件序列）与多器官生物标记数字孪生（脑/心/肝/肾的影像衍生表格特征与脑功能连接 SPD 矩阵）连起来，关键创新是一个基于 Cholesky 分解的 SPD-VQVAE 把 \(\mathcal{O}(N^3)\) 的 SPD 流形扩散降到流形保形且高效的潜空间，再让 AR 模型借“生成数字孪生 → 预测下一个 ICD”这条中介路径完成多通路疾病推理；在 UKB 上对 1944 类疾病的下一次预测 AUC 提到 0.91，刷新 SOTA。
MedCRP-CL: Continual Medical Image Segmentation via Bayesian Nonparametric Semantic Modality Discovery: 用中国餐馆过程 (CRP) 对临床文本 prompt 做在线贝叶斯非参数聚类，自动发现"语义模态"，再为每个语义模态分配独立 LoRA 适配器并配合模态内 EWC，在 16 个医学分割任务上把 Dice 推到 73.3% 同时遗忘率降到 4.1%，参数仅为 MoE 基线的 1/6。
MEG-XL: Data-Efficient Brain-to-Text via Long-Context Pre-Training: MEG-XL 用 2.5 分钟（191k token）的 MEG 上下文做 mask token 预训练（比此前长 5–300×），再微调到 50 词的脑到文本任务上，仅用 1 小时数据就达到 SOTA 监督方法 50 小时的解码精度，并显著超过所有 brain foundation models。
PaCX-MAE: Physiology-Augmented Chest X-Ray Masked Autoencoder: PaCX-MAE 在 MAE 预训练的胸片 ViT 之上，用 LoRA 微调把 ECG 和实验室检验两类生理信号编码器作为冻结教师，通过 InfoNCE 对比 + 余弦回归的双重蒸馏，把"看不见的生理上下文"注入纯图像编码器，推理时只需胸片即可在 9 个下游基准上整体超越同架构 MAE 基线，对生理依赖性任务尤为明显（MedMod +2.7 AUROC、VinDr +6.5 F1）。
Plug-and-Play Diffusion Meets ADMM: Dual-Variable Coupling for Robust Medical Image Reconstruction: 本文把 ADMM 的对偶变量重新塞回 PnP 扩散先验循环，用"对偶"提供积分反馈消除稳态偏差，再用一个频域 Spectral Homogenization 模块把结构化对偶残差白化成伪 AWGN，避免触发扩散去噪器的 OOD 幻觉，在 sparse-view / limited-angle CT 与加速 MRI 上同时拿到 SOTA 保真度和约 3× 推理加速。
PRISM: A 3D Probabilistic Neural Representation for Interpretable Shape Modeling: PRISM 把隐式神经表示与不确定性感知的统计形状分析打通——用一个条件异方差高斯场建模解剖结构随协变量（如年龄）演化的均值轨迹与空间异质变异，并推导出闭式的 Fisher 信息度量来解析地量化「内在发育时间」的局部不确定性，在合成与儿童气道临床数据上同时支持形状演化、个性化预测与异常检测。
Scaling Vision Transformers for Functional MRI with Flat Maps: 把 3D fMRI 体积按"皮层展平图"投影成 2D 视频后直接喂给标准 spacetime MAE-ViT，得到一个在 2.1K 小时 HCP 数据上训练的 CortexMAE：在认知状态解码上大幅超 SOTA，验证 flat map 是体素 (volume) 和脑区平均 (parcellation) 之间的"goldilocks zone"；同时发布首个开源 fMRI 基础模型基准 Brainmarks，给出 fMRI 模型的第一份系统 scaling law 与一个"个体特质预测仍打不过简单功能连接 baseline"的诚实 null result。
Seizure-Semiology-Suite (S³): A Clinically Multimodal Dataset, Benchmark, and Models for Seizure Semiology Understanding: 本文构建了首个大规模专家标注的癫痫发作视频数据集 S³（438 段视频、35,000+ 密集标签、20 项 ILAE 语义学特征），配套设计了七级层次化任务基准与临床对齐的 Seizure-RQI 报告质量指标，系统暴露了 11 个开源 MLLM 在时序定位、空间偏侧化和临床忠实性上的失败模式，并通过领域微调 + 两阶段神经符号框架将癫痫 vs 非癫痫分类 F1 提升到 0.96。
SEMIR: Semantic Minor-Induced Representation Learning on Graphs for Visual Segmentation: SEMIR 把体素栅格当作母图 \(G\)，通过参数化的边收缩 / 节点删除 / 边删除把它压成一张「边界对齐」的图 minor \(H\)（节点数从 \(\sim10^7\) 降到 \(\sim10^3\)），用 5–20 张少样本黑盒优化 \(\Theta\) 最大化边界 Dice，再在 minor 上用 GNN 做超节点分类，最后通过 minor 与体素之间的双射 exact lifting 回到原栅格——在 BraTS / KiTS / LiTS 三大肿瘤分割任务的少数类 Dice 上稳定超过 nnU-Net，且仅需 16GB T4 GPU。
Shift-Dependent Asymmetry: Orthogonal Inverse Low-Rank Adaptation for Federated Medical Segmentation: 针对"用联邦 LoRA 微调医学分割大模型时各客户端数据异质"的问题，本文发现编码器和解码器面对的异质性来源根本不同（编码器主要被外观/采集偏移主导、解码器被标注/概念偏移主导），于是提出 IAT 在两个模块上反向分配 LoRA 的共享/本地因子，再用 SOR 子空间正交正则堵住双线性参数化里"本地更新泄漏进共享方向"的暗道，在组织病理与眼底两类医学分割上稳定超过强联邦 LoRA 基线。
SynerMedGen: Synergizing Medical Multimodal Understanding with Generation via Task Alignment: SynerMedGen 提出"生成对齐理解（generation-aligned understanding）"原则——把理解任务直接从同一份配对合成数据里派生出来（CTS / MI / TIA 三个任务），先两阶段训练让理解分支学到对合成有用的表征，再迁移到 latent flow matching 生成分支，在 22 个医学合成任务上同时碾压专用合成模型和已有统一 MLLM。
CAME-Grad: The Double Dilemma in Multi-Task Radiology Report Generation — A Gradient Dynamics Analysis and Solution: 本文用 SDE 框架分析放射学报告生成（RRG）多任务学习里"报告生成 vs 临床约束"梯度冲突的两面性——drift term 偏离 Pareto 最优 + diffusion term 衰减无法逃局部最优；提出 CAME-Grad 优化器（方向纠偏 + 能量注入 + 自适应融合）作为线性缩放的即插即用替代，在 MIMIC-CXR / IU X-Ray 上 8 个 RRG 方法平均临床效能 +2.3% / +1.9%。
PathCTM: Thinking in Scales — Accelerating Gigapixel Pathology Image Analysis via Adaptive Continuous Reasoning: PathCTM 把全切片图像（WSI）分析从"穷举高倍 patch"重构为"从低倍全局到高倍局部"的连续多尺度推理——基于 Continuous Thought Machine 引入 thinking-in-scales 范式 + 注意力引导区域剪枝 + 置信感知早停，patch 数减少 95.95%、推理时间减少 95.62% 且 AUC 不降反升。
Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Multi-Stream Environments: 本文把多个 MLLM 之间的推理"漂移"重新解释成 DPO 中的负样本约束，用 Plackett-Luce 偏好损失同时压制 N 个 source model 的发散轨迹，让 7B 学生模型在不需要 ground-truth 报告的前提下，仅用 10% 的 MIMIC-CXR 就在胸片分类与报告生成任务上超过所有 source teacher。
Which Anatomy Matters Under Limited Labels? A Data-Efficient Anatomy-Aware Benchmark for Cardiac Pathology Prediction: 本文在公开 ACDC 心脏 MRI 数据集上构建了一个「低标注 + 受限算力」的解剖感知基准，用分割掩码导出的患者级形状描述符做 5 类心脏病理分类，系统性地证明：在标签稀缺时，选对解剖表征比堆模型复杂度更重要——其中心肌（MYO）是单结构里信号最强的，多结构组合整体最佳。