🏥 医学图像¶

📹 ICCV2025 · 31 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (172) · 🔬 ICLR2026 (86) · 🧪 ICML2026 (28) · 🤖 AAAI2026 (75) · 🧠 NeurIPS2025 (77) · 🧪 ICML2025 (21)

🔥 高频主题： 医学影像 ×14 · 语义分割 ×11 · 自监督学习 ×2

AcZeroTS: Active Learning for Zero-shot Tissue Segmentation in Pathology Images: 提出AcZeroTS框架，将主动学习与基于VLM的原型引导零样本分割模型ProZS结合，通过同时考虑不确定性、多样性和原型覆盖unseen类的能力来选择最有价值的标注样本，以最少标注实现seen和unseen组织类型的高质量分割。
Alleviating Textual Reliance in Medical Language-guided Segmentation via Prototype-driven Semantic Approximation: 提出ProLearn框架，首次通过原型驱动的语义近似（PSA）模块从根本上缓解医学语言引导分割对文本的依赖——仅需少量图文配对数据初始化原型空间，训练和推理均可无文本输入，在1%文本可用性下仍保持强劲性能（QaTa-COV19 Dice=0.857），且参数量比LLM方案减少1000倍，推理速度快100倍。
An OpenMind for 3D Medical Vision Self-supervised Learning: 发布了最大的公开3D医学影像预训练数据集OpenMind（114k脑MRI体积），并在该数据集上系统性benchmark了现有3D SSL方法在最先进CNN（ResEnc-L）和Transformer（Primus-M）架构上的表现，明确了3D医学图像SSL的当前SOTA。
Beyond Brain Decoding: Visual-Semantic Reconstructions to Mental Creation Extension Based on fMRI: 提出NeuroCreat——一种结合LLM视觉与文本能力的脑多模态架构，将fMRI解码从单一的视觉刺激重建扩展到图像重建 + 文本描述（captioning）+ 心理创造（creation）三个层次，通过Prompt Variant Alignment模块有效弥合fMRI低分辨率信号与高级语义表征之间的鸿沟。
Boosting Vision Semantic Density with Anatomy Normality Modeling for Medical Vision-language Pre-training: 提出 ViSD-Boost 方法，通过疾病级视觉对比学习增强视觉语义、以及基于 VQ-VAE 的解剖正常性建模来放大异常信号，解决医学视觉语言预训练中视觉模态语义密度低导致的对齐偏差问题，在 15 个器官 54 种疾病的零样本诊断上达到 84.9% AUC。
COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation: 提出COIN框架，通过无监督语义分割+最优传输的像素级细胞传播、基于模型-SAM一致性的实例级置信度评分、以及置信度引导的递归自蒸馏三步策略，解决了无标注细胞实例分割中"无错误实例缺失"的关键问题，在MoNuSeg和TNBC上超越半监督/弱监督方法。
Controllable Latent Space Augmentation for Digital Pathology: 提出HistAug——一种基于Transformer的轻量级潜在空间增强模型，通过条件式跨注意力机制在特征空间中模拟真实图像变换（色相、腐蚀等），以极低计算开销为病理MIL训练提供可控且高效的数据增强。
Coordinate-based Speed of Sound Recovery for Aberration-Corrected Photoacoustic Computed Tomography: 本文提出一种高效的自监督联合重建方法，通过将声速（SOS）参数化为像素网格或神经场，并通过可微成像前向模型反向传播梯度来恢复SOS和高质量光声图像，在精度上超越现有SOTA的同时实现35倍加速（40秒 vs 23分钟）。
CuMPerLay: Learning Cubical Multiparameter Persistence Vectorizations: 提出 CuMPerLay，一个可微的立方多参数持久同调 (Cubical Multiparameter Persistence, CMP) 向量化层，将 CMP 分解为多条可学习的单参数持久同调线，通过联合学习双滤过 (bifiltration) 函数实现端到端训练，嵌入 Swin Transformer 后在医学图像分类和语义分割任务上（尤其小数据场景）取得显著提升。
GDKVM: Echocardiography Video Segmentation via Spatiotemporal Key-Value Memory with Gated Delta Rule: 提出 GDKVM，一种基于线性键值关联和门控 Delta 规则的心脏超声视频分割架构，通过高效的内存管理和多尺度特征融合，在 CAMUS 和 EchoNet-Dynamic 上实现 SOTA 性能，同时保持实时推理速度。
GECKO: Gigapixel Vision-Concept Contrastive Pretraining in Histopathology: 提出GECKO，一种无需额外临床数据模态的WSI级MIL聚合器预训练方法，通过从H&E WSI自动提取可解释的概念先验(Concept Prior)并与深度特征对比对齐，在5个分类任务上超越现有单模态和多模态预训练方法，同时提供病理学家可解释的WSI级描述。
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis: 构建了当前最大的胸部X光 VQA 数据集 GEMeX（151K 图像、1.6M 问题），首次同时提供文本推理解释和视觉区域定位，涵盖四种问题类型，并系统评估了 12 个代表性大视觉语言模型。
M-Net: MRI Brain Tumor Sequential Segmentation Network via Mesh-Cast: M-Net 将 MRI 相邻切片间的空间连续性重新理解为"类时序"数据，提出 Mesh-Cast 机制将任意序列模型（LSTM、Transformer、Mamba SSM 等）无缝集成到通道和时序信息处理中，配合两阶段顺序训练策略（TPS），在 BraTS2019 和 BraTS2023 上取得了 SOTA 分割性能。
MRGen: Segmentation Data Engine for Underrepresented MRI Modalities: 针对稀缺 MRI 模态缺乏分割标注的难题，构建了大规模放射影像数据集 MRGen-DB（~25 万张切片、100+ 模态），并训练了可控扩散数据引擎 MRGen，通过文本+掩码双条件控制生成目标模态的高质量 MR 图像用于训练分割模型，在 10 对跨模态实验中平均 DSC 从 10%~27% 提升至 43%~45%，实现了标注稀缺模态的"零样本"分割。
MultiverSeg: Scalable Interactive Segmentation of Biomedical Imaging Datasets with In-Context Guidance: 提出 MultiverSeg，一个渐进式交互分割系统：用户每标注一张图像，后续图像所需的交互次数就会减少，通过将已分割图像作为上下文输入模型实现"越用越好"的效果，在 12 个未见数据集上相比 ScribblePrompt 将点击数减少 36%、涂鸦步骤减少 25%。
NEURONS: Emulating the Human Visual Cortex Improves Fidelity and Interpretability in fMRI-to-Video Reconstruction: 提出 NEURONS 框架，受人类视觉皮层层级结构启发，将 fMRI 到视频的重建解耦为四个子任务（关键物体分割、概念识别、场景描述、模糊视频重建），模拟 V1/V2/V4/ITC 等脑区的功能特化，在视频一致性（26.6%）和语义准确度（19.1%）上显著超越 SOTA。
ProGait: A Multi-Purpose Video Dataset and Benchmark for Transfemoral Prosthesis Users: 提出ProGait——首个面向大腿截肢假肢用户的多用途视频数据集，支持视频目标分割、2D人体姿态估计和步态分析三项任务，并提供基线模型证明数据集对改善假肢检测的有效性。
Progressive Test Time Energy Adaptation for Medical Image Segmentation: 提出一种基于能量模型的渐进式测试时自适应方法，训练一个形状能量模型作为分布内/外判别器，在测试时通过最小化能量值引导分割模型适应目标域，在心脏、脊髓、肺部等 8 个公共数据集上持续超越基线。
PVChat: Personalized Video Chat with One-Shot Learning: 提出 PVChat，首个支持从单个参考视频进行个性化主体学习的视频大语言模型，通过 ReLU 路由混合注意力头（ReMoH）机制、系统化的数据增强管道和渐进式图像到视频训练策略，实现身份感知的视频问答，在医疗、电视剧、动漫等多种场景中超越现有 SOTA ViLLM。
RadGPT: Constructing 3D Image-Text Tumor Datasets: 本文提出 RadGPT——一个解剖感知的 VL AI 管线，通过将放射科医师修订的肿瘤分割 mask 经由确定性算法转化为结构化报告、再由 LLM 适配为叙述性报告，构建了首个大规模公开腹部 CT 图文肿瘤数据集 AbdomenAtlas 3.0（9,262 例 CT、每体素标注 + 报告），并证明分割辅助可显著提升 AI 报告中的肿瘤检测率。
Scaling Tumor Segmentation: Best Lessons from Real and Synthetic Data: 通过在大规模私有数据集上系统研究数据缩放定律，发现合成肿瘤可大幅降低真实标注需求（从 1500 降至 500 例），并据此构建了 AbdomenAtlas 2.0——首个涵盖 6 种器官肿瘤的万级 CT 大规模人工标注数据集，在分布内和分布外测试上均取得显著提升。
SciVid: Cross-Domain Evaluation of Video Models in Scientific Applications: 提出 SciVid 基准，包含动物行为分类、组织追踪、天气预测等 5 个跨学科科学视频任务，系统评估 6 类视频基础模型（ViFM），发现用简单可训练 readout 适配冻结的 ViFM backbone 即可在多个科学应用中达到 SOTA，首次证明通用 ViFM 在科学领域的可迁移性。
SegAnyPET: Universal Promptable Segmentation from Positron Emission Tomography Images: 本文构建了迄今最大的PET分割数据集PETS-5k（5731例3D全身PET图像，超130万张2D切片），并提出SegAnyPET——首个针对PET影像的3D可提示分割基础模型，通过跨提示置信学习（CPCL）策略处理标注质量不一致问题，在已见和未见目标上均大幅超越现有基础模型和任务专用模型。
Semi-supervised Deep Transfer for Regression without Domain Alignment: 提出 CRAFT（Contradistinguisher-based Regularization Approach for Flexible Training），一种无需源数据、无需域对齐的半监督迁移学习框架，专门面向回归任务，通过联合优化监督损失和基于 Contradistinguisher 的无监督正则项在标签稀缺场景下显著提升预测性能。
SIC: Similarity-Based Interpretable Image Classification with Neural Networks: 提出 SIC，一个同时提供局部、全局和忠实解释的内在可解释神经网络：通过从训练图像中提取类别代表性的支持向量，基于 B-cos 变换计算输入与支持向量的相似度进行分类，在保持与黑盒模型相当准确率的同时，提供像素级贡献图和基于案例推理的全局解释，在 FunnyBirds 基准上 9 项可解释性指标中 8 项超越 ProtoPNet。
SimMLM: A Simple Framework for Multi-modal Learning with Missing Modality: 提出 SimMLM，一个简洁高效的多模态缺失学习框架，由动态模态专家混合架构（DMoME）和 More vs. Fewer（MoFe）排序损失组成，在脑肿瘤分割和多模态分类任务上以更少参数和计算量全面超越 SOTA，同时提供模态重要性可解释性。
TeethGenerator: A Two-Stage Framework for Paired Pre- and Post-Orthodontic 3D Dental Data Generation: 提出 TeethGenerator，一个两阶段框架用于生成配对的正畸前后 3D 牙齿点云模型，Stage I 用 VQ-VAE+扩散模型生成矫正后牙齿形态，Stage II 用 Transformer 根据风格模型生成对应的矫正前牙齿排列。
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation: 本文构建了UKBOB——迄今最大的标注医学影像分割数据集（51,761个MRI 3D样本，72类器官，13.7亿2D分割mask），提出Specialized Organ Label Filter (SOLF)清洗自动标注和Entropy Test-Time Adaptation (ETTA)处理带噪标签的域迁移，训练的Swin-BOB基础模型在BRATS和BTCV基准上达到SOTA。
Vector Contrastive Learning for Pixel-wise Pretraining in Medical Vision: 提出向量对比学习（Vector CL），将标准对比学习从二值优化问题重新表述为向量回归问题，通过建模特征距离来量化分散程度，解决像素级医学视觉预训练中的"过度分散"问题，在 8 个下游任务上显著优于 17 种方法。
ViCTr: Vital Consistency Transfer for Pathology Aware Image Synthesis: 提出 ViCTr 两阶段框架，结合 Rectified Flow 与 Tweedie 校正的扩散过程实现高保真的病理感知医学图像合成，将推理步数从50步降至3-4步，并首次实现分级严重程度的腹部MRI病理合成。
Visual Surface Wave Elastography: Revealing Subsurface Physical Properties via Visible Surface Waves: 本文提出 VSWE（Visual Surface Wave Elastography），仅通过一段表面波传播的视频，提取色散关系并结合基于物理的有限元优化，推断介质的亚表面厚度和刚度参数，在模拟和真实明胶实验中均实现了高精度的参数恢复，为居家健康监测提供了概念验证。