🏥 医学图像¶
📹 ICCV2025 · 40 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (40) · 📷 CVPR2026 (153) · 🔬 ICLR2026 (72) · 🤖 AAAI2026 (105) · 🧠 NeurIPS2025 (141) · 🧪 ICML2025 (63)
🔥 高频主题: 医学影像 ×15 · 语义分割 ×12 · 自监督学习 ×3 · 少样本学习 ×2
- AcZeroTS: Active Learning for Zero-shot Tissue Segmentation in Pathology Images
-
提出AcZeroTS框架,将主动学习与基于VLM的原型引导零样本分割模型ProZS结合,通过同时考虑不确定性、多样性和原型覆盖unseen类的能力来选择最有价值的标注样本,以最少标注实现seen和unseen组织类型的高质量分割。
- Alleviating Textual Reliance in Medical Language-guided Segmentation via Prototype-driven Semantic Approximation
-
提出ProLearn框架,首次通过原型驱动的语义近似(PSA)模块从根本上缓解医学语言引导分割对文本的依赖——仅需少量图文配对数据初始化原型空间,训练和推理均可无文本输入,在1%文本可用性下仍保持强劲性能(QaTa-COV19 Dice=0.857),且参数量比LLM方案减少1000倍,推理速度快100倍。
- An OpenMind for 3D Medical Vision Self-Supervised Learning
-
发布了最大的公开 3D 医学影像预训练数据集 OpenMind(114k 脑部 MRI),并系统性地对比了多种 3D 自监督学习方法在 CNN(ResEnc-L)和 Transformer(Primus-M)上的表现,证明 MAE 预训练在分割任务上最优、对比学习在分类任务上最优,且首次展示预训练 Transformer 可在部分数据集上超越从头训练的 CNN。
- An OpenMind for 3D Medical Vision Self-supervised Learning
-
发布了最大的公开3D医学影像预训练数据集OpenMind(114k脑MRI体积),并在该数据集上系统性benchmark了现有3D SSL方法在最先进CNN(ResEnc-L)和Transformer(Primus-M)架构上的表现,明确了3D医学图像SSL的当前SOTA。
- Beyond Brain Decoding: Visual-Semantic Reconstructions to Mental Creation Extension Based on fMRI
-
提出NeuroCreat——一种结合LLM视觉与文本能力的脑多模态架构,将fMRI解码从单一的视觉刺激重建扩展到图像重建 + 文本描述(captioning)+ 心理创造(creation)三个层次,通过Prompt Variant Alignment模块有效弥合fMRI低分辨率信号与高级语义表征之间的鸿沟。
- Boosting Vision Semantic Density with Anatomy Normality Modeling for Medical Vision-language Pre-training
-
提出 ViSD-Boost 方法,通过疾病级视觉对比学习增强视觉语义、以及基于 VQ-VAE 的解剖正常性建模来放大异常信号,解决医学视觉语言预训练中视觉模态语义密度低导致的对齐偏差问题,在 15 个器官 54 种疾病的零样本诊断上达到 84.9% AUC。
- COIN: Confidence Score-Guided Distillation for Annotation-Free Cell Segmentation
-
提出COIN框架,通过无监督语义分割+最优传输的像素级细胞传播、基于模型-SAM一致性的实例级置信度评分、以及置信度引导的递归自蒸馏三步策略,解决了无标注细胞实例分割中"无错误实例缺失"的关键问题,在MoNuSeg和TNBC上超越半监督/弱监督方法。
- Controllable Latent Space Augmentation for Digital Pathology
-
提出HistAug——一种基于Transformer的轻量级潜在空间增强模型,通过条件式跨注意力机制在特征空间中模拟真实图像变换(色相、腐蚀等),以极低计算开销为病理MIL训练提供可控且高效的数据增强。
- Coordinate-based Speed of Sound Recovery for Aberration-Corrected Photoacoustic Computed Tomography
-
本文提出一种高效的自监督联合重建方法,通过将声速(SOS)参数化为像素网格或神经场,并通过可微成像前向模型反向传播梯度来恢复SOS和高质量光声图像,在精度上超越现有SOTA的同时实现35倍加速(40秒 vs 23分钟)。
- CryoFastAR: Fast Cryo-EM Ab initio Reconstruction Made Easy
-
提出CryoFastAR,首个面向冷冻电镜(cryo-EM)的几何基础模型,通过ViT架构直接从多视图噪声粒子图像前馈式预测Fourier Planar Map实现位姿估计,在合成和真实数据集上达到可比质量的同时实现10倍以上加速。
- CryoFastAR: Fast Cryo-EM Ab initio Reconstruction Made Easy
-
首个将DUSt3R式的几何基础模型范式引入冷冻电镜(cryo-EM)领域的工作,通过ViT编码器+跨视图注意力解码器直接从大量含噪粒子图像前馈预测姿态(无需迭代优化),实现了比传统方法快10-33倍的ab initio蛋白质三维重建。
- CuMPerLay: Learning Cubical Multiparameter Persistence Vectorizations
-
提出 CuMPerLay,一个可微的立方多参数持久同调 (Cubical Multiparameter Persistence, CMP) 向量化层,将 CMP 分解为多条可学习的单参数持久同调线,通过联合学习双滤过 (bifiltration) 函数实现端到端训练,嵌入 Swin Transformer 后在医学图像分类和语义分割任务上(尤其小数据场景)取得显著提升。
- DictAS: A Framework for Class-Generalizable Few-Shot Anomaly Segmentation via Dictionary Lookup
-
受人类检查员"查字典"直觉启发,提出 DictAS 框架,将少样本异常分割重新定义为字典查询任务——若查询特征无法从正常样本字典中检索到则判定为异常——通过自监督训练获得类别无关的字典查询能力,在 7 个工业和医学数据集上的 FSAS 性能和推理速度均达到 SOTA。
- G2PDiffusion: Cross-Species Genotype-to-Phenotype Prediction via Evolutionary Diffusion
-
提出G2PDiffusion,首个基于扩散模型的跨物种基因型到表型预测框架,通过进化信号(多序列比对MSA和环境上下文)条件化生成形态学图像,实现从DNA序列预测物种外观。
- GDKVM: Echocardiography Video Segmentation via Spatiotemporal Key-Value Memory with Gated Delta Rule
-
提出 GDKVM,一种基于线性键值关联和门控 Delta 规则的心脏超声视频分割架构,通过高效的内存管理和多尺度特征融合,在 CAMUS 和 EchoNet-Dynamic 上实现 SOTA 性能,同时保持实时推理速度。
- GECKO: Gigapixel Vision-Concept Contrastive Pretraining in Histopathology
-
提出GECKO,一种无需额外临床数据模态的WSI级MIL聚合器预训练方法,通过从H&E WSI自动提取可解释的概念先验(Concept Prior)并与深度特征对比对齐,在5个分类任务上超越现有单模态和多模态预训练方法,同时提供病理学家可解释的WSI级描述。
- GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis
-
构建了当前最大的胸部X光 VQA 数据集 GEMeX(151K 图像、1.6M 问题),首次同时提供文本推理解释和视觉区域定位,涵盖四种问题类型,并系统评估了 12 个代表性大视觉语言模型。
- IDF: Iterative Dynamic Filtering Networks for Generalizable Image Denoising
-
提出迭代动态滤波网络 (IDF),仅用约 0.04M 参数,通过逐像素动态核预测 + 自适应迭代精炼策略,仅在单一级别高斯噪声上训练即可泛化到各种未见噪声类型(高斯/泊松/椒盐/蒙特卡洛渲染/真实噪声),实现出色的 OOD 去噪性能。
- InsideOut: Integrated RGB-Radiative Gaussian Splatting for Comprehensive 3D Object Representation
-
InsideOut 将 3D Gaussian Splatting 从仅建模 RGB 表面扩展到同时建模 X 射线内部结构,通过层次化拟合和 X 射线参考损失实现了 RGB 外观与内部辐射结构的联合表示。
- Integrating Biological Knowledge for Robust Microscopy Image Profiling on De Novo Cell Lines
-
提出将外部生物知识(蛋白质互作图谱+单细胞基础模型的转录组特征)整合到显微图像预训练中,显式解耦扰动特异性和细胞系特异性表征,提升模型在未见细胞系上的扰动筛查泛化能力。
- M-Net: MRI Brain Tumor Sequential Segmentation Network via Mesh-Cast
-
M-Net 将 MRI 相邻切片间的空间连续性重新理解为"类时序"数据,提出 Mesh-Cast 机制将任意序列模型(LSTM、Transformer、Mamba SSM 等)无缝集成到通道和时序信息处理中,配合两阶段顺序训练策略(TPS),在 BraTS2019 和 BraTS2023 上取得了 SOTA 分割性能。
- MRGen: Segmentation Data Engine for Underrepresented MRI Modalities
-
针对稀缺 MRI 模态缺乏分割标注的难题,构建了大规模放射影像数据集 MRGen-DB(~25 万张切片、100+ 模态),并训练了可控扩散数据引擎 MRGen,通过文本+掩码双条件控制生成目标模态的高质量 MR 图像用于训练分割模型,在 10 对跨模态实验中平均 DSC 从 10%~27% 提升至 43%~45%,实现了标注稀缺模态的"零样本"分割。
- MultiverSeg: Scalable Interactive Segmentation of Biomedical Imaging Datasets with In-Context Guidance
-
提出 MultiverSeg,一个渐进式交互分割系统:用户每标注一张图像,后续图像所需的交互次数就会减少,通过将已分割图像作为上下文输入模型实现"越用越好"的效果,在 12 个未见数据集上相比 ScribblePrompt 将点击数减少 36%、涂鸦步骤减少 25%。
- NEURONS: Emulating the Human Visual Cortex Improves Fidelity and Interpretability in fMRI-to-Video Reconstruction
-
提出 NEURONS 框架,受人类视觉皮层层级结构启发,将 fMRI 到视频的重建解耦为四个子任务(关键物体分割、概念识别、场景描述、模糊视频重建),模拟 V1/V2/V4/ITC 等脑区的功能特化,在视频一致性(26.6%)和语义准确度(19.1%)上显著超越 SOTA。
- ProGait: A Multi-Purpose Video Dataset and Benchmark for Transfemoral Prosthesis Users
-
提出ProGait——首个面向大腿截肢假肢用户的多用途视频数据集,支持视频目标分割、2D人体姿态估计和步态分析三项任务,并提供基线模型证明数据集对改善假肢检测的有效性。
- Progressive Test Time Energy Adaptation for Medical Image Segmentation
-
提出一种基于能量模型的渐进式测试时自适应方法,训练一个形状能量模型作为分布内/外判别器,在测试时通过最小化能量值引导分割模型适应目标域,在心脏、脊髓、肺部等 8 个公共数据集上持续超越基线。
- PVChat: Personalized Video Chat with One-Shot Learning
-
提出 PVChat,首个支持从单个参考视频进行个性化主体学习的视频大语言模型,通过 ReLU 路由混合注意力头(ReMoH)机制、系统化的数据增强管道和渐进式图像到视频训练策略,实现身份感知的视频问答,在医疗、电视剧、动漫等多种场景中超越现有 SOTA ViLLM。
- RadGPT: Constructing 3D Image-Text Tumor Datasets
-
本文提出 RadGPT——一个解剖感知的 VL AI 管线,通过将放射科医师修订的肿瘤分割 mask 经由确定性算法转化为结构化报告、再由 LLM 适配为叙述性报告,构建了首个大规模公开腹部 CT 图文肿瘤数据集 AbdomenAtlas 3.0(9,262 例 CT、每体素标注 + 报告),并证明分割辅助可显著提升 AI 报告中的肿瘤检测率。
- Scaling Tumor Segmentation: Best Lessons from Real and Synthetic Data
-
通过在大规模私有数据集上系统研究数据缩放定律,发现合成肿瘤可大幅降低真实标注需求(从 1500 降至 500 例),并据此构建了 AbdomenAtlas 2.0——首个涵盖 6 种器官肿瘤的万级 CT 大规模人工标注数据集,在分布内和分布外测试上均取得显著提升。
- SciVid: Cross-Domain Evaluation of Video Models in Scientific Applications
-
提出 SciVid 基准,包含动物行为分类、组织追踪、天气预测等 5 个跨学科科学视频任务,系统评估 6 类视频基础模型(ViFM),发现用简单可训练 readout 适配冻结的 ViFM backbone 即可在多个科学应用中达到 SOTA,首次证明通用 ViFM 在科学领域的可迁移性。
- SegAnyPET: Universal Promptable Segmentation from Positron Emission Tomography Images
-
本文构建了迄今最大的PET分割数据集PETS-5k(5731例3D全身PET图像,超130万张2D切片),并提出SegAnyPET——首个针对PET影像的3D可提示分割基础模型,通过跨提示置信学习(CPCL)策略处理标注质量不一致问题,在已见和未见目标上均大幅超越现有基础模型和任务专用模型。
- Semi-supervised Deep Transfer for Regression without Domain Alignment
-
提出 CRAFT(Contradistinguisher-based Regularization Approach for Flexible Training),一种无需源数据、无需域对齐的半监督迁移学习框架,专门面向回归任务,通过联合优化监督损失和基于 Contradistinguisher 的无监督正则项在标签稀缺场景下显著提升预测性能。
- SIC: Similarity-Based Interpretable Image Classification with Neural Networks
-
提出 SIC,一个同时提供局部、全局和忠实解释的内在可解释神经网络:通过从训练图像中提取类别代表性的支持向量,基于 B-cos 变换计算输入与支持向量的相似度进行分类,在保持与黑盒模型相当准确率的同时,提供像素级贡献图和基于案例推理的全局解释,在 FunnyBirds 基准上 9 项可解释性指标中 8 项超越 ProtoPNet。
- SimMLM: A Simple Framework for Multi-modal Learning with Missing Modality
-
提出 SimMLM,一个简洁高效的多模态缺失学习框架,由动态模态专家混合架构(DMoME)和 More vs. Fewer(MoFe)排序损失组成,在脑肿瘤分割和多模态分类任务上以更少参数和计算量全面超越 SOTA,同时提供模态重要性可解释性。
- TeethGenerator: A Two-Stage Framework for Paired Pre- and Post-Orthodontic 3D Dental Data Generation
-
提出 TeethGenerator,一个两阶段框架用于生成配对的正畸前后 3D 牙齿点云模型,Stage I 用 VQ-VAE+扩散模型生成矫正后牙齿形态,Stage II 用 Transformer 根据风格模型生成对应的矫正前牙齿排列。
- Toward Long-Tailed Online Anomaly Detection through Class-Agnostic Concepts
-
本文提出长尾在线异常检测(LTOAD)新任务和benchmark,核心创新是用可学习的"类无关概念集"替代传统的类标签依赖,结合Concept VQ-VAE和综合prompt学习框架,在不需要类标签的情况下于offline和online场景下均达到SOTA。
- UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation
-
本文构建了UKBOB——迄今最大的标注医学影像分割数据集(51,761个MRI 3D样本,72类器官,13.7亿2D分割mask),提出Specialized Organ Label Filter (SOLF)清洗自动标注和Entropy Test-Time Adaptation (ETTA)处理带噪标签的域迁移,训练的Swin-BOB基础模型在BRATS和BTCV基准上达到SOTA。
- Vector Contrastive Learning for Pixel-wise Pretraining in Medical Vision
-
提出向量对比学习(Vector CL),将标准对比学习从二值优化问题重新表述为向量回归问题,通过建模特征距离来量化分散程度,解决像素级医学视觉预训练中的"过度分散"问题,在 8 个下游任务上显著优于 17 种方法。
- ViCTr: Vital Consistency Transfer for Pathology Aware Image Synthesis
-
提出 ViCTr 两阶段框架,结合 Rectified Flow 与 Tweedie 校正的扩散过程实现高保真的病理感知医学图像合成,将推理步数从50步降至3-4步,并首次实现分级严重程度的腹部MRI病理合成。
- Visual Surface Wave Elastography: Revealing Subsurface Physical Properties via Visible Surface Waves
-
本文提出 VSWE(Visual Surface Wave Elastography),仅通过一段表面波传播的视频,提取色散关系并结合基于物理的有限元优化,推断介质的亚表面厚度和刚度参数,在模拟和真实明胶实验中均实现了高精度的参数恢复,为居家健康监测提供了概念验证。