🏥 医学图像¶
📷 CVPR2026 · 172 篇论文解读
📌 同领域跨会议浏览: 🔬 ICLR2026 (86) · 🧪 ICML2026 (28) · 🤖 AAAI2026 (75) · 🧠 NeurIPS2025 (77) · 📹 ICCV2025 (31) · 🧪 ICML2025 (21)
🔥 高频主题: 医学影像 ×82 · 语义分割 ×34 · 多模态 ×26 · 推理 ×13 · 扩散模型 ×13
- A Supervised Multi-task Framework for Joint cryo-ET Restoration Enabled by Generative Physical Simulation
-
cryoDeRec 用一条「生成式噪声建模 + 物理成像仿真」流水线造出"含噪输入 ↔ 干净 GT"的成对断层图,把一直只能靠自监督做的 cryo-ET 去噪与缺失楔(missing wedge)修复改成全监督多任务训练,单个 U-Net 同时干两件事,在 4 个真实 + 2 个仿真数据集上全面超过 Topaz-Denoise / SC-Net / IsoNet。
- Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning
-
提出 HistoSelect 框架,模拟病理学家从粗到细的推理过程,通过组织分割→Group Sampler→Patch Selector 的三级筛选机制,基于信息瓶颈(IB)理论压缩无关视觉token,在减少约70%计算量的同时实现三个数据集上的SOTA。
- Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning
-
提出 UAAI 框架,首次将主动推理(Active Inference)引入微手势识别,通过 EFE 引导的时间帧选择 + 空间注意力 + UMIX不确定性感知增强,在SMG数据集RGB模态上达到63.47%,大幅超越传统RGB方法。
- AD-GBC: Anisotropic Granular-Ball Skip-Connection Refiner for UNet-Based Medical Image Segmentation
-
把 UNet 里"点原型 / 各向同性球"的语义锚点升级成带各向异性向量尺度的可微粒球,以「像素集合 ↔ 粒球」的双向聚合-广播机制充当 skip-connection 的语义精炼器,再加两个几何正则防止锚点塌缩,在四个医学分割基准上对 Rolling-UNet / U-KAN 两种骨干都带来稳定涨点(平均 IoU +1.3~1.7%)。
- Adaptive Anisotropic Gaussian Splatting for Multi-contrast MRI Arbitrary-Scale Super-Resolution with Anatomy Guidance
-
GaussM2ASR 把多对比度 MRI 的任意尺度超分从"INR 直接回归像素强度"换成"学一组各向异性 2D 高斯核的参数",用窄核拟合解剖边界的高频、宽核覆盖平滑低频区,再用三个解剖先验驱动的模块把高频信息和高分辨参考图的结构对齐,在 IXI/BraTS/fastMRI 上 PSNR/SSIM 全面超过现有 SOTA。
- Adaptive Confidence Regularization for Multimodal Failure Detection
-
提出 ACR 框架,通过自适应置信度损失(惩罚多模态融合置信度低于单模态的"置信度退化"现象)和多模态特征交换(在特征空间合成失败样本)两个互补模块,首次系统解决多模态场景下的误分类检测问题,在四个数据集上全面超越已有方法。
- Anatomica: Localized Control over Geometric and Topological Properties for Anatomical Diffusion Models
-
Anatomica 是一个推理期(training-free)扩散引导框架,用可任意摆放的「立方体控制域」从 3D 多类解剖分割中可微地切出子结构,再分别用几何矩和持续同调度量其几何(大小/形状/位置/朝向)与拓扑(连通分量/环/空腔)属性,把偏差当势函数梯度反传回去引导无条件扩散采样——无需为每个任务重训模型,就在心脏/主动脉/脊椎/冠脉等多个解剖系统上实现了 SOTA 的几何与拓扑可控生成。
- Any2Any 3D Diffusion Models with Knowledge Transfer: A Radiotherapy Planning Study
-
把在自然视频(Wan 2.1)或公开 CT(MAISI)上预训练好的 3D 扩散模型迁移到放疗剂量预测,用一套「Any2Any」模态条件范式让任意模态都能当生成目标,再用临床 Scorecard 设计的强化学习后训练对齐机构偏好,在 GDP-HMM 挑战赛上把体素级 MAE 从 2.07 降到 1.93、刷新 SOTA。
- BackSplit: The Importance of Sub-dividing the Background in Biomedical Lesion Segmentation
-
论文提出 BackSplit:把病灶分割里被一锅端的「背景」拆成有语义的辅助器官/组织类、做多类 softmax 联合训练,用 Fisher 信息理论证明这比二分类训练保留更多信息、估计更稳,并在 5 个数据集上一致提升小病灶 Dice,且推理零额外开销。
- Benchmarking Endoscopic Surgical Image Restoration and Beyond
-
构建了首个多源真实世界内窥镜手术图像复原数据集 SurgClean(3,113张图像,覆盖去烟/去雾/去飞溅三种退化类型),在其上系统评测了22种代表性图像复原方法(12种通用+10种任务特定),揭示现有方法与临床需求间仍存在显著差距,并进一步分析了手术场景退化与自然场景退化的本质差异。
- Better than Average: Spatially-Aware Aggregation of Segmentation Uncertainty Improves Downstream Performance
-
首次系统研究分割任务中像素级不确定性到图像级评分的聚合策略,提出融合空间结构信息(Moran's I、边缘密度、Shannon熵)的SMR聚合器和基于GMM的元聚合器,在10个数据集上证明全局平均(AVG)是次优选择,GMM-All元聚合在OoD和失败检测上表现稳健。
- Beyond the Static-World: Lifelong Learning for All-in-One Medical Image Restoration
-
针对全能医学图像复原(MRI 超分 / CT 去噪 / PET 合成共享一个模型)在真实临床数据流里同时遭遇的"模态冲突"和"灾难性遗忘",本文提出 ROME 框架,先用对抗平衡把不同模态映射到统一的模态无关流形(MIDAB),再在这个流形上做自适应特征级插值来巩固旧知识(AFC),把序列训练后的平均退化压低 10% 以上。
- BiOTPrompt: Bidirectional Optimal Transport Guided Prompting for Disease Evolution-aware Radiology Report Generation
-
针对纵向胸片报告生成中"病灶演化是双向且非对称(有新发也有消退)"这一被忽视的特性,BiOTPrompt 用双向最优传输在当前片与历史片之间建立软对应,靠两个方向传输质量的不对称识别出"新发区域"和"消退区域",把它们的空间位置编码进提示词去引导 LLM 生成报告,并加一条视觉-文本一致性约束抑制幻觉,在 Longitudinal-MIMIC 上 NLG 与临床指标全面取得 SOTA(CE-F1 0.417)。
- Breaking the Continuum: Discrete Distribution Learning for Structural MRI Reconstruction
-
针对欠采样 MRI 重建,DiCoS 不再像扩散模型那样在连续流形上"一条轨迹磨到底",而是用离散先验网络一次生成 K 个解剖学候选、用极短的微扩散循环逐个做纹理细化与数据一致性投影、再用双域平衡评分(k 空间 + 图像域)链式择优,在 fastMRI 膝/脑数据集上以远低的推理耗时取得 SOTA 重建质量(12× 加速下 PSNR 比次优高 1.4+ dB)。
- Bridging Brain and Semantics: A Hierarchical Framework for Semantically Enhanced fMRI-to-Video Reconstruction
-
CineNeuron 借鉴大脑「自下而上感知 + 自上而下记忆」的双通路机制,先用多任务对齐把含噪 fMRI 信号映射到同时编码图像/文本/动作/类别的语义空间,再用 Mixture-of-Memories 从历史样本里检索并融合多模态「记忆」来补全细节,最终驱动视频扩散模型,在 cc2017 与 CineBrain 两个 fMRI-to-video 基准上全面超越 SOTA。
- Bridging RGB and Hematoxylin Components: An Interleaved Guidance and Fusion Framework for Point Supervised Nuclei Segmentation
-
DFGNet 把 H&E 病理图的 RGB 图与从中分离出的苏木精(Hematoxylin)分量当成一对互补表征,用跨尺度动态融合(RCDF)、交错式点引导注意力(IGA)和熵置信度聚合(ECAU)三件套联合建模二者,在仅用点标注的弱监督设定下实现了三个公开核分割数据集上的 SOTA。
- Building Robust Vision Encoders for Cross-Dataset Evaluation in Immunofluorescent Microscopy
-
针对免疫荧光(IF)显微图像各实验室通道数与配置不一致、现有模型无法迁移到「训练时没见过的通道组合」的问题,本文提出 C3R:先用生物学先验把通道分成「上下文」与「概念」两组,再用分组独立编码的 CCE 架构 + 掩码上下文蒸馏 MCD 学表征,使冻结编码器无需重训就能在未见通道配置的 OOD 数据集上达到 SOTA。
- CG-Reasoner: Centroid-Guided Positional Reasoning Segmentation for Medical Imaging with a Robust Visual-Text Consistency Metric
-
CG-Reasoner 用一个轻量编码器-解码器接 LLaVA-Med,再加一个把推理文本回归成病灶质心坐标的 Text2Centroid 模块,让模型在分割掩码之外还能产出"空间上对得上病灶位置"的可解释推理文本,并配套提出 PRScore 同时度量语义+空间+视觉三者一致性;在六种医学影像模态上分割和推理都接近/超过 SOTA。
- CHIPS: Efficient CLIP Adaptation via Curvature-aware Hybrid Influence-based Data Selection
-
提出 CHIPS,一种基于曲率感知混合影响力的数据选择方法,在 CLIP 端点子空间中计算 Newton 风格对齐分数并结合可学习性与领域相关性权重,仅用 30% 数据即可匹配全量数据集持续预训练效果,在 17 个医学基准上达到 SOTA。
- Clinically-Grounded Counterfactual Reasoning for Medical Video Diagnosis
-
MEDVCR 让医学视频诊断模型学会医生那种"假设这块组织如果是良性会长成什么样"的反事实推理:用扩散模型合成不同病理假设下的组织演化,用三条临床规则约束表示学习,再把"事实观察 vs 反事实假设"的对比融进预测,在宫腔镜活检定位和结肠镜息肉检测上分别把 Recall@1 / AP 提到 93.0%(+10.2%)和 94.8%(+2.6%)。
- CMR-RD: Long-Tailed Adaptive VLM for Explainable CMR Diagnosis
-
CMR-RD 是首个面向心脏磁共振(CMR)可解释诊断的视觉-语言模型,通过「医学对齐+思维链冷启动」打底,再用一种带 Thompson 采样动态配额的多阶段强化学习算法 GPPO 主动补强罕见病类别,并把病灶 IoU 接地写进奖励,在六类心脏病诊断上同时拿到最高准确率和最可信的推理链。
- CoFiDA-M: Concept-Aware Feature Modulation for Cross-Domain Adaptation with Image-Only Inference
-
针对"皮肤镜专家图 → 手机临床图"的域偏移,CoFiDA-M 在训练时用 MONET 临床概念分数(特权信息)引导 FiLM 编辑视觉特征、教出一个"会临床推理"的教师,再把教师编辑后的特征蒸馏进一个只吃图像的学生,让学生在 6 个未见数据集上保持高 AUROC 和高黑色素瘤召回,同时部署时不依赖任何概念元数据。
- Contrastive Cross-Bag Augmentation for Multiple Instance Learning-based Whole Slide Image Classification
-
针对 WSI 弱监督分类中伪袋增强"只在一两个袋内采样、多样性受限"的问题,C2Aug 从全数据集所有同类袋里跨袋采样实例并入原袋来造伪袋(增-并而非减-并),再用袋级 + 组级对比学习缓解由此带来的"小肿瘤区样本变少"副作用,在 CAMELYON-16/TCGA-LUNG/TCGA-BRCA 三套数据上 AUC 全面超越现有增强方法。
- CRFT: Consistent-Recurrent Feature Flow Transformer for Cross-Modal Image Registration
-
提出CRFT,统一的粗到精跨模态图像配准框架——在Transformer架构中学习模态无关的特征流表示,粗阶段1/8分辨率全局对应+精阶段1/2-1/4多尺度局部细化,配合迭代差异引导注意力和空间几何变换(SGT)递归精化流场捕捉微妙空间不一致,在光学/红外/SAR/多光谱等多种跨模态数据集上超越RAFT/GMFlow/LoFTR等SOTA。
- Cross-domain Dual-stream Feature Disentanglement for Brain Disorder Prediction with Sparsely Labeled PET
-
针对 PET 标注稀缺、需借标注丰富的 MRI 来跨模态迁移知识的场景,本文提出 DSDA 框架:先用脑区重要性图把"分类相关的关键脑区"和"分类无关的非关键脑区"显式解耦,再对两类脑区差异化处理——非关键脑区做拓扑加权对齐消除域差异、关键脑区做高置信度特征融合保留病理判别信息,在 ADNI/AIBL/PPMI 上分别取得 86.6%/87.7%/88.9% 准确率,刷新 SOTA。
- Cross-Modal Guided Visual Synthesis for Data-Efficient Multimodal Depression Recognition
-
用音频和文本作为条件,通过 CVAE 在特征层合成新的"视觉行为特征"来缓解临床抑郁数据稀缺,并用下游识别器的损失反向引导这个生成过程,让合成特征不是追求"逼真"而是追求"对识别有用",在 DAIC-WOZ 和 E-DAIC 上刷到 SOTA。
- CROWn: 抗混叠下采样与相位校准融合的统一 3D 医学分割框架
-
CROWn 把采样理论塞进 U 形分割网络最易丢信息的两个环节——下采样和跳连融合:用 µPCAD 在抽取时做"池化查询 × 小波子带值"的协同注意力加显式抗混叠低通,用 OCF 把高分辨率跳连拆成八个相位陪集再做相位注意力 + 边缘门控对齐,在 15 个 CT/MRI/OCT 数据集上 IoU/Dice 全面 SOTA,且参数量只有 23.78M。
- CURE: Curriculum-guided Multi-task Training for Reliable Anatomy Grounded Report Generation
-
提出 CURE——一种基于误差感知课程学习的多任务训练框架,在不引入额外数据的前提下,通过动态调节采样分布重点训练困难样本,将医学 VLM 的视觉定位精度提升 +0.37 IoU,幻觉率降低 18.6%。
- D-Convexity: A Unified Differentiable Convex Shape Prior via Quasi-Concavity for Data-driven Image Segmentation
-
把"分割结果必须是凸形"这个先验,从对二值集合的全局约束,改写成对网络输出概率图 \(u\) 的拟凹性(quasi-concavity) 约束,从而得到一个无需阈值、可微、可密集卷积计算的凸性损失,并用一个凸梯度投影模块(CGPM)在推理时硬性凸化输出,在视网膜/心脏等近凸结构分割上一致提升 Dice/IoU 并降低 Hausdorff 距离。
- D\(^2\)-FOSA: Dual-Diffusion Guided EEG-to-Image Reconstruction with Frequency-Oriented Semantic Alignment
-
D2-FOSA 用一个「频率感知的状态空间编码器 FOMamba」把噪声大、低信噪比的 EEG 信号编码成判别性强的脑电嵌入,再用一对对称的「双向扩散生成器 DDLG」在 CLIP 共享潜空间里强制 EEG↔图像的循环一致对齐,最后经 IP-Adapter + SDXL 渲染出图像;在 THINGS-EEG 重建任务上 FID 比同期的 MB2C 低 17 以上。
- D2T2 - Multimodal Automated Planning for Brachytherapy
-
D2T2 用一个「DiT 预测每个驻留位置的驻留时间 → 物理层把驻留时间线性组合成剂量」的两阶段网络,端到端地直接预测可临床交付的近距离放疗机器参数,配合一个把 Gamma 指数变成可微损失的代理网络,单次前向就比现有 SOTA 更准、并把规划耗时从数十分钟压到 0.1 秒。
- DARC: Dual Adjustment Reasoning with Counterfactuals for Trustworthy Chest X-ray Classification
-
DARC 把胸片多标签分类里的两类伪相关(非病理视觉混杂物的捷径学习、病理共现导致的特征纠缠)从因果机制上分开处理——用一条全局流做后门调整、一条局部流做反事实推理,再在 logit 层融合,使模型在分类性能、可解释性、鲁棒性上同时领先。
- Decoding 3D Perception via BrainSSD: Synergistic Fusion of EEG Representations from Static and Dynamic Visual Streams
-
BrainSSD 用一个"神经科学启发"的层次化 PAC 引导融合(HPACF)模块,把人看静态 3D 物体图和看物体旋转视频两套 EEG 信号协同融合,解码出语义丰富的 3D 视觉表征,在分类/检索和 2D/3D 生成重建上全面刷新 SOTA,并首次给出了"静态流负责整体形状、动态流负责精细几何细节"的直接可视化证据。
- Decoupling Vision and Language: Codebook Anchored Visual Adaptation
-
提出 CRAFT,通过离散 codebook 将视觉编码器与语言模型解耦,仅微调视觉编码器即可实现领域适配,且适配后的编码器可跨 LLM 架构无缝复用,在 10 个领域基准上平均提升 13.51%。
- Delving Aleatoric Uncertainty in Medical Image Segmentation via Vision Foundation Models
-
用冻结的医学视觉基础模型(MedSAM2)提取特征、对每类特征矩阵做奇异值分解并量化其能量分布熵,得到一个免标注的「偶然不确定性值(AUV)」来刻画样本难度与噪声,再以此驱动「数据过滤」和「动态不确定性感知优化」两套即插即用策略,在 5 个 CT/MRI 数据集上稳定提升分割性能。
- Depth Any Endoscopy: Towards Self-Supervised Generalizable Depth Estimation in Monocular Endoscopy
-
DAE 用「双层 MoE 适配 + 可学习梯度协调 + 语义分布校准」把视觉基础模型(Depth Anything v2)改造成一个统一的自监督内窥镜深度网络,无需深度标注就能在腹腔镜、结肠镜等差异巨大的术式上同时取得 SOTA 的零样本与同域深度估计精度。
- Diffusion-Based Native Adversarial Synthesis for Enhanced Medical Segmentation Generalization
-
这篇论文指出扩散模型用于医学分割数据增强时,真正驱动泛化的不是视觉逼真度而是"合成对抗性"(合成样本诱导的经验损失),且只有落在流形上的原生对抗性有效;据此提出一个轻量插件 Adversariality Miner,仅通过重选初始噪声、不改动也不重训冻结扩散模型,就能放大原生对抗性,在多个医学分割基准上把下游 Dice 增益再提升 4~5 个点。
- Diffusion MRI Transformer with a Diffusion Space Rotary Positional Embedding (D-RoPE)
-
针对扩散磁共振(dMRI)数据「每个体积对应球面上一个采样方向、协议还各不相同」的特殊几何结构,本文设计了一个把旋转位置编码(RoPE)推广到扩散球面空间的 D-RoPE,配合空间/扩散交替注意力的 Transformer 和掩码自编码预训练,学到的通用表征在轻认知障碍分类上比基线高约 6% 准确率、在认知评分回归上相关系数提升约 0.05。
- Diffusion with a Linguistic Compass: Steering the Generation of Clinically Plausible Future sMRI Representations for Early MCI Conversion Prediction
-
MCI-Diff 用一张基线 sMRI 就"脑补"出未来 6–36 个月的纵向影像特征:先用多任务序列重建训练扩散模型解决随访时间不规则的问题,再用一个微调过的 LLM 当"语言罗盘",按临床生物标志物给候选特征打分、挑出最合理的那个引导自回归生成,从而在保持即时性的同时把早期 MCI 转化预测准确率提升 5–12%。
- Divide, Conquer, and Aggregate: Asymmetric Experts for Class-Imbalanced Semi-Supervised Medical Image Segmentation
-
针对多器官半监督分割里"小器官被大器官淹没"的问题,DCA 用一个共享编码器 + 三个为头/中/尾类别量身定制的非对称专家解码器分而治之,再通过 logit 拼接和动态特征聚合模块把三个专家的预测/特征融合成无偏结果,在 Synapse 20% 标注上把平均 Dice 从 68.4 推到 73.2。
- DK-DDIL: Adaptive Knowledge Retention for Dynamic Domain-Incremental Learning in Medical Imaging
-
针对真实临床里"成像设备/机构/病种不断变、标签空间也在长大"的动态域增量场景,DK-DDIL 用一个可微分动态秩的 LoRA 适配器(DAM)按域复杂度自动伸缩模型容量,再用一套模型融合 + 原型对比的知识继承机制(KIR)压住灾难性遗忘,全程不回放历史数据,在皮肤病理、3D MRI 和 OfficeHome 三个基准上都超过现有 DIL 方法,且只训练 0.26% 参数。
- Dual-Level Confidence based Implicit Self-Refinement for Medical Visual Question Answering
-
针对医学 VQA 训练/测试分布漂移的问题,DuCoR 把测试样本的伪答案拉进训练,并用「损失层置信度(拟合干净/噪声损失分布)+ 特征层置信度(样本表征到伪答案原型的距离)」两路互补信号自适应融合出每样本可靠性权重,对伪监督加权优化,从而在多个医学 VQA 基准上既涨点又显著改善跨域泛化。
- Dual-Level Hypergraph Generation for Addressing Feature Scarcity in Whole-Slide Image Classification
-
针对淋巴结转移四分类中少数类(ITC、微转移)样本与阳性节点双重稀缺的问题,本文提出 Dual-HGNet,在超图层用类别提示引导的层级超图 VAE 合成拓扑一致的少数类超图、在节点层用 anchor-diffusion mixup 增强高注意力阳性节点特征,在 NIMM 与多个 TCGA 数据集上显著提升了少数类识别(NIMM 上 ITC 的 F1 从 52.7 提到 57.1)。
- Duala: Dual-Level Alignment of Subjects and Stimuli for Cross-Subject fMRI Decoding
-
针对"把预训练的 fMRI-to-image 解码模型迁移到只有约 1 小时数据的新被试时性能暴跌"这一痛点,Duala 在微调阶段同时做刺激级语义保持(用三元组对齐损失 + 关系一致性损失守住类别边界)和被试级分布扰动(用源被试的协方差给新被试表征加扰动),仅引入 4.68M 可训练参数就把跨被试图像/脑信号检索准确率分别推到 84.5% / 81.1%,超过此前 SOTA MindTuner 1.4% / 5.1%。
- Dynamic Stream Network for Combinatorial Explosion Problem in Deformable Medical Image Registration
-
针对可变形医学图像配准(DMIR)因「双图输入」导致的特征关系组合爆炸问题,本文提出 DySNet,用 AdSB 模块动态变形感受野(缩小搜索空间)+ DySA 模块动态生成注意力权重(校准搜索方向),把两路动态机制统一进一个动态卷积核,在 3D 心脏 CT / 3D&2D 脑 MRI 三个任务上平均 Dice 达 82.0%,全面超过 8 个 SOTA。
- EchoPOSE: 6D Pose Estimation of Sparse Echocardiograms for Left-Ventricular 3D Shape Reconstruction
-
本文用一个 Transformer 网络 EchoPOSE 从临床常规采集的 5 张稀疏 2D 超声切片自动回归出每张切片的 6D 位姿(3 平移 + 3 旋转),再把摆好位的分割掩膜喂给图谐波形变(GHD)算法重建出整个心动周期的左心室 3D 形状,在合成 MITEA 数据上做到 3.78 mm / 8.65° 的位姿误差、87.5% Dice 和 1.44% 射血分数误差,无需任何外部追踪硬件就超过了临床金标准 Simpson 双平面法。
- EchoVDiff: Cardiac-Cycle Echocardiography Video Generation from Arbitrary Single Frame
-
EchoVDiff 给超声心动图视频生成显式装上一根"心动相位轴":先用多任务学习把左心室面积变化拟合成一个连续的循环相位,再用两个相位条件扩散模型从任意单帧重建出生理一致的完整 ED→ES→ED 心动周期视频,在 EchoNet-Dynamic 上把 FVD 从 630 降到 535。
- EEGiT: Teaching Vision Transformers to Understand the EEG signal
-
EEGiT 把一维 EEG 时序信号"画"成形如图像 patch 的二维 EEG patch,从而能直接拿在 ImageNet-21K 上预训练好的 ViT 当 EEG 编码器,用图像域的视觉先验缓解 EEG 数据稀缺,在 THINGS-EEG 检索与 EEG-3D 分类上都刷到 SOTA。
- Efficient Unrolled Networks for Large-Scale 3D Inverse Problems
-
针对展开网络(unrolled network)在 3D 逆问题里因为「网络步必须在整卷全分辨率上跑」而显存爆炸的痛点,本文用域划分(只重建一个 patch、其余当已知 context)+ 法算子 \(A^\top A\) 的对角-循环矩阵近似两招,让带前向算子的展开网络第一次能在单卡上训练并部署到 \(501^3\) 体素的稀疏视角 CBCT 与多线圈加速 MRI,并取得 SOTA。
- EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease
-
提出 EMAD,一个端到端多模态视觉-语言框架,为 AD 诊断生成结构化报告,通过分层 Sentence–Evidence–Anatomy (SEA) Grounding 将每个诊断声明显式关联到临床证据和 3D 脑部解剖,并用可执行规则驱动的 GRPO 强化微调确保临床一致性。
- Every Error has Its Magnitude: Asymmetric Mistake Severity Training for Multiclass Multiple Instance Learning
-
提出 PAMS(Priority-Aware Mistake Severity)方法,通过非对称严重性感知的交叉熵损失(MSCE)、语义特征混合(SFR)和非对称 Mikel's Wheel 指标,在多分类 MIL WSI 诊断中显著降低严重误诊风险。
- F\(^2\)-Assist: Multi-Phase Fetal Growth Forecast and Report Generation from Ultrasound Examination
-
F\(^2\)-Assist 把多次产检的多器官超声图像 + 连续生物测量值(HC/AC/BPD/FL)一起喂进一个统一的多模态 LLM,用「跨期器官对齐 + 历史感知时序编码 + 生长参数适配器」三个模块预测下一期的胎儿生长参数并同时生成超声报告,在数值预测上把 R² 从之前 SOTA 的 0.59 提到 0.78。
- Factorized Context Aggregation for Robust Cancer Risk Estimation via Soft Re-Ranked Retrieval and Hierarchical Anchors
-
这篇论文针对"训练时有基因/病理报告等多模态、但推理时只有病理切片(WSI)"的真实临床场景,提出以 WSI 为锚、从记忆库检索相似病人的多模态特征并做软重排,再用因子化交叉注意力把缺失模态的代理表征拆成"模态独有 + 与 WSI 共享 + 与其他模态共享"三路重建,最后用全模态教师做层级 anchor 蒸馏;在 8 种癌症 24 个缺失场景上把生存预测 C-index 推到 0.617,比纯组织学基线相对提升约 8.5%,离全模态上界仅差约 1.4%。
- FBTA: Enabling Single-GPU End-to-End Gigapixel WSI Classification with Feature Bridging and Translation Alignment
-
FBTA 用「伪包代理 + 特征翻译 + 三视图一致性约束」三招,把动辄上亿像素的全切片图像(WSI)的多示例学习(MIL)压进单张 24GB GPU 做真正的端到端训练,相比直接全图端到端提速 100× 以上,并能即插即用地给三种 MIL 架构、两种特征提取器一致涨点(ABMIL 在 STAD 上准确率 +15.8%)。
- fMRI-LM: Towards a Universal Foundation Model for Language-Aligned fMRI Understanding
-
fMRI-LM 用一套"先把脑信号离散成与文本嵌入空间对齐的 token、再让预训练 LLM 把脑活动当作可预测可描述的'语言'来建模"的三阶段框架,配上一套人工合成的 fMRI→文本描述语料补齐天然配对的缺失,在 7 个数据集上实现了用单一模型零样本/少样本完成性别、年龄、流体智力、AD/ADHD/ASD 诊断等多种任务,且 LoRA 微调即可达到甚至超过全量微调的效果。
- Focus-to-Perceive Representation Learning: A Cognition-Inspired Hierarchical Framework for Endoscopic Video Analysis
-
提出 FPRL,一个受临床认知启发的层次化自监督框架,通过先"聚焦"帧内病灶关键静态语义、再"感知"帧间上下文演化来缓解运动偏差,在 11 个内窥镜数据集上取得 SOTA。
- Focus on Background: Exploring SAM's Potential in Few-shot Medical Image Segmentation with Background-centric Prompting
-
把"用 SAM 做少样本医学分割"重新定义为背景点提示的定位问题,提出即插即用的提示生成器 FoB——通过背景原型构建、背景中心的上下文建模和结构引导的迭代细化,在前景边界外圈生成准确的背景提示点来约束 SAM 的过分割,在三个医学数据集上大幅刷新 FSMIS 的 SOTA。
- Continual Learning for fMRI-Based Brain Disorder Diagnosis via Functional Connectivity Matrices Generative Replay
-
提出 FORGE,首个专为跨站点 fMRI 脑疾病诊断设计的持续学习框架,通过结构感知 VAE 生成逼真的功能连接矩阵进行隐私保护式生成回放,结合双层知识蒸馏和层次化上下文赌博机采样策略,有效缓解灾难性遗忘。
- Forging a Dynamic Memory: Retrieval-Guided Continual Learning for Generalist Medical Foundation Models
-
PRIMED 把检索增强(RAG)引入医学 VLM 的持续学习,用一个 1800 万规模的多模态医学检索库 + 3000 条问题池作为"动态记忆",按当前微调任务实时检索图文对当回放数据,再配合对比知识蒸馏与动态 Fisher 权重约束,在自建的 MGTIL 基准上全指标 SOTA。
- From Infusion to Assimilation Distillation for Medical Image Segmentation
-
针对现有知识蒸馏(KD)"灌进去就完事、不让学生消化"导致泛化反而变差的问题,本文提出两阶段框架 IAD:先用软标签+类加权原型对齐把 SAM 教师的语义"注入"轻量学生,再用对比语义自优化+反向特征约束让学生"同化"知识、保住自己原有的优势,在 Synapse/ACDC/Polyp 上 DICE 分别涨 4.32%/1.85%/2.42%,跨数据集泛化平均涨 4.16%。
- From Panel to Pixel: Zoom-In Vision-Language Pretraining from Biomedical Scientific Literature
-
针对生物医学文献图通常是「多面板 + 标注箭头」的复合图、而现有 VLP 却把整张图压成一对粗粒度图文对的问题,本文提出 Panel2Patch 数据流水线,用现成 LVLM 把文献图自动拆成「整图—单面板—局部区域」三级对齐图文对,再配一个跨层消息传递的 zoom-in 预训练框架,仅用前作 1/6 的数据就在多个生物医学基准上取得 SOTA。
- Gastric-X: A Multimodal Multi-Phase Benchmark Dataset for Advancing Vision-Language Models in Gastric Cancer Analysis
-
Gastric-X 构建了一个以真实胃癌诊疗流程为蓝本、把四相 3D CT + 内镜图 + 结构化生化指标 + 临床报告在患者级别对齐的 1.7K 例多模态 benchmark,并定义 VQA、报告生成、跨模态检索、分期分类、病灶检测五大任务,系统评测了 6 个通用/医学 VLM,揭示当前模型在「让多模态证据真正互相印证」上仍有明显差距。
- GaussianPile: A Unified Sparse Gaussian Splatting Framework for Slice-based Volumetric Reconstruction
-
提出 GaussianPile,通过引入焦点感知的物理成像模型(Focus Gaussian),将 3D 高斯溅射从表面外观建模扩展到切片体数据重建,在超声和光片显微镜数据上实现了比 NeRF 方法快 11 倍、比体素网格储存缩小 16 倍的高质量体数据压缩与重建。
- GeneVAR: Causal MeanFlow for Autoregressive Gene-to-WSI Tile Synthesis
-
GeneVAR 把"用 RNA-Seq 表达谱生成 H&E 病理切片"重构成多尺度由粗到细的自回归过程,并在自回归轨迹里嵌入一个 RNA 条件化的 Causal MeanFlow 模块,用平均速度场 + 反事实干预把真正的基因驱动形态从染色/对比等非生物混杂因素里剥离出来,在 5 个 TCGA 队列上 FID 和下游分类全面 SOTA。
- GenTract: Generative Global Tractography
-
GenTract 把脑白质纤维束追踪(tractography)从"一步步沿局部方向走"的局部搜索,改写成"以整脑 dMRI 为条件、一次并行采样出整条流线坐标"的全局条件生成任务,用 VAE 编码 fODF + 条件 Transformer(Diffusion / Flow Matching),在高质量数据上精度做到 SOTA,在低分辨率/噪声场景下比次优方法高出最多约 3.5 倍。
- GeoSemba: Reconstructing State Space Model for Cross Paradigm Representation in Medical Image Segmentation
-
针对 Mamba 把 2D 图像拉成 1D 序列后"按扫描顺序而非语义相关性传信息"和"空间-通道解耦"两大毛病,GeoSemba 用语义引导状态精炼器(SSR)做几何条件的跨区域语义传播、用跨维亲和精炼器(CAR)做粗到细的空间-通道选择性增强,在六种医学模态上以更低算力刷新分割精度。
- GH-NAF: Grid-Adaptive Hash-Level-Attended Neural Attenuation Fields for Discrepancy-Aware CBCT
-
GH-NAF 给基于哈希编码的 NeRF 式 CBCT 重建加上一个"按空间位置自适应挑选哈希分辨率层级"的注意力机制,并配合可微的投影差异校正渲染和不确定性加权监督,让模型在均匀组织里压低高频、在结构边界处保留细节,从而在真实 CBCT 上同时改善材料内对比度和边界清晰度。
- GraPHFormer: A Multimodal Graph Persistent Homology Transformer for the Analysis of Neuroscience Morphologies
-
把神经元骨架树的「图结构」和「拓扑持续同调」两套互补视图,用 CLIP 式对称 InfoNCE 对齐到同一嵌入空间——图编码器(TreeLSTM)抓局部几何、视觉编码器(DINOv2 处理三通道持续图像)抓全局分支拓扑——在 6 个神经元形态学基准中的 5 个上刷到 SOTA,自监督设定最高比上一代高 4.9 个点。
- H2-Surv: Hierarchical Hyperbolic Multimodal Representation Learning for Survival Prediction
-
H2-Surv 把病理 WSI 和基因组特征一起嵌入双曲(Poincaré 球)空间,用层次距离约束 + 跨模态蕴含锥建模"基因组比病理更抽象、且各自有 patient→WSI/pathway→patch/gene 的树状层次",再用时间序数对比损失保住生存时间的连续序关系,在 TCGA/CPTAC 六个数据集上把平均 C-index 从 0.684 抬到 0.716。
- Harmonized Feature Conditioning and Frequency-Prompt Personalization for Multi-Rater Medical Segmentation
-
针对"多个医生对同一病灶画的轮廓不一样"这件事,本文用一个轻量 Harmonizer 网络先把扫描设备噪声/伪影从特征里"洗掉",再用高频提示模块在小波频域里捕捉每位医生的风格偏好,并用 GED 正则把模型预测分布对齐到真实标注分布,从而在 LIDC-IDRI 和 NPC-170 上同时拿到更好的群体级多样性与个性化分割(GED 0.105 vs. D-Persona 0.136)。
- Hyperbolic Relational Prompts for Intersectional Fairness in Medical VLMs
-
FRP 把医学 VLM 的"提示生成"从孤立处理单样本改成动态关系推理:用一张样本间关系图捕捉细粒度依赖,再用双曲图层显式建模种族×性别等交叉身份的层级结构,从而在缓解"交叉盲区"偏见的同时把诊断 AUC 推到 SOTA(FairVLMed 77.50%、Harvard-GF 85.94%)。
- IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation
-
针对现有医学 MLLM 分割依赖隐式
<SEG>token + 外接像素解码器联合微调(易灾难性遗忘、跨域差、且只能单次前向)的问题,IBISAgent 把分割重构成"思考→点击动作→调用分割工具→观测掩码"的多步马尔可夫决策过程,用冷启动 SFT + 智能体 RL(细粒度规则奖励)训练 Qwen2.5-VL-7B,无需改架构即可迭代精修掩码,在域内/域外多个生物医学分割基准上大幅超越闭源与开源 SOTA(域内 IoU 85.58 vs 次优 50.74)。 - IEBGL:An Interpretability-Enhanced Brain Graph Learning Framework with LLM-Instructed Topology and Literature-Augmented Semantics
-
IEBGL 把"大模型推理"和"生物医学文献语义"两路外部知识注入 rs-fMRI 脑图:用 LLM 重构脑区连接拓扑、用文献嵌入增强脑区节点特征,再交给图-双向 Mamba 网络做抑郁症 / 自闭症诊断,在准确率提升的同时还能把异常脑区和相关文献对应起来,给出可解释的诊断依据。
- Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset
-
提出指令引导的胸部X光病变分割任务(ILS),构建了首个大规模自动生成的指令-回答数据集MIMIC-ILS(1.1M样本、192K图像、91K mask),并训练ROSALIA模型实现gIoU 71.2%和空目标准确率91.8%,远超现有通用和医学分割模型。
- Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment
-
发现并解决了 CLIP 在跨域少样本学习(CDFSL)中的局部特征对齐退化问题,提出基于循环一致性的 CC-CDFSL 框架,通过 T-I-T 和 I-T-I 双向循环路径和语义锚点机制改善 patch 级视觉-语言对齐,同时增强模型的可解释性。
- InvCoSS: Inversion-driven Continual Self-supervised Learning in Medical Multi-modal Image Pre-training
-
InvCoSS 用「模型逆向」从上一阶段的自监督模型里反演出合成图像,替代隐私敏感的真实数据回放缓冲,在不存任何原始数据的前提下做持续自监督预训练,九个医学下游任务上追平甚至超过数据回放方法,存储开销最多降低 590×。
- IVAAN: Instance-level Vision-Language Alignment via Attribute-Guided Text Prompts Generation for Nuclei Analysis
-
本文针对病理图像细胞核「实例级分割+分类」中的类别不平衡与器官/染色差异问题,提出从真值掩码自动生成属性引导的伪文本提示,在实例级做视觉-语言对比对齐,再用每类多个可学习「类别 token」+语义交互模块建模类内多模态,无需人工文本标注即可同时提升分割与分类。
- KAMP: Knowledge-Anchored Multimodal Pretraining Framework for Medical Image Representation
-
KAMP 用 LLM 生成的「患者个性化诊断知识」作为语义锚,把医学影像和病理、基因组等多模态生物医学信号对齐,并用三阶段训练(对齐 → GRPO 精炼生成器 → 重训对齐)让知识越练越准,在脑、膀胱、肝癌的 few-shot 分类上大多优于单模态/双模态/三模态基线。
- Keep It Frozen: Domain-Routed Conditional Residual Modulation for Multi-Domain Vision Transformers
-
在完全冻结的 ViT 骨干上挂一组轻量级残差调制模块(RMB),由一个域路由器(DR)实时估计样本属于"医学/自然"的软概率、再用参数合成网络(PSN)按概率即时生成低秩修正参数注入 Q/V 投影与注意力 bias,配合 MAML 式双层优化,实现单一模型在医学(超声/CT/MRI)与自然图像间同时适配且互不损伤,只用约 3.5% 的可训练参数。
- KLIP: localized distribution shift detection via KL-divergence with diffusion priors in Inverse Problems
-
在用扩散先验解反问题(稀疏视角 CT、高斯去模糊)的过程中,用「先验分布 \(p(x)\) 与后验分布 \(p(x|y)\) 之间的 KL 散度」当作 OOD 信号,并把它限制到空间分块和采样时间窗内,从而无需任何 OOD 标定数据就能检测并定位图像里细小、局部、却有诊断意义的分布偏移(如健康肝脏 CT 里的肿瘤)。
- LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs
-
LATA 在不更新 VLM、不用标签、不做反传的前提下,把零样本概率沿"图-图 kNN 图"做几步 CCCP 均场平滑,再叠一个"感知失败"的共形非一致性分数,从而在保持 split conformal(SCP)有限样本覆盖保证的同时,把医学 VLM 的预测集变小、类间覆盖更均衡——在 3 个医学 VLM、9 个任务上一致优于已有转导式 baseline,且算力远低。
- Learning Diffeomorphism for Medical Image Registration with Time-Embedded Architectures Using Semigroup Regularization
-
SGDIR 把医学图像微分同胚配准重写成一个连续时间问题:用扩散模型里常见的时间嵌入骨干网络(UNet / DiT)直接预测任意时刻 \(t\) 的形变场 \(\phi_t\),并证明只需一个"偏半群(partial semigroup)"正则项,就能让网络隐式学到一条 ODE 的流(flow),从而免去 scaling-and-squaring 积分和各种手工正则,同时天然保证可逆性、循环一致性与近乎零折叠的微分同胚。
- Learning Generalizable 3D Medical Image Representations from Mask-Guided Self-Supervision
-
提出 MASS(MAsk-guided Self-Supervised learning),利用 SAM2 自动生成的类别无关 mask 作为伪标注,以 in-context 分割为 pretext task 进行自监督预训练,无需任何人工标注即可学到语义丰富、泛化性强的 3D 医学图像表征,在 few-shot 分割和冻结编码器分类上均取得优异表现。
- LEMON: A Large Endoscopic MONocular Dataset and Foundation Model for Perception in Surgical Settings
-
构建了包含 4194 个手术视频(938 小时)的大规模内窥镜数据集 LEMON,并提出基于增强知识蒸馏的自监督基础模型 LemonFM,在手术阶段识别、工具检测、动作识别和语义分割四大下游任务上全面超越现有手术基础模型。
- LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding
-
把通用域的掩码扩散语言模型 LLaDA 通过视觉指令微调首次搬进生物医学影像理解领域,得到第一个扩散式生物医学 VLM——在开放式医学对话上超过 LLaVA-Med,在三个 VQA benchmark 的闭式子集上刷新 SOTA,还能显式控制响应长度生成更详尽的答案。
- LUMINA: A Multi-Vendor Mammography Benchmark with Energy Harmonization Protocol
-
提出 LUMINA 多厂商乳腺 FFDM 数据集(468 例患者、1824 张图像),附带前景像素直方图匹配的能量协调预处理方法,在诊断/BI-RADS/密度三任务上系统评估了 CNN 与 Transformer 模型。
- MambaLiteUNet: Cross-Gated Adaptive Feature Fusion for Robust Skin Lesion Segmentation
-
把 Vision Mamba 状态空间建模塞进一个仅 0.494M 参数的轻量 U-Net,再用三个模块(多分支自适应 Mamba 融合 AMF、局部-全局特征混合 LGFM、跨门控注意力 CGA)分别强化多尺度融合、局部纹理与全局上下文交互、以及跳连精炼,在 ISIC2017/2018、HAM10000、PH2 四个皮肤病灶分割基准上取得平均 87.12% IoU / 93.09% Dice,超过一众 SOTA,且参数比 U-Net 少 93.6%、GFLOPs 少 97.6%。
- Masked-Diffusion Autoencoders for 3D Medical Vision Representation Learning
-
MDAE 把"空间掩码"和"扩散加噪"两种破坏同时施加到 3D 脑 MRI 体数据上,让一个时间条件化的网络同时学会重建被掩盖区域(抓全局解剖结构)和给可见区域去噪(抓细粒度组织纹理),在 16 个临床基准上把自监督预训练的平均 AUROC 推到域内 73.6%、跨模态 78.6%。
- MDCS-MoAME: Multi-directional Composite Scanning with Mixture of Attention and Mamba Experts for Cancer Survival Prediction
-
MDCS-MoAME 针对"千兆像素 WSI + 稀疏基因组"的癌症生存预测,提出对图像做五方向、对基因做间隔扫描的复合扫描策略(用 Mamba 抓长程依赖),再用"注意力与 Mamba 混合专家"按模态对动态选专家做跨模态融合,并加对齐约束去冗余,在 5 个 TCGA 数据集上把平均 c-index 提到 0.7383,全面 SOTA。
- Med-CMR: A Fine-Grained Benchmark Integrating Visual Evidence and Clinical Logic for Medical Complex Multimodal Reasoning
-
Med-CMR 把"医学多模态复杂推理"拆成 3 个视觉维度 + 4 个推理维度共 7 类任务,用 20,653 条经人类专家与模型双重审核的 VQA(覆盖 11 个身体系统、12 种成像模态)评测 18 个主流 MLLM,发现 GPT-5 以 57.81% MCQ 准确率领跑、长尾泛化是公认最难项、而医学微调模型并不能稳定胜过通用大模型。
- MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation
-
在冻结CLIP编码器的基础上,通过概率交叉模态注意力(PVL)实现图文双向交互与预测不确定性建模,配合软patch级对比损失,在16个医学分割数据集上兼顾数据效率、域泛化能力和可解释性。
- MedFG-VQA: Low-Frequency Memory and Graph Attention for Lightweight Medical VQA
-
MedFG-VQA 用「DCT 低频记忆库 + 图增强跨模态注意力」两个轻量模块武装一个 795M 的小模型,再配上 GPT-4o 生成的 206 万条合成医学 VQA 数据,在医学视觉问答上用远小于主流 VLM 的体量打出更高准确率。
- MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding
-
MedGRPO 提出了两项关键创新解决医学视频多数据集强化学习中的训练崩溃问题:跨数据集奖励归一化(用 logistic 函数将不同难度数据集的中位表现映射到相同奖励值)和医学 LLM 评审(通过五个临床维度的比较性评分),基于 Qwen2.5-VL-7B 在 MedVidBench(532K 视频指令对)上超越 GPT-4.1 和 Gemini-2.5-Flash。
- MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration
-
提出 MedKCO,一种知识驱动的认知编排策略用于医学视觉-语言预训练:通过分层课程(label-level 按诊断敏感度排序 + description-level 按样本代表性排序)和自步非对称对比损失,让模型从简单到复杂渐进学习,在三种医学模态的零样本和下游任务上显著超越基线。
- MedLoc-R1: Performance-Aware Curriculum Reward Scheduling for GRPO-Based Medical Visual Grounding
-
针对 GRPO 直接用于医学视觉定位时「固定 IoU 阈值奖励 → 早期全 0 奖励 → 梯度消失」的稀疏奖励难题,本文提出 MedLoc-R1,用一个滑动窗口性能追踪器 + 多条件更新准则,让 IoU 奖励阈值随模型能力从宽松(密集奖励)逐步收紧到严格(细粒度对齐),不加任何辅助网络就在三个医学定位基准上稳定提升精度与训练稳定性。
- MedMO: Grounding and Understanding Multimodal Large Language Model for Medical Images
-
MedMO 以 Qwen3-VL 为底座、用 26M+ 跨模态医学数据走"通用医学 SFT → 高分辨率定位 SFT → 指令微调 → 带边界框奖励的 GRPO 强化学习"四阶段后训练,把医学影像的理解(VQA / QA / 报告生成)和细粒度空间定位(bbox 接地)统一进一个开源 VLM,在多类临床任务上超过现有开源医学 MLLM。
- MedTVT-R1: A Multimodal LLM Empowering Medical Reasoning and Diagnosis
-
MedTVT-R1 把同一病人的心电图(时序)、胸片(图像)和化验单(表格)三种异构数据统一喂进一个 MLLM,靠"模态感知层 + 证据链指令数据 + GRPO 强化微调"实现可解释的多病共诊,在临床效价(F1、AUC)和长文本诊断生成上同时超过通用与医疗专用 MLLM。
- MicroFM: Physics-guided Flow Matching for Isotropic Microscopy Reconstruction
-
MicroFM 用物理 PSF 合成真实退化的训练数据、用隐式神经表示提供体几何先验,再用一个从低质量输入"锚定"出发的 Flow Matching 网络做荧光显微镜的各向同性重建,在四个显微系统上全面刷 SOTA。
- Mind the Discriminability Trap in Source-Free Cross-domain Few-shot Learning
-
揭示了在 VLM 的跨域小样本微调中,增强视觉判别性反而损害跨模态对齐("判别性陷阱"),提出 SVL + RA 两个即插即用模块来抑制视觉学习捷径并引导跨模态对齐,在 4 个 CDFSL 数据集和 11 个 FSL 数据集上取得 SOTA。
- MLLM-HWSI: A Multimodal Large Language Model for Hierarchical Whole Slide Image Understanding
-
针对现有计算病理 MLLM 把整张全切片图像(WSI)压成单个向量、丢掉细粒度空间语义的问题,本文提出 MLLM-HWSI,把 WSI 按「细胞=词、patch=短语、区域=句子、WSI=段落」分解成四个尺度的视觉 token,用层级对比对齐损失 + 跨尺度一致性损失把各尺度与病理报告对齐,再喂给指令微调的 LLM,在 6 类病理任务、13 个 WSI 级基准上刷新 SOTA。
- Modeling the Brain's Grammar: ROI-Guided fMRI Pretraining for Transferable and Interpretable Vision Decoding
-
ROITok 把 fMRI 跨被试预训练的基本单元从「整脑特征」换成「脑区 ROI token」,用稀疏 ROI 上下文融合学习脑区间的功能协同、再用 Matryoshka 式压缩让 token 按信息量排序,在 NSD / GOD 上拿到更强的低层重建保真度与小样本迁移能力,同时给出每个脑区对解码的可量化贡献,让模型更可解释。
- Momentum Memory for Knowledge Distillation in Computational Pathology
-
提出 MoMKD,用动量更新的类条件记忆库替代传统 batch-local 特征对齐,实现基因组→病理切片的跨模态知识蒸馏,仅用 H&E 切片推理即可获得基因组级预测能力。
- MR-RAG: Multimodal Relevance-Aware Retrieval-Augmented Generation for Medical Visual Question Answering
-
MR-RAG 在医学视觉问答的 RAG 流水线里同时改检索和生成两端:检索阶段用一个轻量 adapter 融合图-文、图-图、文-文三种相似度算出多模态相关性分数,生成阶段再把这个分数注入 LVLM 的注意力,让高相关文档的信息流被放大、噪声文档被抑制,在三个医学数据集上最高带来 6.4% 的准确率提升。
- MRI Contrast Enhancement Kinetics World Model
-
首次提出 MRI 造影增强动力学世界模型(MRI CEKWorld),通过时空一致性学习(STCL)在稀疏采样数据上实现从无造影 MRI 到连续高保真造影增强序列的生成,解决了内容失真和时序不连续两大难题。
- Multimodal Causality-Driven Representation Learning for Generalizable Medical Image Segmentation
-
针对医学图像因设备/光照/成像方式差异造成的域漂移,本文把这些差异显式建模成"混杂因子(confounder)",用 CLIP 文本提示构造混杂字典并通过后门调整(backdoor adjustment)做因果干预,在内镜分割上跨域平均 mDice 比最强基线再提 2.0%。
- MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning
-
提出 MMPFN,首次将预训练表格基础模型 TabPFN 扩展到多模态(表格+图像/文本)场景,通过多头门控 MLP(MGM)和交叉注意力池化器(CAP)解决非表格嵌入过压缩和 token 数量不平衡问题,在医学和通用数据集上超越 SOTA。
- MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification
-
提出 MUSE 框架,通过 MoE 驱动的样本级细粒度语义增强(SFSE)和基于 LLM 知识库的随机多视角语义优化(SMMO),在少样本全切片图像分类任务上显著提升泛化能力。
- MUST: Modality-Specific Representation-Aware Transformer for Diffusion-Enhanced Survival Prediction with Missing Modality
-
提出 MUST 框架,通过代数约束将多模态表征显式分解为模态特有和跨模态共享两部分,并用条件潜在扩散模型在模态缺失时生成特有信息,在五个 TCGA 癌症数据集上以 0.742 C-index 达到 SOTA,且在模态缺失场景下仅降约 0.4%-3.5%。
- MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy
-
提出 MuViT,一种基于世界坐标 RoPE 位置编码的多分辨率 Vision Transformer,能在单一编码器中联合处理同一场景不同物理分辨率的裁剪图,在显微镜图像分割任务上显著优于单分辨率基线。
- NeuroFlow: Toward Unified Visual Encoding and Decoding from Neural Activity
-
NeuroFlow 把"看图→脑信号"(编码)和"脑信号→看图"(解码)统一进同一个流模型:先用变分骨干 NeuroVAE 把 fMRI 压进一个语义结构化的隐空间,再用跨模态流匹配 XFM 在视觉隐分布与神经隐分布之间学一条可逆的连续流,正向积分做编码、反向积分做解码,仅用 MindEye2 约 25% 的参数就同时拿下两个任务的 SOTA 或可比表现。
- NeuroSeg Meets DINOv3: Transferring 2D Self-Supervised Visual Priors to 3D Neuron Segmentation via DINOv3 Initialization
-
NeurINO 提出通过将 DINOv3 预训练的 2D 卷积核膨胀(inflate)为 3D 算子来初始化 3D 神经元分割模型,同时引入拓扑感知骨架损失(TASL)显式监督骨架级结构保真性,在四个神经影像数据集上 ESA 平均提升 2.9%、DSA 提升 2.8%、PDS 提升 3.8%。
- OctoMed: Data Recipes for State-of-the-Art Multimodal Medical Reasoning
-
不靠新架构、不靠更大的 backbone,而是系统研究"训练数据怎么配"——用强教师蒸馏 + 拒绝采样筛出 800 万条带结构化推理链的医学样本(68 亿 token),把一个 7B 学生模型(Qwen2.5-VL-7B)微调成 OctoMed,在多个分布外医学基准上取得开源 SOTA,且模型能在没有显式监督的情况下自适应调整推理链长度。
- OmniBrainBench: A Comprehensive Multimodal Benchmark for Brain Imaging Analysis Across Multi-stage Clinical Tasks
-
OmniBrainBench 是首个覆盖脑影像分析完整临床流程的多模态 VQA 基准:从 30 个验证过的数据源采集 15 种成像模态、构建 9,527 条经放射科医生核验的问答对(31,706 张图),按"解剖识别→病灶定位→诊断推理→预后判断→治疗管理"五大临床阶段拆成 15 个多阶段任务,评测 24 个 SOTA 模型,揭示最强模型 Gemini-2.5-Pro(66.58%)仍远落后于医生(91.35%)。
- OmniFM: Toward Modality-Robust and Task-Agnostic Federated Learning for Heterogeneous Medical Imaging
-
提出 OmniFM,一个模态鲁棒且任务无关的联邦学习框架,通过频域频谱知识检索、嵌入式交叉注意力融合和前缀-后缀频谱提示三个互补组件,在一个统一的 FL pipeline 下支持分类、分割、超分辨率、VQA 和多模态融合五种医学影像任务,并在跨模态异构场景下显著超越现有基线。
- OralGPT-Omni: A Versatile Dental Multimodal Large Language Model
-
OralGPT-Omni 是首个牙科专用多模态大模型,通过构建模仿放射科医生诊断流程的 TRACE-CoT 思维链数据 + 四阶段渐进训练,在覆盖五模态五任务的统一基准 MMOral-Uni 上拿到 51.84 分,远超 GPT-5 的 15.42。
- OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis
-
OralGPT-Plus 把牙科全景 X 光诊断从"单次前向"的 VLM 改造成一个会自己调"放大"和"镜像对比"工具、像牙医一样迭代复查的智能体,靠专家轨迹指令微调 + 复查驱动的强化学习训练,在自建的 MMOral-X 等基准上稳定超越 GPT-5 等强基线。
- OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation
-
提出 OraPO(Oracle-educated GRPO),在 GRPO 探索失败时注入轻量 DPO 监督将失败 rollout 转化为偏好样本,配合 FactScore 奖励实现仅用 1K 样本、3B 小模型在 CheXpert Plus 和 MIMIC-CXR 上达到放射报告生成 SOTA(F1=0.341/0.357),训练数据量比前最优减少 2-3 个数量级。
- OSA: Echocardiography Video Segmentation via Orthogonalized State Update and Anatomical Prior-aware Feature Enhancement
-
OSA 把超声心动图视频里的左心室时序记忆更新约束到 Stiefel 流形上(正交化状态更新),再配一个把解剖结构和散斑噪声物理解耦的特征增强模块,在 CAMUS 和 EchoNet-Dynamic 上以实时速度刷新了分割精度与时序稳定性。
- PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection
-
本文用 Grad-CAM 分析揭示工业异常检测里好用的判别式激活图在医学图像上失效,进而提出 PDD:把冻结的 VMamba-Tiny(全局上下文先验)与 wide-ResNet50(局部结构先验)两个异构教师的特征统一到同一个高维流形,再蒸馏给两个行为互补的学生,靠多样性损失防止表示坍缩,在 HeadCT / BrainMRI / ZhangLab 上 AUROC 分别比最优基线高 11.8 / 8.5 / 2.9 个点。
- Personalized Longitudinal Medical Report Generation via Temporally-Aware Federated Adaptation
-
本文提出"联邦时间适应"(FTA)这一把时间演化当作一等公民的联邦学习设定,并用 FedTAR 框架——以人口学信息驱动的个性化 LoRA + 元学习时间残差聚合——在隐私约束下建模患者随访的纵向变化,在 J-MID(约 100 万次检查)和 MIMIC-CXR 上同时提升了语言准确度、时间连贯性和跨机构泛化。
- PETAR: Localized Findings Generation with Mask-Aware Vision-Language Modeling for PET Automated Reporting
-
针对 3D 全身 PET/CT 报告生成中「病灶极小(<0.1% 体积)、感兴趣区分散、且缺乏掩码-文本对齐数据集」三大难题,本文同时给出了首个病灶级对齐的公开数据集 PETARSeg-11K 和一个掩码感知的 3D 视觉语言模型 PETAR-4B,靠「掩码条件 + 焦点提示」把小病灶看清,在所有自动指标上大幅超越 2D/3D baseline,并通过首个 PET 报告人评研究(5 名核医学医师)验证了临床可用性。
- PGR-Net: Prior-Guided ROI Reasoning Network for Brain Tumor MRI Segmentation
-
PGR-Net 提出了一种显式 ROI 感知的脑肿瘤 MRI 分割网络,通过从训练集构建数据驱动的空间先验模板、层级 Top-K ROI 选择机制和窗口高斯-空间衰减引导模块(WinGS-ROI),将计算资源集中于病灶区域,仅用 8.64M 参数就在 BraTS-2019/2023 和 MSD Task01 上达到了 SOTA。
- Phrase-grounded APO for Improving Chest X-ray Report Generation
-
本文提出"短语级定位的自动偏好优化(APO)":在推理阶段、无需任何额外真值的前提下,用事实核查模型 + LLM 纠错把放射报告生成器自己的输出改成"偏好/非偏好"对,再用一个把偏好对齐损失和短语定位损失结合的新 APO 损失轻量更新模型权重,在多机构胸片数据集上让 7 个 SOTA 报告生成器的报告质量平均提升约 30–40%。
- PMRNet: Physics-informed Multi-scale Refinement Network for Medical Image Segmentation
-
PMRNet 不靠堆参数,而是把辛几何、重整化群、热扩散三种物理先验编进网络结构,用 0.87M 参数 / 3.43 GFLOPs 在 12 个医学分割数据集上超过参数量大 10–100 倍的 SOTA,并保持 152 FPS 实时推理。
- Post-training Feature Pruning for Fundus Images Classification
-
GFP 是一种训练后、与架构无关的特征剪枝框架——冻结 backbone,只对最后展平的特征向量做"贪心 + 最小保留比"的子集选择,删掉冗余维度后在 5 个眼底数据集上常能提升 AUROC/AUPRC,同时砍掉 4%–96% 的特征维度并改善跨数据集泛化。
- Prospective Dynamic 3D MRI Reconstruction via Latent-Space Motion Tracking from Single Measurement
-
PDMR 把动态 3D MRI 的运动(形变场 DVF)压到一个低维非线性流形上离线学好,在线时只需对单次瞬时 k-space 测量优化一个 12 维隐向量,就能在超稀疏采样下实时重建出当前时刻的高保真 3D 图像,用于 MR 引导放疗等前瞻式场景。
- R2-Seg: Training-Free OOD Medical Tumor Segmentation via Anatomical Reasoning and Statistical Rejection
-
R2-Seg 是一个完全不更新参数的免训练框架,靠"先推理后拒绝"(Reason-and-Reject)两步——先用 LLM 做解剖推理规划出 ROI,再用两样本统计检验(MMD² + FDR 控制)过滤冻结基础模型(BiomedParse)在 ROI 内产生的候选——把分布外(OOD)肿瘤分割的假阳性压下去,从而在多中心多模态肿瘤数据上同时提升 Dice、特异度和敏感度。
- RDFace: A Benchmark Dataset for Rare Disease Facial Image Analysis under Extreme Data Scarcity and Phenotype-Aware Synthetic Generation
-
构建了包含 456 张儿童面部图像、覆盖 103 种罕见遗传疾病的标准化基准数据集 RDFace,并系统研究了表型感知的合成数据增强(DreamBooth/FastGAN)在超低样本罕见病诊断中的效果,DreamBooth 增强在极端低数据场景下最高可提升 13.7% 的诊断准确率。
- Real2Sim2Real: RetinalDepth-64K for Depth Estimation in Posterior Segment Ophthalmic Surgery
-
针对眼底(后段)显微手术缺乏深度真值数据这一空白,作者用 Blender 走通一条 Real2Sim2Real 流水线,构建了首个后段眼科手术合成深度数据集 RetinalDepth(44,800 对双目立体序列、896 个场景,带像素级深度/法线/器械分割/相机参数),并提出时序深度方差 TDV 指标衡量视频深度的帧间稳定性,证明在该数据上微调能显著提升单目/立体/视频深度模型在真实眼底手术场景的泛化。
- Reclaiming Lost Text Layers for Source-Free Cross-Domain Few-Shot Learning
-
发现 CLIP 文本编码器中存在"Lost Layers"——在 Source-Free Cross-Domain Few-Shot Learning (SF-CDFSL) 中移除某些中间层反而提升性能;论文证明这些层并非冗余而是因视觉域偏移未被充分利用,提出 VtT 模型在层级和编码器级别重新利用这些信息,取得 SOTA。
- Revisiting 2D Foundation Models for Scalable 3D Medical Image Classification
-
在冻结的 2D 基础模型上只加约 1M 参数的轻量任务插件(LoRA 适配 + 置换不变的切片注意力聚合),就能让单一框架在 12 个不同病灶/部位/模态的 3D 医学分类任务上达到 SOTA(含 VLM3D 挑战赛第一),并系统揭示了「2D 方法在 3D 分类上优于 3D 架构、通用 FM 适配后能追平医学 FM」等反直觉结论。
- SAR2Net: Learning Spatially Anchored Representations for Retrieval-Guided Cross-Stain Alignment
-
SAR2Net 把 HE↔IHC 全切片图像(WSI)的跨染色对齐从"估计形变变换"重构为"区域级特征检索"——给每个点学一套只依赖坐标、对锚点相对几何编码的"空间锚定表示",无需任何全局粗对齐就能在严重组织形变和断裂下完成稳健的区域对应,在自建活检数据集上 mIoU 从最强基线的 0.691 提到 0.899。
- SAT-RRG: LLM-Guided Self-Adaptive Training for Radiology Report Generation with Token-Level Push–Pull Optimization
-
SAT-RRG 用一个冻结的 LLM 当"裁判"逐 token 标出生成报告里的语义错误,再用一对"推-拉"损失(压低错词、强化对词)配合熵-置信度自适应加权,把交叉熵训练改造成能自我纠错的过程,在 MIMIC-CXR 与 IU-Xray 上同时刷高语言指标和临床指标,且推理零额外开销。
- SPECTRE:面向体积 CT Transformer 的自监督与跨模态预训练
-
SPECTRE 是一个纯 Transformer 的体积 CT 基础模型:用各向异性 3D tokenization + 局部/全局两级 ViT + 3D RoPE 解决体积 CT「token 立方爆炸、几何各向异性、临床监督弱噪」三大难题,再用「DINOv3 自监督 → SigLIP 视觉-语言对齐」两阶段预训练,只用公开 CT 数据就在生物标志物分类、分割、跨模态检索上超过既有 CT 基础模型。
- SD-FSMIS: Adapting Stable Diffusion for Few-Shot Medical Image Segmentation
-
提出 SD-FSMIS,一个将预训练 Stable Diffusion 适配到少样本医学图像分割的框架,通过支持-查询交互模块和视觉到文本条件转换器实现高效适配,在跨域场景中表现尤为突出。
- SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation
-
SegMoTE 冻结整个 SAM、只在掩码解码器里塞进一组可学习"专家 token"和一个 token 级 MoE 路由(MoTE),按成像模态动态选专家,再配一个渐进式提示 tokenization(PPT)实现免交互分割;仅训练 17M 参数、用不到现有数据集 1% 规模的 MedSeg-HQ(约 0.15M mask),就在多模态医学分割上达到 SOTA。
- Semi-supervised Echocardiography Video Segmentation via Anchor Semantic Awareness and Continuous Pseudo-label Reforging
-
EchoForge 用一组可学习锚点重校准超声噪声区域、跨帧传播解剖语义原型,再用"渐进重铸"的伪标签策略充分利用未标注帧,从而在只有 ED/ES 两帧标注的极稀疏监督下实现实时且精准的超声心动图视频分割。
- SemiGDA: Generative Dual-distribution Alignment for Semi-Supervised Medical Image Segmentation
-
SemiGDA 把半监督医学图像分割从"逐像素判别"换成"生成式范式":用两个结构不同的编码器分别建模图像和掩码的隐空间先验分布并强制对齐,再借冻结的 Stable Diffusion VAE 解码器配合轻量 skip adapter 直接"生成"分割掩码,在结肠镜、皮肤镜、病理、超声四类数据集的 10%/30% 标注设定下全面超过 11 个 SOTA 半监督方法(如 BUSI 10% 标注下 Dice 比次优高 10 个点)。
- SHAPE: Structure-aware Hierarchical Unsupervised Domain Adaptation with Plausibility Evaluation for Medical Image Segmentation
-
SHAPE 把跨模态医学分割的无监督域适应从「局部像素正确」重塑为「全局解剖合理」:在冻结的 DINOv3 上做类感知的分层特征调制(HFM)生成高保真特征,再用超图合理性评估(HPE)从解剖形状与布局两个层面给伪标签打分、用结构异常剪枝(SAP)剔除幻觉类别,从而只用通过合理性检验的高质量伪标签做自训练,在心脏与腹部跨模态基准上刷新 SOTA。
- Simple-ViLMedSAM: Simple Text Prompts Meet Vision-Language Models for Medical Image Segmentation
-
Simple-ViLMedSAM 用一个「隐式位置提示器(IPP)+ 双向交互解码器(BID)」把 CLIP 和 SAM 串起来,让用户只输入「polyp」「lung」这类最朴素的类别词就能驱动医学图像分割——不再需要专家点框,也不需要堆砌的临床描述,在四个公开数据集的零样本/少样本任务上全面超过现有 SAM 系方法。
- SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking
-
作者把现成的 2D 脊柱检测器、多视角几何三角化和 OpenSim 肌骨逆运动学串成一条"生物力学感知"的模拟标注流水线,给 Human3.6M 自动补上 15 个解剖一致的椎体级 3D 关键点与逐椎旋转,做出首个开放的 3D 脊柱运动数据集 SIMSPINE(214 万帧),并配齐 2D/3D 基线把室内脊柱跟踪的 AUC 从 0.63 提到 0.80。
- Sketch2CT: Multimodal Diffusion for Structure-Aware 3D Medical Volume Generation
-
Sketch2CT 让用户用一张 2D 草图加一段文本描述,先经双模态融合生成解剖一致的 3D 分割掩码、再用分割条件的潜扩散合成对应的 3D CT 体,实现低成本、可控、保结构的医学体数据增广。
- Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors
-
提出 InvTag 框架,首次将 MR 物理前向模型与预训练扩散生成先验结合,统一解决 3D Tagged MRI 的解剖恢复、Cine 合成和运动估计三大子任务,且无需任何额外训练数据。
- STEPH: Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in WSI Prognosis
-
STEPH 提出基于任务向量混合(TVM)+ 超网络驱动稀疏聚合的模型合并方案,将多个癌种特定预后模型的知识高效融入目标癌种模型,在 13 个 TCGA 数据集上 C-Index 平均 0.6949(+5.14% vs 癌种特定学习、+2.01% vs ROUPKT),且推理仅需单模型前向传播,远低于多模型表示迁移方案。
- SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation
-
提出 SPEGC 框架,通过语义提示增强特征 + 可微分图聚类求解器,将原始相似度矩阵精炼为高阶结构表示,用于指导医学图像分割模型在持续变化的目标域上自适应,有效缓解误差累积与灾难性遗忘。
- Splat-Based Metal Artifact Reduction in Cone-Beam CT via Compact Attenuation Modeling
-
把"能量依赖的材料衰减"压缩成每个高斯一个标量参数(沿 Bézier 曲线插值 MAC),并将可微多色 Beer–Lambert 前向投影嵌入高斯泼溅,从而在不需要金属 mask的前提下联合优化几何与材料,CBCT 金属伪影去除比 Polyner 等神经场方法又快一个数量级、结构保真度还更高。
- SurgCoT: Advancing Spatiotemporal Reasoning in Surgical Videos through a Chain-of-Thought Benchmark
-
本文构建了首个跨专科的手术视频时空推理基准 SurgCoT(7 个外科专科、35 种术式、2841 段视频、19345 主问题 + 59177 子问题),用「三阶段渐进推理 + 五元组标注协议(Question→Option→Knowledge→Clue→Answer)」把手术 CoT 推理拆成「视频级→片段级→帧级」层级链,评测 10 余个主流 MLLM,发现它们在细粒度时空推理上普遍存在显著差距,而该结构化协议能稳定提升渐进推理准确率。
- Synergistic Bleeding Region and Point Detection in Laparoscopic Surgical Videos
-
构建首个腹腔镜手术出血区域+出血点标注数据集 SurgBlood,并提出基于 SAM2 的双分支双向引导在线检测器 BlooDet,通过 Mask/Point 分支协同优化实现出血区域分割与出血点定位的联合检测。
- TAlignDiff: Automatic Tooth Alignment assisted by Diffusion-based Transformation Learning
-
TAlignDiff 用一个点云回归网络(PRN)从术前牙齿点云直接预测每颗牙的 4×4 变换矩阵,再训一个轻量扩散模型(DTMD)把"临床上合法的变换矩阵长什么样"学成隐分布,用一条对比去噪损失把回归输出往这个分布拉,从而在点云几何对齐之外额外约束了变换矩阵的统计特性,TRE/AAE 误差全面优于现有方法。
- TAMER: A Tri-Modal Contrastive Alignment and Multi-Scale Embedding Refinement Framework for Zero-Shot ECG Diagnosis
-
TAMER 把心电图(ECG)波形、STFT 频谱图和临床诊断报告当成三个互补模态做自监督预训练,通过"时-频"全局/局部对齐 + "报告锚定"的诊断级与波形级细化,在三个公开数据集上拿到了零样本分类(平均 AUC 81.2%)和跨域迁移(83.1%)的 SOTA。
- TANGO: Learning Distribution-wise Foundation Prior Consistency and Instance-wise Style Calibration for Medical Image Generalization
-
TanGo 把视觉基础模型(SAM/DINOv2)的低频泛化先验在训练阶段蒸馏进轻量分割源模型、在测试阶段用可学习的逐样本"装饰器"把漂移的测试图像拉回增强后的源分布,从而在持续测试时适应(CTTA)的医学图像分割上拿到 SOTA。
- Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model
-
提出 Tell2Adapt 统一框架,利用视觉基础模型(BiomedParse)的泛化知识,通过上下文感知提示正则化(CAPR)生成高质量伪标签,再经视觉合理性精炼(VPR)去除解剖学不合理预测,实现跨 10 个域迁移方向、22 个解剖目标的统一无源域自适应医学图像分割。
- Temporal Inversion for Learning Interval Change in Chest X-Rays
-
TILA 用"把成对胸片前后调换顺序(时间反转)"作为监督信号,在预训练/微调/推理三个阶段都加上反转感知目标,让现有时序视觉语言模型真正学会判断病灶是"变好还是变坏",而不是只识别有没有病灶。
- The Invisible Gorilla Effect in Out-of-distribution Detection
-
揭示了OOD检测中一个此前未被报告的偏差——"隐形大猩猩效应":当OOD伪影与模型关注区域(ROI)视觉外观相似时检测性能显著更好,不相似时则大幅下降,尤其影响基于特征的OOD方法。
- TIM: Temporal Decoupling with Iterative Mutual-Refinement Model for Longitudinal Radiology Report Generation
-
TIM 把纵向放射报告生成拆成「静态病理识别」和「动态进展建模」两条解耦分支,再用一个让先前报告与当前报告互相纠错的迭代精修阶段反复打磨,在 Longitudinal-MIMIC 上把语言与临床指标都刷到了新 SOTA。
- TopoCL: Topological Contrastive Learning for Medical Imaging
-
TopoCL 给标准对比学习补上「拓扑」这一课——用相对瓶颈距离设计可控的拓扑感知增强、用分层拓扑编码器把持续同调图编码成特征、再用混合专家模块自适应融合视觉与拓扑表征,能即插即用地挂到 SimCLR/MoCo-v3/BYOL/DINO/Barlow Twins 上,在五个医学数据集上平均线性探测准确率涨 3.26%。
- TopoSlide: Topologically-Informed Histopathology Whole Slide Image Representation Learning
-
TopoSlide 把病理学家"先看局部组织、再看整体空间排布"的诊断逻辑写进自监督目标:先把千万级 patch 聚类成组织学簇,再用持久同调把每个簇的空间排布编码成拓扑描述子,最后让 ViT 在条件多任务目标下从切片级表征反推这些拓扑——仅用几百张切片训练,组织学模式检索的 Macro F1 比用十万级切片训练的基础模型最高高出约 15%。
- TRCoRSurg: Temporal-Relational Co-Reasoning for Surgical Video Triplet Recognition
-
TRCoRSurg 把手术视频里
<器械, 动作, 目标>三元组识别拆成"帧内标签依赖 + 帧间时序语义"两条线,用 GCN 建标签图(节点融合语义先验与 CAM 视觉证据、边由 MS-CAMRE 自适应学共现)再用双向门控注意力 BTRFA 让时序与关系两路互相校正,在 CholecT45 / ProstaTD 上 APIVT 分别提升 5.1% / 7.8%,并提出 TCER 指标专门衡量三元组组合一致性。 - Turning Pre-Trained Vision Transformers into End-to-End Histopathology Whole Slide Image Models for Survival Prediction
-
作者发现预训练 ViT 在病理图像上学到的跨 patch 交互先验可以外推到更长的 token 序列,于是提出 E2E-ViT:只改输入排布、加一个无参 patch 合并、把绝对位置编码换成 ALiBi,不增加任何可学习参数就把一个 tile 级 ViT 直接变成端到端的 WSI 模型,在五个生存预测任务上同时超过两阶段 MIL 和切片基础模型(SFM)。
- Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding
-
这篇论文的核心贡献不是只做了一个“超声版 CLIP”,而是围绕超声特有的解剖层级和诊断属性重新定义了图文对齐目标:先构建超声知识体系 UDT 和大规模 US-365K 数据集,再用语义软标签与属性异构图把文本里的临床关系显式注入对比学习,从而得到更像“懂超声”的视觉语言表示。
- Uni-Encoder Meets Multi-Encoders: Representation Before Fusion for Brain Tumor Segmentation with Missing Modalities
-
UniME 用「表征先于融合」的两阶段异构设计解决缺失模态下的脑肿瘤分割:阶段一用单个 ViT Uni-Encoder 做掩码自监督预训练、学到对缺失模态鲁棒的统一表征,阶段二再并联多个模态专属 CNN Multi-Encoders 补回高分辨细节,在 BraTS 2023/2024 上对各种缺模态组合的平均 DSC 都超过此前 SOTA(ET 提升 2.4%~2.9%)。
- Uni-Hema: Unified Model for Digital Hematopathology
-
Uni-Hema 用一个统一架构(CNN+Transformer 视觉支路 + T5 文本支路 + 名为 Hema-Former 的多模态融合模块)一次性训练,就能在血液病理上同时做检测、分类、分割、形态学预测、视觉问答和掩码语言建模六类任务,跨白血病/疟疾/贫血/镰刀型细胞病等六种疾病,效果与逐任务逐数据集训练的单任务 SOTA 相当甚至更好。
- Universal-to-Specific: Dynamic Knowledge-Guided Multiple Instance Learning for Few-Shot Whole Slide Image Classification
-
DyKo 把病理 VLM 的"静态通用文本描述"换成"针对每张切片动态实例化的知识"——先聚类出切片专属的视觉原型、再用原型去概念库检索并合成每个 patch 的知识特征,并用结构一致性损失把合成知识锚定回视觉证据,在四个真实癌症数据集的 4/8/16-shot 设置下全面超越现有 MIL 与 prompt 方法。
- Unlocking Positive Transfer in Incrementally Learning Surgical Instruments: A Self-reflection Hierarchical Prompt Framework
-
这篇论文把每个器械类的提示参数从“彼此隔离的独立 prompt”改造成“共享知识逐层拆解的树结构”,让新器械可以继承旧知识快速学会,同时让新知识反过来温和修正旧知识,从而在手术器械类增量分割中同时提升新类、常见类和旧类表现。
- URICA: A Uniformity Region Affine Identifier Capture Algorithm for Arbitrary Region Retrieval in Pathology Images
-
URICA 把全切片病理图像(WSI)的区域检索重新定义成「任意空间变换下的语义最优匹配问题」,用语义镶嵌(semantic tessellation)把基础模型的 patch 特征组织成几何感知的区域描述子,再用对旋转/缩放不变的「仿射标识符」做一致性匹配,在 24,811 张 TCGA WSI 上把切片级检索准确率做到 98.38%,并首次支持任意朝向、任意大小区域的检索。
- VesMamba: 3D Pulmonary Vessel Segmentation from CT images via Mamba with Structural Perception and Scale-aware Filtering
-
VesMamba 把 Mamba 改造成能感知 3D 血管空间各向异性的分割骨干——用动态方向卷积给 Mamba 补上空间感知、用双向尺度滤波在编码器各层抑噪、再用高层 mask 约束低层解码器,在 Parse22 和自建 Lung79 上以约 1/4 的计算量超过一众 CNN / Transformer / Mamba SOTA。
- Virtual Full-stack Scanning of Brain MRI via Imputing Any Quantised Code
-
提出 CodeBrain,将脑 MRI 任意到任意模态补全问题重新表述为区域级全栈量化码预测任务,通过两阶段流程(标量量化重建 + 分级损失码预测)实现统一的缺失模态合成,超越五种 SOTA 方法。
- Virtual Immunohistochemistry Staining with Dual-Aligned Multi-Task Feature Guidance
-
把 H&E 病理图翻译成虚拟免疫组化(IHC)图时,配对图像之间天然存在空间错位、单一辅助任务监督又太弱;本文用一组辅助任务模型抽取多任务特征,先做空间对齐再做任务差距对齐(双对齐),把这些语义特征喂给虚拟染色生成器做特征级引导,在 BCI / MIST 两个公开数据集的 FID/KID/LPIPS 上稳定超过 7 个 SOTA。
- Virtual Nodes Guided Dynamic Graph Neural Network for Brain Tumor Segmentation with Missing Modalities
-
把每个 MRI 模态当作图节点、给每个模态配一组零初始化的可学习"虚拟节点",再用一套随可用模态动态改写邻接矩阵的图注意力网络做融合,从而用单阶段训练就能鲁棒地处理任意模态缺失下的脑肿瘤分割,在 BraTS-2018/2020 上几乎所有缺失子集都超过 SOTA。
- VoxTell: Free-Text Promptable Universal 3D Medical Image Segmentation
-
VoxTell 是一个 3D 视觉-语言分割模型,用一句话(单词到整段临床报告)作为提示就能直接生成体积掩码,靠在 UNet 解码器每一层反复注入文本引导(多阶段融合)+ 深监督,在 11 个未见数据集上零样本平均 Dice 70.85,远超此前最强文本可提示方法 SAT(51.23)。
- X-PCR: A Benchmark for Cross-modality Progressive Clinical Reasoning in Ophthalmic Diagnosis
-
X-PCR 把眼科诊断拆成"图像质量评估→解剖定位→病灶刻画→疾病诊断→严重度分级→临床决策"六个带因果依赖的推理阶段,并跨 6 种眼科成像模态做语义对齐,构建出含 26,415 张图、177,868 条专家校验 VQA 的 benchmark;对 21 个 MLLM 的评测显示它们在链式推理(最强 GPT-5 的全链完成率仅 24.47%)和跨模态整合上离专科医生差得很远。
- X-WIN: Building Chest Radiograph World Model via Predictive Sensing
-
提出 X-WIN 胸片世界模型,首次将 3D CT 空间知识融入 CXR 表征学习:通过学习预测 CT 在不同旋转角度下的 2D 投影来内化 3D 解剖结构,配合亲和力引导的对比对齐和结构保持域自适应,在 6 个 CXR 基准上通过线性探测取得 SOTA。