跳转至

🏥 医学图像

🎞️ ECCV2024 · 31 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (40) · 📷 CVPR2026 (153) · 🔬 ICLR2026 (72) · 🤖 AAAI2026 (105) · 🧠 NeurIPS2025 (141) · 📹 ICCV2025 (40)

🔥 高频主题: 医学影像 ×17 · 少样本学习 ×3 · 扩散模型 ×3 · 语义分割 ×3 · 自监督学习 ×2

A Cephalometric Landmark Regression Method Based on Dual-Encoder for High-Resolution X-Ray Image

本文提出 D-CeLR,一种基于双编码器(Dual-Encoder)的端到端回归方法,仅利用 Transformer 编码器设计特征提取+参考编码器+精调编码器的三阶段架构,实现从粗到细的头影测量标志点检测,在 Mean Radical Error (MRE) 和 2mm Success Detection Rate (SDR) 指标上显著超越现有 SOTA。

A Rotation-Invariant Texture ViT for Fine-Grained Recognition of Esophageal Cancer Endoscopic Ultrasound Images

本文提出 SRRM-ViT,通过在 ViT 中引入统计旋转不变性增强机制(SRRM),自适应选择关键区域并融合直方图统计特征,实现了对食管癌内镜超声图像中任意径向位置病灶的无偏细粒度分类,在临床和公开数据集上取得了显著性能提升。

AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection

在CLIP中同时引入静态(全局共享)和动态(逐图生成)两种可学习提示,用辅助异常检测数据训练后,在14个工业+医学异常检测数据集上实现零样本SOTA,核心在于"任务级+实例级"双层自适应的混合提示设计。

Adaptive Compressed Sensing with Diffusion-Based Posterior Sampling

提出AdaSense,利用预训练扩散模型的零样本后验采样来量化重建不确定性,从而自适应地选择最优测量矩阵,无需额外训练即可在人脸图像、MRI和CT等多领域实现优于非自适应方法的压缩感知重建。

Adaptive Correspondence Scoring for Unsupervised Medical Image Registration

针对医学图像无监督配准中噪声、遮挡等干扰因素导致的虚假重建误差问题,提出了一个自适应对应关系评分框架(AdaCS),通过学习像素级的对应置信度图来重新加权误差残差,以即插即用方式一致提升三种主流配准架构在三个数据集上的性能。

Alternate Diverse Teaching for Semi-supervised Medical Image Segmentation

提出 AD-MT(Alternate Diverse Mean Teacher),通过随机周期性交替更新两个教师模型 + 基于熵的冲突调和策略,在半监督医学分割中解决 confirmation bias 问题,在 ACDC/LA/Pancreas 上全面超越 SOTA。

Architecture-Agnostic Untrained Network Priors for Image Reconstruction with Frequency Regularization

提出三种与架构无关的频率正则化技术(带宽受限输入、带宽可控上采样、Lipschitz 正则化卷积层),统一解决 untrained network prior 的架构敏感性、过拟合和运行效率问题,在 MRI 重建任务中显著缩小不同架构间的性能差距。

Brain-ID: Learning Contrast-agnostic Anatomical Representations for Brain Imaging

本文提出 Brain-ID,一种对比度无关的脑解剖表征学习模型,通过"轻度到重度"的受试者内图像合成策略,在全合成数据上训练获得对MRI对比度、分辨率、方向和伪影鲁棒的解剖特征,仅需一层适配即可在四种下游任务和六个公开数据集上达到 SOTA。

CardiacNet: Learning to Reconstruct Abnormalities for Cardiac Disease Assessment from Echocardiogram Videos

提出基于重建的心脏疾病评估框架 CardiacNet,通过 Consistency Deformation Codebook (CDC) 和 Consistency Deformation Discriminator (CDD) 学习正常与异常心脏超声视频之间的结构和运动差异,在射血分数预测、肺动脉高压和房间隔缺损分类三个任务上达到 SOTA。

Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild

提出 Chameleon,一个基于 meta-learning 和 token matching 的数据高效视觉通才模型,仅需几十张标注图像即可适应全新的密集预测任务(包括医学图像、视频、3D 等),在六个下游基准上显著超越现有通才方法。

CheX: Interactive Localization and Region Description in Chest X-rays

提出ChEX——一个同时支持文本提示和边界框查询的交互式胸部X光解释模型,通过DETR风格的prompt检测器和多任务联合训练,在9个胸部X光任务上与SOTA竞争,同时提供独特的定位可解释性和用户交互能力。

Co-synthesis of Histopathology Nuclei Image-Label Pairs using a Context-Conditioned Joint Diffusion Model

提出一种上下文条件化的联合扩散模型,能够同时合成组织病理学细胞核图像、语义标签和距离图,通过点图(centroid layout)和文本提示两种条件实现对合成过程的精确控制,并生成高质量的实例级标签用于下游核分割和分类任务。

Domesticating SAM for Breast Ultrasound Image Segmentation via Spatial-Frequency Fusion and Uncertainty Correction

本文提出 SF-RecSAM 模型,通过空间-频率特征融合模块弥补SAM在低级特征提取上的不足,并设计双假校正器(Dual False Corrector)利用不确定性估计识别并修正假阳性和假阴性区域,在BUSI和UDIAT两个乳腺超声数据集上显著超越SOTA方法。

Energy-induced Explicit Quantification for Multi-modality MRI Fusion

提出能量引导的显式传播与对齐框架E²PA,通过能量引导的层级融合(EHF)和能量正则化的空间对齐(ESA)两个模块,显式量化并优化多模态MRI融合中的模态间依赖传播和信息流一致性,在三个公开数据集上超越SOTA。

GTP-4o: Modality-Prompted Heterogeneous Graph Learning for Omni-Modal Biomedical Representation

提出基于异构图的全模态生物医学表征学习框架 GTP-4o,通过异构图嵌入显式建模跨模态关系,利用图提示机制补全缺失模态,并设计知识引导的层次化跨模态聚合,在胶质瘤分级和生存预测任务上取得SOTA。

GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation

提出 GTP-4o,一种基于异构图的全模态生物医学学习框架,通过图提示机制补全缺失模态、知识引导的层次聚合融合基因组学/病理图像/细胞图/文本四种异构临床模态。

I-MedSAM: Implicit Medical Image Segmentation with Segment Anything

提出 I-MedSAM,将 SAM 的强泛化能力与隐式神经表示(INR)的连续空间预测优势结合,通过频率适配器增强边界高频信息、不确定性引导采样精细化分割,仅用 1.6M 可训练参数即超越现有离散和隐式方法。

Improving Medical Multi-modal Contrastive Learning with Expert Annotations

提出 eCLIP,通过整合放射科专家的眼动注视热力图作为额外监督信号,结合 mixup 增强和课程学习策略,在不修改 CLIP 核心架构的前提下增强医学多模态对比学习的表征质量。

Improving Medical Multi-modal Contrastive Learning with Expert Annotations

提出eCLIP,通过引入放射科医生的眼动热力图(eye-gaze heatmap)作为专家标注,利用热力图处理器和mixup增强策略扩充高质量正样本对,有效缓解医学CLIP中的"模态间隙"问题,在零样本推理、线性探测、跨模态检索和RAG报告生成等任务上取得一致性提升。

Is User Feedback Always Informative? Retrieval Latent Defending for Semi-Supervised Domain Adaptation without Source Data

发现用户反馈在域适应中并非总是有益——偏向纠正错误预测的"负偏反馈"(NBF)会导致现有半监督域适应方法性能下降,并提出 Retrieval Latent Defending 方法,通过在每个 mini-batch 中加入伪标签防御样本来平衡监督信号。

OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding

构建了OphNet——目前最大规模的眼科手术视频基准数据集(2278个视频、285小时、66种手术类型、102种手术阶段、150种精细操作),支持手术类型识别、阶段识别、时序定位和阶段预测四大任务,其规模约为现有最大手术工作流分析基准的20倍。

Pathology-knowledge Enhanced Multi-instance Prompt Learning for Few-shot Whole Slide Image Classification

提出 PEMP 框架,将病理学先验知识(视觉样例 + 文本描述)融入 patch 级和 slide 级的 prompt 中,结合 CLIP 进行多实例 prompt learning,在少样本弱监督 WSI 分类任务上平均超越 SOTA 方法 4%。

Pathology-knowledge Enhanced Multi-instance Prompt Learning for Few-shot Whole Slide Image Classification

提出 PEMP——病理知识增强的多实例提示学习框架,将视觉和文本病理先验(典型 patch/slide 示例 + 语言描述)注入 CLIP 的提示中,在 patch 和 slide 两个层级进行对比学习,显著提升少样本全切片图像(WSI)分类性能。

RadEdit: Stress-Testing Biomedical Vision Models via Diffusion Image Editing

提出 RadEdit,一种基于扩散模型的医学图像编辑方法,通过引入 edit mask 和 keep mask 的双重掩码机制,打破数据中的虚假关联(spurious correlations),生成高质量的合成测试集来压力测试(stress-test)生物医学视觉模型对数据集偏移的鲁棒性。

Radiative Gaussian Splatting for Efficient X-ray Novel View Synthesis

提出 X-Gaussian,首个将 3D 高斯泼溅(3DGS)应用于 X 射线新视角合成的框架,通过设计辐射高斯点云模型(替代球谐函数)和角度位姿长方体均匀初始化策略(替代 SfM),在性能上超越 SOTA NeRF 方法 6.5 dB 的同时,实现 73× 推理加速和仅 15% 的训练时间。

Shape-Guided Configuration-Aware Learning for Endoscopic-Image-Based Pose Estimation of Flexible Robotic Instruments

利用柔性机器人的3D形状先验引导图像特征学习,通过部件级几何表示提取和动态形状变形机制,实现了高精度的内窥镜图像柔性机器人位姿估计,在外部朝向和内部弯曲角度估计上显著超越了关键点、骨架和直接回归等基线方法。

NePhi: Neural Deformation Fields for Approximately Diffeomorphic Medical Image Registration

NePhi 提出用神经隐式函数(SIREN)替代传统体素形变场来表示图像配准中的形变,通过编码器预测潜码实现快速推理、通过实例优化提升精度,在肺部和脑部 3D 配准任务中匹配 SOTA 精度的同时将训练内存降低 5 倍,且天然产生近似微分同胚的光滑形变。

TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data

提出 TIP 框架,通过掩码表格重建、图像-表格匹配和对比学习三种自监督任务,对表格数据和图像进行联合预训练,学习对不完整表格数据鲁棒的多模态表征,用于下游分类任务。

TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data

提出TIP框架,通过掩码表格重建、图像-表格匹配和对比学习三个自监督任务,在表格数据不完整的条件下学习鲁棒的多模态表示,在自然图像和医学图像分类任务上超越现有方法。

Topology-Preserving Downsampling of Binary Images

提出首个基于离散优化(整数规划)的拓扑保持二值图像下采样方法,通过将下采样像素的黑白决策编码为布尔变量、拓扑保持作为硬约束、与原图相似度作为目标函数来求解,保证下采样结果具有与原图完全相同的Betti数(连通分量数和孔洞数),同时保持与传统方法竞争性的像素级相似度。

Unsupervised Multi-modal Medical Image Registration via Invertible Translation

本文提出 INNReg,通过可逆神经网络将多模态医学图像翻译为单模态,再利用单模态图像进行配准,结合基于归一化互信息的 barrier 损失函数,在 MRI T1/T2 和 MRI/CT 数据集上取得了优于现有方法的配准精度。