🏥 医学图像¶
🔬 ICLR2026 · 86 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (172) · 🧪 ICML2026 (28) · 🤖 AAAI2026 (75) · 🧠 NeurIPS2025 (77) · 📹 ICCV2025 (31) · 🧪 ICML2025 (21)
🔥 高频主题: 医学影像 ×31 · 语义分割 ×14 · 多模态 ×9 · 扩散模型 ×8 · 人脸/视线 ×3
- A Brain Graph Foundation Model: Pre-Training and Prompt-Tuning across Broad Atlases and Disorders
-
BrainGFM 把 fMRI 脑网络当成图来建模,用「图对比 + 图掩码自编码」在 27 个数据集、8 种脑图谱共 40 万张脑图上做大规模预训练,再用元学习优化的图提示做小样本适配、用 BioClinicalBERT 编码的语言提示做零样本迁移,使一个冻结的脑基础模型能跨越各种图谱、脑疾病和任务设置直接诊断。
- A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding
-
VCFLOW 把人脑视觉皮层的"腹侧—背侧双通路"机制搬进解码模型,将 fMRI 信号拆成早期视觉 / 腹侧 / 背侧三路并分别对齐 CLIP 不同层级特征,再用一个 redistribution 适配器分离"被试无关语义"与"被试身份",从而首次实现无需对新被试重训的 fMRI-to-video 重建:相比逐人训练只掉约 7% 精度,却把单段视频生成从 12 小时训练压到 10 秒推理。
- A Scalable Distributed Framework for Multimodal GigaVoxel Image Registration
-
本文提出 FFDP——一套 IO 感知的非 GEMM 融合 CUDA 核加上支持卷积感知张量分片的分布式框架,把传统/深度图像配准流程加速 6–7×、峰值显存降低 20–59%,并首次在 8 张 A6000 上用约一分钟完成 100µm 离体人脑 MRI(超 110 亿变换参数、比临床数据大 570×)的原生分辨率多模态配准。
- A Structured, Tagged, and Localized Visual Question Answering Dataset with Full Sentence Answers and Scene Graphs for Chest X-ray Images
-
本文从 MIMIC-CXR 的放射学报告自动构建出 CXR-QBA——一个含 4220 万条问答对、每条答案都带完整句子、边界框和结构化标签(发现/区域/确定性等)的大规模胸片 VQA 数据集,通过"场景图构建 → 模板化问答生成 → LLM 自动质检"三段流水线产出,并给出 3120 万预训练级 + 750 万微调级两个子集和一个配套的 baseline 模型与评测指标。
- AbdCTBench: Learning Clinical Biomarker Representations from Abdominal Surface Geometry
-
作者从 18,719 名患者的 23,506 例腹部 CT 中提取出 2D 体表网格图像、配上 16 个 CT 生物标志物与上百个疾病/共病标签,构建了首个、也是规模最大的「体表几何 → 内部体成分」数据集 AbdCTBench,并用 7 个主流视觉架构系统证明:仅凭外部腹部表面几何就能预测年龄(MAE 6.22 岁)、死亡率(AUROC 0.839)、伴慢性并发症的糖尿病(AUROC 0.801)等临床相关指标,为无辐射、低成本的消费级健康筛查铺路。
- Accelerating Benchmarking of Functional Connectivity Modeling via Structure-aware Core-set Selection
-
为了让"在大规模 fMRI 数据上比较数百种功能连接(FC)建模算子"这件昂贵的事变得可负担,本文把基准评测重新表述成"保留算子排名的子集选择"问题,提出自监督框架 SCLCS——用自适应 Transformer 学每个样本的连接结构、用结构扰动分数(SPS)挑出最稳定的"原型"样本、再用密度均衡采样补多样性,仅用 10% 数据就能保住全集上 130 个 FC 算子的真实排名,排名一致性(nDCG@k)比此前最好的核心集方法高出最多 23.2%。
- Adaptive Domain Shift in Diffusion Models for Cross-Modality Image Translation
-
提出CDTSDE框架,在扩散模型的逆向SDE中嵌入可学习的空间自适应域混合场 \(\Lambda_t\),使跨模态翻译路径沿低能量流形前进,在MRI模态转换、SAR→光学、工业缺陷语义映射任务上以更少去噪步数实现更高保真度。
- Anatomy-aware Representation Learning for Medical Ultrasound
-
针对医学超声「散斑纹理重、灰度色彩单一、特征因器官而异」三大特性,本文构建了一个 520 万张图的大规模超声数据集,并提出解剖感知的 A-ViT(核心是「解剖条件可变形 Transformer」ACDT)配合「掩码重建 + 对抗 + 自蒸馏」三重自监督目标,在乳腺/甲状腺/胆囊/新冠肺/心脏等多种超声诊断任务上显著超过通用与医学领域的 SSL 基线。
- Are EEG Foundation Models Worth It? Comparative Evaluation with Traditional Decoders in Diverse BCI Tasks
-
作者在 7 个分类任务 + 2 个回归任务、6 种评测协议下对 5 个主流 EEG 基础模型做了带统计检验的系统对照,并提出一个只用掩码自编码(MAE)在 800 万段原始 EEG 上预训练的简单 ViT 基线 ST-EEGFormer,结论是:基础模型只在数据充足的群体级解码里有明显优势,在数据稀缺的个体级场景常常跑不赢紧凑的 CNN 甚至经典非神经网络解码器,线性探测普遍很弱,且看不到清晰的缩放律。
- ASMIL: Attention-Stabilized Multiple Instance Learning for Whole-Slide Imaging
-
本文首次识别出注意力 MIL 在全切片图像(WSI)训练中的"注意力动态不稳定"失败模式,提出 ASMIL:用 EMA 锚点模型蒸馏稳定注意力、用归一化 sigmoid 抑制注意力过度集中、用 token 随机丢弃缓解过拟合,三招合一在多个病理数据集上把 F1 提升最高 6.49%。
- Autoregressive Visual Decoding from EEG Signals
-
AVDE 把"EEG 信号解码成图像"重写成一个两阶段、自回归的轻量流程:先用预训练 EEG 大模型 LaBraM 配合对比学习把脑电对齐到 CLIP 图像空间,再用 VAR 的"下一尺度预测"从 EEG 嵌入出发逐级生成图像,只用 10% 的参数就在检索和重建两项任务上超过了此前依赖大扩散模型的 SOTA。
- BioTamperNet: Affinity-Guided State-Space Model Detecting Tampered Biomedical Images
-
BioTamperNet 用状态空间模型(SSM)近似出的"亲和引导注意力"搭起一个孪生网络,把生物医学论文里被篡改的重复区域(源区域和被复制的目标区域)一起定位出来,在 BioFors 真实撤稿论文数据集上把 MCC 从此前最好的 0.43 左右拉到 0.70,且只用 36.7M 参数、29.6 GFLOPs。
- BioX-Bridge: Model Bridging for Unsupervised Cross-Modal Knowledge Transfer across Biosignals
-
不再训练一个完整的学生模型去蒸馏,而是冻结两个生物信号基础模型、只训练一个轻量"桥接网络"把新模态的中间表征投影到旧模态的表征空间,从而以 1%~12% 的可训练参数实现 ECG↔EEG↔PPG↔EMG 之间的无监督跨模态知识迁移。
- Boosting Medical Visual Understanding From Multi-Granular Language Learning
-
提出 Multi-Granular Language Learning (MGLL),一个即插即用的对比学习框架,通过 soft CLIP loss、point-wise loss 和 smooth KL 散度联合优化,实现医学图像与多标签多粒度文本描述的对齐,在眼底和 X 光数据集上全面超越 SOTA 方法,并可作为视觉编码器嵌入多模态大语言模型提升诊断准确率最高达 34.1%。
- Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer
-
提出 Brain-IT 框架,通过脑启发式的 Brain Interaction Transformer (BIT) 将功能相似的脑体素聚类为跨被试共享的 Brain Token,并从中预测局部化的语义和结构图像特征,实现从 fMRI 到图像的高保真重建,仅用 1 小时数据即达到先前方法 40 小时的性能。
- Bridging Radiology and Pathology Foundation Models via Concept-Based Multimodal Co-Adaptation
-
提出 CTF(Concept Tuning and Fusing)框架,用一组临床概念作为放射学与病理学基础模型之间的"共享语义接口",在融合之前先让两个域的概念表征互相条件化(cross-domain co-adaptation),仅训练 0.15% 的额外参数就在生存分析和癌症分级上超越各类潜空间融合 baseline,且预测可解释。
- CardioComposer: Leveraging Differentiable Geometry for Compositional Control of Anatomical Diffusion Models
-
CardioComposer 把"大小/位置/形状"写成基于体素几何矩的可微损失,在无条件 3D 解剖扩散模型采样过程中做能量引导(梯度修正),无需重训就能对心脏等多类别解剖分割的各个子结构做解耦、可组合的几何控制。
- CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework
-
提出 CARE 框架——将医学 VQA 拆分为"实体提议→指称分割→证据引导问答"三阶段专家管道,用 RLVR 微调各 VLM,并引入 GPT-5 作为动态协调器进行工具规划与 CoT 审查,在 4 个医学 VQA 基准上以 10B 参数量(77.54% 平均准确率)超越 32B 端到端 SOTA(72.29%)。
- CerebraGloss: Instruction-Tuning a Large Vision-Language Model for Fine-Grained Clinical EEG Interpretation
-
本文把临床脑电图(EEG)波形当成一种"专门的视觉语言",用一条全自动数据引擎(含定制的 YOLO 波形检测器)合成 9.4 万条 EEG 图文指令数据,对 Qwen2.5-VL-3B 做两阶段指令微调,得到首个能做"描述 + 多选题 + 多轮对话"的生成式 EEG 解读模型 CerebraGloss,并在自建的开放式基准 CerebraGloss-Bench 上超过 GPT-5、在 TUSZ 癫痫检测上刷新 SOTA。
- Characterizing Human Semantic Navigation in Concept Production as Trajectories in Embedding Space
-
提出将人类概念产生过程建模为 Transformer 嵌入空间中的累积轨迹,定义 5 个运动学指标(距离、速度、加速度、熵、质心距离),在 4 个数据集(3 种语言、神经退行性疾病/脏话流畅性/属性列举)上成功区分临床组和概念类别,且不同嵌入模型产生高度一致的结果。
- CodeBrain: Bridging Decoupled Tokenizer and Multi-Scale Architecture for EEG Foundation Model
-
CodeBrain 用「时频双码本解耦 tokenizer + 全局结构卷积 SSM 与滑动窗注意力并行的多尺度架构」打造 EEG 基础模型,在最大公开 EEG 语料上预训练后,于 8 类任务 10 个数据集上稳定超越现有 EEG 基础模型,并提供码本级的可解释性。
- COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics
-
COMPASS 通过在分割网络的中间特征空间沿对目标度量最敏感的低维子空间进行线性扰动来构建 conformal prediction 区间,在四个医学分割任务上实现了比传统 CP 方法显著更窄的预测区间,同时保持有效覆盖率。
- CONSIGN: Conformal Segmentation Informed by Spatial Groupings via Decomposition
-
CONSIGN 用 SVD 从分割模型的多次采样里提取空间相关的"主不确定性方向",构造出能联合改变的空间感知共形预测集,在保持统计覆盖保证的同时把预测集体积压到比逐像素方法小几个数量级。
- Contextual Similarity Distillation: Ensemble Uncertainties with a Single Model
-
用单个模型、单次前向就估计出"无穷大随机初始化集成"的预测方差——把集成方差重新表述成一个带核相似度标签的监督回归问题,从而无需真的训练集成、也无需求逆 Gram 矩阵,就能给出和深度集成相当甚至更好的不确定性,并在 OOD 检测和稀疏奖励 RL 探索上验证。
- CortiLife: A Unified Framework for Cortical Representation Learning across the Lifespan
-
CortiLife 把 CLIP 式视觉-语言预训练第一次搬到非欧的大脑皮层表面上,用「二十面体分块 + 三流多层级编码 + 注意力引导掩码自蒸馏 + 元数据语言提示」做出一个能横跨婴儿到老年的统一皮层表示,在年龄预测、皮层分区和四类脑疾病诊断上全面超过 CLIP/ACLIP/DetailCLIP 等 SOTA。
- CRONOS: Continuous time reconstruction for 4D medical longitudinal series
-
CRONOS 把流匹配(Flow Matching)重铸成"序列到图像"的搬运问题,用一个共享的时空速度场把多张历史 3D 扫描同时朝目标体积搬运,从而在一个模型里同时支持网格对齐(discrete)和任意实值时间戳(continuous)的体素级 4D 医学影像预测,在 Cine-MRI、灌注 CT、纵向胶质瘤 MRI 三个数据集上全面超过现有时空基线和强启发式 LCI。
- Cross-Timestep: 3D Diffusion Model with Trans-temporal Memory LSTM and Adaptive Priori Decoding Strategy for Medical Segmentation
-
针对扩散模型用于 3D 医学分割时在高噪声起点处"开局崩溃"、且各时间步彼此孤立的两大顽疾,本文提出 Cross-Timestep,用「自适应先验解码(APDS)」从条件图像注入随时间衰减的结构先验来稳住反向扩散的初期,再用「跨时记忆 LSTM(tLSTM)」把低频结构和不确定性显著区跨时间步显式传递下去,在两个多中心鼻咽癌数据集上全面超过现有 SOTA。
- CUPID: A Plug-in Framework for Joint Aleatoric and Epistemic Uncertainty Estimation with a Single Model
-
CUPID 是一个可插入预训练网络任意中间层、无需改结构也无需重训的即插即用模块,用一次前向就联合估计数据噪声(aleatoric)和模型无知(epistemic)两类不确定性。
- Detecting Invariant Manifolds in ReLU-Based RNNs
-
这篇论文给基于 ReLU 的分段线性 RNN(PLRNN)提出了一套半解析算法,能直接计算鞍点/鞍周期点的稳定与不稳定流形,从而画出状态空间中不同吸引盆的边界、找到同宿/异宿交点并据此证明 RNN 内部存在混沌——填补了"离散时间、雅可比带间断的 ReLU RNN 该如何分析其动力学拓扑"这一长期空白。
- DISCO: Densely-overlapping Cell Instance Segmentation via Adjacency-aware Collaborative Coloring
-
将密集重叠细胞实例分割建模为图着色问题,提出"显式标记冲突节点 + 隐式邻接约束消歧"的分治框架 Disco,通过 BFS 分解细胞邻接图并引入五种协同损失函数,在高密度病理数据集 GBC-FS 2025 上 PQ 提升 7.08%,同时在四个异质数据集上均取得 SOTA。
- Distributional Consistency Loss: Beyond Pointwise Data Terms in Inverse Problems
-
提出分布一致性(DC)损失,用分布级别的校准替代传统逐点数据保真项(如MSE/NLL),避免对噪声的过拟合,在DIP去噪和PET图像重建中显著提升性能且无需早停。
- DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction
-
提出DM4CT——首个系统性的CT重建扩散模型基准,涵盖十种扩散方法和七种基线方法,在医疗、工业和同步辐射三类数据集上进行全面评估,揭示了扩散模型在CT重建中的优势与局限。
- Dual-Kernel Adapter: Expanding Spatial Horizons for Data-Constrained Medical Image Analysis
-
作者先系统地证明:在医学影像这种极端缺数据的场景下,标准 Adapter 不仅没用、甚至比纯线性探测还差,根因是训练数据一少,Adapter 的有效感受野(ERF)会急剧收缩;据此提出双核适配器 DKA——用一条大核(51×51)深度卷积撑开 ERF、一条小核(5×5)深度卷积保住局部细节并联融合,在分类与分割、自然预训练与医学预训练骨干上都刷出新 SOTA。
- Fetal-Gauge: A Benchmark for Assessing Vision-Language Models in Fetal Ultrasound
-
Fetal-Gauge 整合 13 个公开胎儿超声数据集,构建出首个也是规模最大的胎儿超声视觉问答基准(4.2 万张图、9.3 万条问答、五大临床任务),系统评测 15 个主流 VLM,发现最强模型 GPT-5 也只有 55% 准确率,远低于临床可用门槛,暴露出当前 VLM 在胎儿超声上的系统性短板。
- Frequency-Balanced Retinal Representation Learning with Mutual Information Regularization
-
作者从空间频率视角剖析 MAE,发现它偏爱低频背景、欠编码诊断关键的高频细节,进而在互信息框架下提出 RetMAE:不改架构,仅加一个高频互信息正则(HighFreqMI),就让视网膜编码器学到"频率平衡"的表征,仅用约 25.6k 张无标注眼底图就刷过现有眼底基础模型。
- Functional MRI Time Series Generation via Wavelet-Based Image Transform and Spectral Flow Matching for Brain Disorder Identification
-
DSFM 把 fMRI 的 BOLD 时间序列先经小波变换(DWT)转成多尺度时-频图像、再经分块 DCT 压到低频稀疏域,然后在 DCT 频域里用"热扩散式"流匹配做类别条件生成,反变换回时域 BOLD 信号做数据增强,从而提升下游脑疾病的功能连接(FC)分类性能。
- Glance and Focus Reinforcement for Pan-cancer Screening
-
提出 GF-Screen 两阶段框架——轻量 Glance 模型用强化学习快速定位含病灶的 CT 子体积,Focus 模型只对选中区域做精细分割;通过将 GRPO 的"组内相对比较"思想从 NLP 迁移到视觉子体积组,首次在纯视觉任务中实现无价值网络的 RL 优化,在 FLARE25 泛癌挑战中以 +25.6% DSC 大幅领先冠军方案且推理快 5.7 倍。
- HEEGNet: Hyperbolic Embeddings for EEG
-
首次系统验证EEG数据具有双曲性(层次结构),提出HEEGNet混合双曲网络架构,结合欧几里得编码器提取时空频谱特征和双曲编码器捕捉层次关系,配合创新的粗到细域适应策略(DSMDBN),在视觉诱发电位、情感识别和颅内EEG多个跨域任务上达到SOTA。
- HFSTI-Net: Hierarchical Frequency-spatial-temporal Interactions for Video Polyp Segmentation
-
HFSTI-Net 把"频率—空间"双路交互和"掩码引导的循环记忆传播"拼到一个网络里,分别治结肠镜视频里息肉分割的两大顽疾——单帧低对比导致的形状坍塌和长序列里目标忽隐忽现的情景遗忘,在 SUN-SEG / CVC-612 上既刷到 SOTA 又跑到 31 FPS 实时。
- Histopathology-Genomics Multi-modal Structural Representation Learning for Data-Efficient Precision Oncology
-
MSRL 用图结构学习预训练一张「病理-基因组」跨病例关联图,并在微调阶段借助一个存了真实基因组特征的 buffer,让推理时只有病理切片(WSI)的病例也能"借"到诊断相关病例的真实基因信息,从而在基因组缺失场景下逼近完整多模态融合的精度。
- Improving 2D Diffusion Models for 3D Medical Imaging with Inter-Slice Consistent Stochasticity
-
提出 Inter-Slice Consistent Stochasticity (ISCS),通过球面线性插值(Slerp)在扩散采样的 re-noising 步骤中生成层间相关噪声,从根源消除 2D 扩散先验做 3D 医学重建时的层间不连续伪影——零额外计算/超参数/训练开销,即插即用到任何 2D 扩散逆问题求解器,在稀疏视角 CT、限角 CT 和 MRI 超分辨率上均持续提升。
- Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification
-
提出DyMo——推理时动态模态选择框架,通过理论推导将多模态任务相关信息增益转化为可计算的MTIR奖励函数(基于分类损失降低代理 + 类原型距离 + 类内相似性校准),在推理时迭代选择性融合可靠的恢复模态,首次系统性解决"丢弃缺失模态损失信息 vs 补全可能引入噪声"的困境。
- Johnson-Lindenstrauss Lemma Guided Network for Efficient 3D Medical Segmentation
-
VeloxSeg 用「配对窗口注意力 + JL 引理约束的轻量卷积 + 基于 Gram 矩阵的纹理知识蒸馏」三件套,在 3D 医学分割上同时拿到精度(Dice +26%)和效率(GPU 吞吐 11×、CPU 48×、显存省到 1/20),破解轻量模型「效率/鲁棒性」二选一的困局。
- Joint Adaptation of Uni-modal Foundation Models for Multi-modal Alzheimer's Disease Diagnosis
-
本文提出"模态锚定交互(modality-anchored interaction)"框架,把 sMRI、fMRI、临床文本、基因四个领域各自的单模态基础模型组合起来做阿尔茨海默病诊断——轮流让一个模态当锚点并冻结其大部分参数,用 modality-aware Q-former 把其余辅助模态的特征选择性投影进锚点的特征空间,从而在不破坏各预训练表征完整性的前提下实现深度跨模态交互。
- K-Prism: A Knowledge-Guided and Prompt Integrated Universal Medical Image Segmentation Model
-
K-Prism 把语义先验、少样本参考样例和用户交互反馈统一编码成 1-D 稀疏提示与 2-D 稠密提示,再用 MoE 解码器动态路由,在 18 个医学图像数据集上同时刷新语义分割、in-context 分割和交互式分割的综合表现。
- LaVCa: LLM-assisted Visual Cortex Captioning
-
提出 LaVCa 方法,利用 LLM 为人类视觉皮层的每个体素生成自然语言描述(caption),通过"编码模型→最优图像选取→MLLM生成描述→LLM关键词提炼+句子组合"四步流程,比已有方法 BrainSCUBA 更准确、更多样地揭示了体素级视觉选择性。
- Learning Patient-Specific Disease Dynamics with Latent Flow Matching for Longitudinal Imaging Generation
-
提出 Δ-LFM 框架:用 ArcRank 损失在潜在空间构建患者特异性时间对齐轨迹(角度一致 + 幅度单调递增),将流匹配时间范围从 [0,1] 扩展到 [0,T] 实际时间间隔实现任意时间点预测,在三个阿尔茨海默纵向 MRI 基准上全面超越 8 种基线方法,并提出进展专用指标 Δ-RMAE。
- Learning Self-Critiquing Mechanisms for Region-Guided Chest X-Ray Report Generation
-
RadSCR 把放射科医生「反复自我质疑」的诊断过程编码进模型结构,用「换异常类别、换病人图像、查漏诊」三种自我批判机制端到端学习,在不引入测试时 LLM 推理的前提下显著提升了胸片报告的临床准确率与异常定位可靠性。
- Lightweight Transformer for EEG Classification via Balanced Signed Graph Algorithm Unrolling
-
把"平衡符号图上的谱去噪算法"逐迭代展开成一个可解释的类 Transformer 网络,用两个类别专属去噪器的重建误差做癫痫 EEG 二分类,在不到对照 Transformer 1% 参数量的情况下把准确率从 85% 拉到 97.6%。
- M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding
-
M3CoTBench 是首个专门评测「医学影像理解中 MLLM 思维链质量」的基准——它不只看最终答案对不对,而是用正确性、效率、收益、一致性四个维度去量化推理路径本身,揭示出当下 MLLM 在临床推理上既不可靠也不可解释,甚至加上 CoT 后准确率反而下降。
- MedGMAE: Gaussian Masked Autoencoders for Medical Volumetric Representation Learning
-
MedGMAE 把 3D 医学影像 MIM 预训练的目标从"重建离散体素强度"换成"预测一组连续的 3D 高斯基元再渲染回体积",既学到更符合解剖连续性的编码器表征,又让解码器变成可迁移的、能给 3DGS-CT 重建做零样本初始化的"几何先验"。
- MedLesionVQA: A Multimodal Benchmark Emulating Clinical Visual Diagnosis for Body Surface Health
-
字节跳动小荷团队联合协和长庚医院构建的 MedLesionVQA,是首个对齐医生"分步视觉诊断流程"的体表健康多模态基准——12K 张从未泄露的院内真实患者图像 + 19K 专家审核 QA,覆盖 94 类病变 / 110 个身体部位 / 96 种疾病,实测 20+ 主流 MLLM 最高仅 56.2%,远低于初级医生 61.4% 和资深专家 73.2%。
- MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment
-
MindMix 用「先在 3500+ 小时无标签 EEG 上预训练一个高容量脑电编码器、再用 100+ 小时 EEG-音频配对数据通过 CALRA 跨模态对齐模块做对比学习」的两阶段策略,造出第一个面向听觉感知解码的多模态基础模型,在听觉注意力解码、情绪识别、音乐检索三类任务上大幅超越现有单模态 EEG 基础模型与任务专用 SOTA(KUL 上准确率 99.82%)。
- Mixture of Mini Experts: Overcoming the Linear Layer Bottleneck in Multiple Instance Learning
-
本文指出多示例学习(MIL)流程里那个一直被忽视的"任务特定线性层"才是性能瓶颈,提出即插即用的多头软路由 MoE 模块 MAMMOTH 替换它,在不增加参数量的前提下,让任意 MIL 模型(哪怕是 max/mean pooling)都获得显著提升。
- MnemoDyn: Learning Resting State Dynamics from 40K fMRI Sequences
-
把静息态 fMRI 看作隐空间里一条由「可学习演化算子」驱动的轨迹,用小波参数化的伪微分算子代替 Transformer 自注意力,在约 40K 条 rs-fMRI 序列上预训练出一个轻量、长序列友好、跨数据集泛化的脑影像基础模型。
- Modeling the Density of Pixel-level Self-supervised Embeddings for Unsupervised Pathology Segmentation in Medical CT
-
本文提出 Screener:用稠密自监督学习取代 ImageNet 预训练特征、用"掩码不变"的可学习条件变量取代手工正弦位置编码,把基于密度的无监督视觉异常分割(UVAS)框架做成全自监督,在 3 万例无标注 CT 上训练后于 1820 例多病理测试集上大幅超越现有 UVAS 方法。
- Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction
-
MindHier 把 fMRI-to-image 重建从"扩散模型 + 单一静态引导"换成"尺度自回归(next-scale prediction) + 层级化神经引导",让大脑信号按"先森林后树木"的层级逐尺度注入生成过程,在 NSD 上拿到 SOTA 语义指标的同时推理快 4.67×、结果还更确定性。
- NAB: Neural Adaptive Binning for Sparse-View CT Reconstruction
-
用一组可微的"自适应矩形分箱"取代隐式神经表示里随机傅里叶编码,把工业物体常见的矩形形状先验显式塞进坐标编码里,让每个 bin 的位置/大小/旋转/陡度都能从投影数据端到端学出来,在稀疏视角 CT 重建上大幅超越 INR 基线。
- Nef-Net v2: Adapting Electrocardio Panorama in the Wild
-
把"任意视角心电图合成"从理想实验室假设搬到真实临床:用几何视角 Transformer 做直接的视角到视角映射,配合三阶段(预训练→设备校准→即时校准)流程,解决长时程、跨设备、电极偏移三大落地难题,PSNR 比上一代 Nef-Net 高约 6 dB。
- Neuro-Symbolic Decoding of Neural Activity
-
提出 NEURONA,一个神经符号框架用于 fMRI 解码和概念基础,通过将视觉场景分解为符号程序(概念的逻辑组合),在 fMRI 问答任务上显著优于端到端神经解码和线性模型。
- ODEBRAIN: Continuous-Time EEG Graph for Modeling Dynamic Brain Networks
-
ODEBRAIN 用神经常微分方程(NODE)把多通道 EEG 显式建模成"连续时间动态系统",通过双编码器构造抗噪的初始状态 + 自适应时空向量场求解隐空间轨迹 + 图结构多步预测损失,在 TUSZ/TUAB 癫痫与异常 EEG 任务上显著超过离散循环类基线(F1 提升 6.0%、ACC 提升 8.1%)。
- OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis
-
OmniCT 用一套「切片组合 + 三轴位置编码 + MoE 混合投影」的空间一致性增强(SCE)把 2D 切片和 3D 体素统一进同一个 LVLM 的 token 空间,再用器官级语义增强(OSE)把解剖区域显式注入表征,配上 170 万样本的 MedEval-CT 数据集与混合基准,在切片驱动和体素驱动两类 CT 任务上都大幅超过现有医学/通用 LVLM(7B 切片平均 81.45,体素平均 66.15)。
- OpenPros: A Large-Scale Dataset for Limited View Prostate Ultrasound Computed Tomography
-
本文构建了首个面向有限角前列腺超声计算机断层(USCT)的大规模数据集 OpenPros——基于真实临床 MRI/CT 和离体前列腺测量造出解剖逼真的 3D 声速体,切片得到 28 万对 2D 声速图与全波形超声数据,并配套开源 FDTD 求解器与一套物理法/深度学习的反演基准,揭示出深度模型虽快且准但仍无法解析前列腺内部细结构、跨病人泛化也未解决。
- PathChat-SegR1: Reasoning Segmentation in Pathology via SO-GRPO
-
针对病理图像里"罕见/未见形态学难以分割"的痛点,本文造了一个病理专用的推理分割模型 PathChat-SegR1:用染色不变自蒸馏训练病理视觉编码器,再用 SO-GRPO 强化学习让 VLM 自主决定"何时该输出
<SEG>token 触发分割",在未见病理上零样本 Dice 比此前 SOTA 提升 61%。 - Pixel-Level Residual Diffusion Transformer: Scalable 3D CT Volume Generation
-
PRDiT 提出一种直接在体素级生成高分辨率 3D CT 体的两阶段残差扩散框架:先用轻量 MLP「局部去噪器」从重叠 3D patch 里估出低频粗结构,再用「全局残差 DiT」用全卷积视野补回高频残差,配合 hot 预测-校正采样和「复用低分辨率主干」的扩展策略,在 LIDC-IDRI / RAD-ChestCT 上 3D FID、MMD、Wasserstein 全面超过 HA-GAN、3D LDM、WDM-3D,且 256³ 训练成本仅为对手的 1/4 ~ 1/6。
- Prior-aware and Context-guided Group Sampling for Active Probabilistic Subsampling
-
在 Active Deep Probabilistic Subsampling(A-DPS)基础上,先用训练集学到的固定先验掩码采一批样本、再用 DPS-top-k 的分组主动采样按每个输入的上下文补采,配合 Lipschitz 理论证明分组采样让优化更平滑,在 MNIST/CIFAR-10 分类、fastMRI 重建、AeroRIT 高光谱分割上全面超过 A-DPS、DPS 等采样方法。
- ProstaTD: Bridging Surgical Triplet from Classification to Fully Supervised Detection
-
本文构建了首个面向「全监督手术三元组检测」的大规模多中心数据集 ProstaTD(21 台机器人辅助前列腺切除术、71,775 帧、196,490 个带框实例、89 类三元组),用临床定义的时间边界 + 精确包围框把这个任务从「帧级弱监督分类」推进到「带空间定位的全监督检测」,并配套两款标注工具、一套评测工具和一个融合多任务学习 + 实例级自蒸馏的基线 TDnet。
- Reducing Semantic Mismatch in Brain-to-Text Decoding Through Personalized Multimodal Masking
-
这篇论文提出 Yo'Mind,用最优传输驱动的个性化多模态语义遮蔽,把每个被试看图时真正被脑信号编码的视觉/文本语义挑出来,再用于脑到文本解码,从而缓解脑表征与机器表征之间的语义错配,并在 NSD 跨被试脑到文本重建上取得更好的结果。
- Reliable Evaluation of MRI Motion Correction: Dataset and Insights
-
本文针对"3D MRI 运动校正方法没法可靠评估"这个根本困境,发布了配对真实运动数据集 PMoC3D、提出了自监督训练的特征空间度量 MoMRISim,并系统对比了真实配对评估 / 模拟运动评估 / 无参考评估三条路线,结论是"真实配对 + MoMRISim"虽不完美但最靠谱,而模拟运动会系统性高估算法、无参考度量则偏爱过度平滑的深度学习输出。
- Rethinking Model Calibration through Spectral Entropy Regularization in Medical Image Segmentation
-
这篇论文把医学图像分割中的过置信校准问题重新放到频域里看,认为低频主导的 spectral bias 和置信图总谱能量被压低的 confidence saturation 会共同导致边界不确定性失真,并用谱熵正则与跨 batch 的功率谱平滑在训练时改善校准,同时基本不牺牲分割精度。
- Rethinking Radiology Report Generation: From Narrative Flow to Topic-Guided Findings
-
本文指出"模仿放射科医生叙事流"的报告生成范式会让 VLM 过度依赖语言先验、削弱视觉接地,于是提出 LLaVA-TA:把整篇报告拆成按解剖区域组织的独立主题、每个主题只看全图+对应解剖 mask 单独生成一句话发现,在 MIMIC-CXR 上把 RadGraph F1(report 级 29.4→34.3、topic 级最高 44.0)和 CheXpert F1 大幅刷新。
- SE-Diff: Simulator and Experience Enhanced Diffusion Model for Comprehensive ECG Generation
-
SE-Diff 把一个轻量级 ODE 心电仿真器和一套基于 EHR 病例经验的 LLM 检索增强同时塞进条件隐空间扩散模型,让"从临床文本生成 12 导联 10 秒心电图"既符合心脏电活动的物理机理、又贴合真实临床经验,在信号保真度、文本对齐和下游分类上全面超过此前的文本到 ECG 方法。
- SEED: Towards More Accurate Semantic Evaluation for Visual Brain Decoding
-
提出 SEED(Semantic Evaluation for Visual Brain Decoding),一个结合 Object F1、Cap-Sim 和 EffNet 三个互补指标的组合评估度量,在与人类评估的对齐度上显著超越现有所有指标。
- Seeing Through the Brain: New Insights from Decoding Visual Stimuli with fMRI
-
PRISM 颠覆了「重建视觉图像就要用视觉表征」的惯例:作者先用对齐度量证明 fMRI 信号其实和语言模型的文本空间最像,于是把 fMRI 投到结构化文本空间作为中间桥梁,再用「自动搜索脑对齐关键词 + 物体中心扩散」把文本组合成图像,在 NSD/BOLD5000/GOD 三个数据集上把感知损失 LPIPS 最多压低约 6%。
- Sequential Information Bottleneck Fusion: Towards Robust and Generalizable Multi-Modal Brain Tumor Segmentation
-
针对多模态 MRI 脑肿瘤分割中常见的"模态缺失"问题,本文提出用序列信息瓶颈融合逐步把各模态信息压进一个共享潜表示,从信息论角度论证它比主流的并行融合更鲁棒、泛化上界更紧,并据此设计 SMSN 网络,在 BRATS18/20 上全面超越并行融合基线,还能不微调地从胶质瘤迁移到脑转移瘤。
- sleep2vec: Unified Cross-Modal Alignment for Heterogeneous Nocturnal Biosignals
-
sleep2vec 在 42,249 夜、九种睡眠生理信号上做跨模态对比预训练,用一个会按人口学/采集元数据动态加权负样本的 DASH-InfoNCE 目标把异构信号对齐进同一表示空间,从而在睡眠分期和临床诊断上既能用任意模态子集推理、又对传感器缺失鲁棒,并首次刻画了 PSG 信号随模态多样性与模型规模增长的 scaling law。
- Spike-based Digital Brain: A Novel Fundamental Model for Brain Activity Analysis
-
本文提出 Spike-DB,把脉冲计算范式引入 fMRI 时序建模:先用 IIR 滤波模拟的脉冲神经元把 BOLD 信号编码成脉冲序列,再以「锚点脑区→目标脑区」的自监督预测框架学习脑区间的时序驱动关系,在癫痫与阿尔茨海默(ADNI)数据集上同时实现高精度脑活动预测、疾病分类、异常脑区识别与有效连接推断。
- SpineBench: 一个临床显著、椎体节段感知的脊柱诊疗评测基准与 SpineMed-450k 语料库
-
本文以脊柱外科医生全程参与(clinician-in-the-loop)的方式构建了 45 万条规模、可溯源的多模态脊柱诊疗指令语料 SpineMed-450k 与配套评测基准 SpineBench,揭示了当前大视觉语言模型在「定位到具体椎体节段」的精细推理上系统性薄弱,并用一个仅 7B 的微调模型 SpineGPT 证明专科指令数据能让小模型达到接近 Gemini-2.5-Pro 的临床效果。
- Stochastic Optimal Control for Continuous-Time fMRI Representation Learning
-
BDO 把异构 fMRI 时间序列看成连续时间潜在随机动力系统,用随机最优控制把 MAE 重建和 JEPA 潜变量预测统一起来,从而在多数据集下学习对 TR 差异更稳健、计算更高效的脑动力学表征。
- MedVLSynther:用「生成器–验证器」LMM 从医学文献合成高质量视觉问答
-
本文提出 MedVLSynther——一个「规则手册(rubric)驱动 + 上下文感知」的生成器–验证器框架,直接从开放的 PubMed 医学文献(图、图注、正文引用段)合成多选题式医学 VQA,经多阶段自动验证后产出 13,087 道高质量题目(MedSynVQA),用它配合可验证奖励的强化学习训练开源 LMM,在 6 个医学 VQA benchmark 上平均准确率达到 55.85(3B)/58.15(7B),超过多个强医学 LMM 基线。
- Towards Interpretable Visual Decoding with Attention to Brain Representations
-
提出 NeuroAdapter,将 fMRI 信号按脑区分割为独立 token 并通过交叉注意力直接条件化 Stable Diffusion,跳过传统的 CLIP/DINO 中间嵌入空间,在 NSD 等数据集上高层语义指标超越或持平现有方法,同时引入 IBBI 双向可解释性框架,首次动态揭示不同皮层区域在去噪轨迹中如何驱动图像生成。
- Towards Text–Mask Consistency in Medical Image Segmentation
-
针对文本引导的医学分割中"掩码和文本对不上"的问题,C2Seg 用两阶段方案——预训练阶段用基于文本相似度软标签的对比学习 CaCL 化解模板化临床描述带来的假负样本冲突,融合阶段用双向互补注意力 BCAM 显式构造"语言主导"的空间特征路径,再配 KAN 门控做细粒度选择,在四个公开医学数据集上同时提升文本-掩码一致性和分割精度。
- U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding
-
U2-BENCH 是第一个系统评测大视觉语言模型(LVLM)超声理解能力的基准,它从 40 个授权数据集采样 7,241 个病例、覆盖 15 个解剖部位,定义了横跨分类/检测/回归/文本生成四大类的 8 个临床任务,对 20 个开源闭源模型评测后发现:模型在图像级分类上表现尚可,但在空间推理和临床语言生成上普遍崩盘。
- Unified Brain Surface and Volume Registration
-
NeurAlign 用一个共享框架同时训练「体积配准网络」和「球面配准网络」,并通过一条皮层一致性损失把两者耦合起来,让脑 MRI 的皮层(表面)和皮层下(体积)结构在一次前向中被一致地对齐,推理时只需一张 MRI、不需要网格或分割,配准精度(皮层 Dice 最高 +7 分)和速度(比标准方法 CVS 快几个数量级)都显著领先。
- WavePolyp: Video Polyp Segmentation via Hierarchical Wavelet-based Feature Aggregation and Inter-frame Divergence Perception
-
WavePolyp 用小波把每帧特征拆成高/低频再分头增强聚合(HWFA),又用一个沿时间维度做差分注意力的模块(IDP)显式建模相邻帧的息肉差异,从而在结肠镜视频里既能抠出高度伪装的息肉、又能稳定地跨帧追踪,在 SUN-SEG 和 CVC-612 上全指标超过此前 SOTA 且接近实时(23 FPS)。
- You Point, I Learn: Online Adaptation of Interactive Segmentation Models for Handling Distribution Shifts in Medical Imaging
-
针对医学图像部署后训练/测试分布不一致的问题,本文把交互式分割中"用户点完后的最终预测"当作伪真值,设计了一套精简的在线自适应框架 OAIMS(Post-Interaction + Mid-Interaction 两种更新 + Click-Centered Gaussian 损失),在 5 个眼底库与 4 个脑 MRI 库上一致超过现有方法,脑 MRI 上 Dice 提升超 10%。