MDCS-MoAME: Multi-directional Composite Scanning with Mixture of Attention and Mamba Experts for Cancer Survival Prediction¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 医学图像 / 计算病理 / 多模态生存预测
关键词: 全切片图像、基因组、生存预测、Mamba、混合专家、多方向扫描

一句话总结¶

MDCS-MoAME 针对"千兆像素 WSI + 稀疏基因组"的癌症生存预测，提出对图像做五方向、对基因做间隔扫描的复合扫描策略（用 Mamba 抓长程依赖），再用"注意力与 Mamba 混合专家"按模态对动态选专家做跨模态融合，并加对齐约束去冗余，在 5 个 TCGA 数据集上把平均 c-index 提到 0.7383，全面 SOTA。

研究背景与动机¶

领域现状：癌症生存预测靠融合病理 WSI（提供肿瘤形态）和基因组（提供分子机制）两种模态。研究已从单模态转向多模态融合——从 DeepSets 的集合池化，到 MCAT 的基因引导共注意力，再到 MOTCAT/SurvPath 用最优传输/生物通路、PAM/SurvMamba 用 Mamba 抓长程依赖。

现有痛点：作者指出四个具体短板。① WSI 固有的层次结构（region 看组织级语境、patch 看细胞级细节）常被欠利用。② 千兆像素分辨率下，现有 Mamba 方法只做水平扫描，感受野单一，建模不了垂直/斜向等多方向依赖——上下相邻两行的 patch 在水平序列里被拉得很远。③ 现有方法把基因粗分成六大组，功能重叠严重（如 PI3K-Akt 通路的基因被散落在六组里），抓不住组间细微关系。④ 模态间异质性大，简单/僵化的融合设计会引入冗余，限制特征表达。

核心矛盾：WSI 是超高分辨率、强空间结构的密集模态，基因组是稀疏、离散、功能纠缠的模态；两者异质，单一注意力或单一选择性扫描都难以同时把"模态内长程依赖"和"模态间复杂关联"建模充分。

本文目标：① 设计能充分挖掘 WSI 与基因组模态内内在信息的扫描机制；② 设计能灵活建模模态间复杂关联的融合模块；③ 抑制模态内/间的特征冗余。

切入角度：借力 Mamba（线性复杂度建模长序列）和 MoE（按需选专家），作者认为"换扫描方向就能换感受野"，而"换专家就能换融合方式"。

核心 idea：用多方向复合扫描（MDCS）扩大 Mamba 的感受野抓模态内信息，用注意力-Mamba 混合专家（MoAME）按模态对动态选融合方式抓模态间关联，再用对齐约束去冗余。

方法详解¶

整体框架¶

输入是一位患者的 WSI \(I\) 和基因组 \(G\)，输出是生存风险（最终估计生存函数 \(f_{\text{sur}}(T\le t)\)）。流程分四步：先做特征提取（WSI 按 region/patch 两级切块用 ResNet-50 提特征，基因用全连接分成六组）；再进 MDSFE 模块对两种模态做多方向复合扫描 + Mamba 增强，得到模态内增强表示 \(I_r, I_p, G_g\)；接着进 EDIMI 模块，用 MoAME 混合专家做渐进式跨模态交互，产出 \(I_{r\&g}, I_{p\&g}, G_{g\&r}, G_{g\&p}\)；最后做特征对齐去冗余并拼接送 MLP 预测头，输出生存风险。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["WSI（region/patch 两级）<br/>+ 基因组六组"] --> B["特征提取<br/>ResNet-50 + FC"]
    B --> C["多方向复合扫描 MDCS<br/>WSI 五方向 + 基因间隔扫描"]
    C --> D["Mamba 增强<br/>RegionMam / PatchMam / GeneMam"]
    D --> E["混合注意力-Mamba 专家 MoAME<br/>门控选专家做渐进跨模态融合"]
    E --> F["对齐约束去冗余<br/>L_cro 模态间 + L_intra 模态内"]
    F --> G["拼接 → MLP 预测头<br/>输出生存风险"]

关键设计¶

1. 多方向复合扫描 MDCS：让 Mamba 的感受野从单方向扩到全方位

现有 Mamba 病理方法只做水平扫描，上下相邻 patch 在序列里被拉远，垂直/斜向依赖丢失。MDCS 对 WSI 在 region 和 patch 两级都做五种方向扫描：水平（ho）、垂直（ve）、左斜（lo）、右斜（ro）、回环（lb），即 \(\hat{I}_r^j = \{x_{r,\phi_{r,j}(i)}\}_{i=1}^M\)，\(\phi_{r,j}\) 记录相对水平扫描的索引重排。patch 级先在每个 region 内扫、再跨 region 扫，实现粗（region）细（patch）粒度融合。对稀疏基因组，除常规前向（fw）扫描外，引入间隔（iv）扫描：按间隔 \(\Delta\) 跳着扫并回绕，把功能相关但分散在不同组的基因在序列上拉近，挖掘远距离基因组间的潜在关联（\(K\) 不能被 \(\Delta\) 整除时零填充到 \(\hat K\)）。五个方向序列经 Mamba2 编码后，用 \(\phi^{-1}_{r,j}\) 重排回水平序，求和聚合，再经 PPEG + 注意力池化蒸馏出模态内表示 \(I_r, I_p, G_g\in\mathbb{R}^{1\times E}\)（GeneMam 省去 PPEG）。

2. 注意力-Mamba 混合专家 MoAME：按模态对动态选最合适的融合方式

模态异质，单一注意力或单一 Mamba 都难充分交互。MoAME 设三个互补专家：CroAttFusion（A，跨注意力，抓全面互补关联）、CroMamFusion（M，跨 Mamba，线性复杂度抓互补关联）、StackedMamFusion（S，堆两层 Cross-Mamba + 随机初始化特征 \(\mathcal{B}\) 蒸馏最相关信息）。一个门控网络对每对输入 \((F_1, F_2)\) 算 \(\text{logit}=\text{argmax}\big(\text{Softmax}(\text{logits}')/\tau\big)\) 选专家（\(\tau\) 控平滑度），按 logit=0/1/2 分别走三个专家。这种"硬选专家"让融合既灵活又不过度，避免 MoME 那种因过度融合/滥用注意力带来的冗余。

3. EDIMI 渐进式跨模态交互：分步桥接模态鸿沟

EDIMI 模块用 MoAME 先做 \((I_r, G_g)\) 与 \((I_p, G_g)\) 的交互，得到 \(I_{r\&g}, I_{p\&g}\)；再用 \((G_g, I_{r\&g})\) 与 \((G_g, I_{p\&g})\) 的交互得到 \(G_{g\&r}, G_{g\&p}\)。这种渐进式融合（先图引基因、再基因引融合结果）一步步桥接模态鸿沟，比一次性硬融合更深。

4. 对齐约束去冗余：分别压模态间和模态内的重复信息

MoAME 多个融合模块仍会引入冗余。作者用 L1 距离做对齐：模态间 \(\mathcal{L}_{\text{cro}}=\mathcal{L}_r+\mathcal{L}_p+\mathcal{L}_g\)，其中 \(\mathcal{L}_r=\|I_{r\&g}-I_r\|_1\) 等，把融合表示拉向对应模态内表示（为防双向优化同时退化共享信息，把 \(I_r,I_p,G_g\) 从计算图分离，做单向优化）。模态内则因 region/patch 两级仍有冗余，用负 L1 放大二者差异：\(\mathcal{L}_{\text{intra}}=-\|I_r-I_p\|_1\)。最终拼接所有表示送 MLP 得风险 \(\hat{Y}\)，总损失 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{sur}}+\alpha\mathcal{L}_{\text{cro}}+\beta\mathcal{L}_{\text{intra}}\)（\(\mathcal{L}_{\text{sur}}\) 为负对数似然生存损失）。

损失函数 / 训练策略¶

五折交叉验证，指标为 c-index。WSI 在 10× 倍率切分，region \(4096\times4096\)、patch \(512\times512\)（正文 Fig.1 标 \(256\times256\)，⚠️ 以原文为准），ResNet-50 提特征。Adam，学习率 1e-3，weight decay 1e-5，batch size 1，间隔 \(\Delta=5\)，每折 30 epoch。\(\alpha\) 按五个数据集分别设为 [4e-1, 5e-4, 3e-1, 1e-4, 5e-4]，\(\beta=1e\text{-}3\)。GPU 为 GTX 4090（原文如此）。

实验关键数据¶

主实验¶

五个 TCGA 数据集：BLCA(373)、BRCA(956)、GBMLGG(569)、LUAD(453)、UCEC(480)，全部方法在统一设置下复现。

方法	模态	平均 c-index
SurvPath	P+G	0.7147
PIBD	P+G	0.7149
CMTA	P+G	0.7013
MoME	P+G	0.6693
SurvMamba	P+G	0.6985
PAM	P	0.6442
MDCS-MoAME	P+G	0.7383

相对各类基线的平均 c-index 提升：vs 基因模态方法 +6.48%~+11.61%；vs 病理模态方法 +11.12%~+16.88%；vs 多模态方法 +3.30%~+10.31%；vs Mamba/层次方法 PAM +14.61%、SurvMamba +5.70%；vs MoE 方法 PAMoE +16.34%、MoME +10.31%。

消融实验¶

主模块消融在 LUAD / UCEC 上：

配置	LUAD c-index	UCEC c-index	说明
完整 MDCS-MoAME	0.7079	0.7263	全模块
w/o MDSFE（换原始 Mamba）	0.6695	0.6752	掉点最多（-5.42% / -7.03%）
w/o EDIMI	0.6894	0.6929	跨模态交互失效（-2.61% / -4.60%）
w/o \(\mathcal{L}_{\text{cro}}\)	0.6864	0.7143	LUAD -3.13%
w/o \(\mathcal{L}_{\text{intra}}\)	0.6955	0.6981	UCEC -4.04%

关键发现¶

MDSFE（多方向复合扫描）贡献最大：换回原始单向 Mamba 后 LUAD/UCEC 分别掉 5.42%/7.03%，说明多方向扫描对充分挖掘模态内依赖至关重要。
扫描方向互补：单用直线（ho+ve）、斜向（lo+ro）或回环（lb）效果有限，直线+斜向组合带来显著提升；基因上间隔扫描优于前向扫描（能建模不连续的基因功能关联），全方向组合最佳。
对齐约束确实去冗余：\(\mathcal{L}_{\text{cro}}\) 和 \(\mathcal{L}_{\text{intra}}\) 各自带来约 1.7%~4% 的提升，验证了"压模态间 + 放大模态内差异"的去冗余思路。

亮点与洞察¶

"换扫描方向 = 换感受野"这个观察很实用：在 Mamba 的线性复杂度下加多方向扫描几乎零额外渐进开销，却把单向感受野扩成全方位，是个可迁移到任何 Mamba 视觉骨干的廉价 trick。
基因间隔扫描把"序列邻接"当成"功能邻接"来用：通过跳跃重排把分散在不同组、却功能相关的基因在序列上拉近，让 Mamba 的局部性偏置反而服务于捕捉远程基因关联，思路巧妙。
MoAME 用硬门控在三种融合强度间选择：注意力（全面）、Cross-Mamba（高效互补）、堆叠蒸馏（聚焦关键）各司其职，比 MoME 一味堆融合更省冗余——这种"按输入对选融合算子"的设计可迁移到其它异质多模态任务。

局限与展望¶

只在 5 个 TCGA 队列、c-index 单一指标上验证，外部队列泛化与临床可用性未知。
五方向扫描 + 三专家 + 多重对齐约束让结构相当复杂，超参（\(\Delta\)、\(\alpha\) 逐数据集调、\(\tau\) 等）较多且需精调，复现成本高。
门控用 argmax 硬选专家，训练中专家利用是否均衡、是否存在专家坍塌未讨论。
region/patch 切块尺寸在正文与图中标注不一致（\(4096/512\) vs \(256\)），细节需以原文/代码为准。

评分¶

新颖性: ⭐⭐⭐⭐ 多方向复合扫描 + 间隔基因扫描 + 注意力-Mamba 混合专家的组合在生存预测里是新颖且自洽的设计。
实验充分度: ⭐⭐⭐⭐ 5 数据集、与 17+ 方法对比、主模块/扫描方向/损失多维消融，较充分；但仅 TCGA、单指标。
写作质量: ⭐⭐⭐⭐ 方法与公式清晰，图文标注偶有不一致（切块尺寸）。
价值: ⭐⭐⭐⭐ 在 WSI+基因组生存预测上刷新 SOTA，扫描 trick 可迁移；但结构复杂、调参成本高。