跳转至

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

会议: CVPR 2026
arXiv: 2603.00667
作者: Wentao Huang 等 (Stony Brook University, Mayo Clinic, Harvard/MGH, Stanford)
领域: 医学图像 / 病理VQA
关键词: Whole Slide Image, 视觉问答, 信息瓶颈, Patch Selection, 组织感知推理

一句话总结

提出 HistoSelect 框架,模拟病理学家从粗到细的推理过程,通过组织分割→Group Sampler→Patch Selector 的三级筛选机制,基于信息瓶颈(IB)理论压缩无关视觉token,在减少约70%计算量的同时实现三个数据集上的SOTA。

研究背景与动机

病理全切片图像(WSI)是癌症诊断的金标准,但一张WSI包含数万个patch,直接输入大语言模型面临两大瓶颈:

计算瓶颈:WSI分辨率可达100,000×100,000像素,切分后产生数万patch,每个patch编码为一个visual token,远超LLM上下文窗口

信息冗余:病理学家在诊断时并非逐patch查看,而是先识别组织类型,再聚焦于与问题相关的区域——大部分patch与当前问题无关

现有方法如Q-Instruct、PathChat等要么均匀采样(丢失关键信息),要么全量输入(计算不可行)。核心矛盾是:如何在大幅减少token数的同时保留诊断相关信息?

病理学家的实际工作流提供了天然灵感:先低倍镜概览组织结构,再高倍镜深入可疑区域。HistoSelect 正是将这一"粗到细"推理过程形式化。

方法详解

整体框架

HistoSelect 要解决的核心矛盾是:一张 WSI 切出数万个 patch、远超 LLM 上下文窗口,但病理学家诊断时根本不会逐 patch 看,而是先认组织、再聚焦可疑区。它把这套"粗看→细查"的认知流程形式化成三级筛选——先按组织类型把 patch 分组,再由 Group Sampler 决定每组采多少,最后 Patch Selector 在组内精选最相关的 patch,选出的少量 patch 才送进 VLM 做问答,从而在大砍 token 的同时留住诊断相关信息。整个 pipeline 由问题特征 \(q\) 全程引导:Group Sampler 和 Patch Selector 都把 \(q\) 作为输入,确保"看哪些组织、选哪些 patch"随问题而变。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["WSI(切成数万 patch)"] --> B["CONCH 视觉编码器<br/>得到 patch 特征 X"]
    Q["问题 Q<br/>文本编码为 q"]
    B --> C["组织感知分组<br/>patch 与组织 prompt 算余弦相似度→分到 M 组"]
    C --> D["Group Sampler<br/>按问题给每组定采样率 r_j→预算 k_j"]
    Q -.问题引导.-> D
    D --> E["Patch Selector<br/>组内按 s_i 取 top-k_j(STE 硬选)"]
    Q -.问题引导.-> E
    E --> F["选出的少量 patch + 问题<br/>送入 VLM 解码"]
    F --> G["生成答案"]

关键设计

1. 组织感知分组:先按组织类型把数万 patch 归类

直接把所有 patch 丢给模型既算不动也没必要,第一步先模仿病理学家"低倍镜认组织"。由病理学家预定义 M 个组织类型文本 prompt(如"tumor tissue""stroma""necrosis"),用病理领域的 CLIP 模型 CONCH 算每个 patch 特征与这些 prompt 的余弦相似度,把每个 patch 分到相似度最高的组织类型,得到 M 个组 \(\{G_1, G_2, \ldots, G_M\}\)。这一步把无结构的 patch 海洋变成有语义的分组,为后面按组分配预算打底。

2. Group Sampler:按问题决定每组该看多少(组级 IB)

不同问题关心的组织不同,所以每组的采样预算应随问题变。对每组先算组型向量 \(g_j\)(组内 patch 特征的均值),把 \(g_j\) 与问题编码 \(q\) 拼起来送进两层 MLP 接 sigmoid,输出采样率 \(r_j \in (0,1)\),再换算成该组要保留的 patch 数 \(k_j = \lceil r_j \cdot N_j \rceil\)。这里用信息瓶颈(IB)目标约束:最大化 \(r_j\) 与答案的互信息、同时压低 \(r_j\) 的复杂度,让模型学会"哪类组织对当前问题值得多看"。

3. Patch Selector:组内逐 patch 硬选 top-k

定了每组预算,还要在组内挑出最相关的具体 patch。对每个 patch 算选择概率 \(s_i = \sigma(F_{\text{patch}}([x_i; q]))\)\(F_{\text{patch}}\) 是小型 MLP),在 \(G_j\) 内按 \(s_i\) 排序取 top-\(k_j\)。硬选择不可微,用 Straight-Through Estimator(STE)让梯度照样回传。相比软注意力,硬选择是真把无关 patch 丢掉、真省了计算,这正是它要的效果。

损失函数 / 训练策略

总损失三项,体现组级 + patch 级的双层 IB 压缩(源自变分信息瓶颈 VIB 目标的层级分解,把整体压缩项拆成组采样器和 patch 选择器两段分别正则):

\[L = L_{\text{VQA}} + \beta_g L_{\text{group}} + \beta_p L_{\text{patch}}\]
  • \(L_{\text{VQA}}\):标准 VQA 负对数似然(答案序列的自回归交叉熵)
  • \(L_{\text{group}}\)(组级 IB 正则):把采样率 \(r_j\) 视作 Bernoulli 参数,与先验 \(p_j^g\) 之间的 Bernoulli KL 散度;先验 \(p_j^g\) 取组型向量 \(g_j\) 与问题 \(q\) 的余弦相似度
  • \(L_{\text{patch}}\)(patch 级 IB 正则):把选择概率 \(s_i\) 视作 Bernoulli 参数,与先验 \(p_i^p\) 之间的 Bernoulli KL 散度;先验 \(p_i^p\) 取 patch 特征 \(x_i\) 与问题 \(q\) 的余弦相似度

训练时端到端联合优化 Group Sampler、Patch Selector 和 VLM,STE 保证梯度穿过硬选择回传,余弦相似度先验作为无监督弱信号指导选择。

实验关键数据

主实验

方法 SlideBench-VQA (Acc) WSI-Bench (Acc) In-house 卵巢 (Acc) Visual Token 减少
Random Sampling 52.3 48.7 61.2 70%
Q-Instruct 56.1 51.3 64.8 0%
PathChat 58.4 53.9 67.3 0%
HistoSelect 63.7 58.2 73.6 ~70%

在 356K QA 对上训练,三个数据集一致SOTA。

消融实验

配置 SlideBench-VQA 变化
Full HistoSelect 63.7
w/o Group Sampler 59.8 -3.9
w/o Patch Selector 60.5 -3.2
w/o IB Loss (group) 61.2 -2.5
w/o IB Loss (patch) 61.8 -1.9
Random patch selection 55.1 -8.6

关键发现

  1. 双层筛选缺一不可:去掉Group Sampler或Patch Selector均显著下降,证明粗到细的两级筛选互为补充
  2. IB正则有效:去掉IB损失后性能下降,说明先验引导的信息压缩不仅降计算还提精度
  3. 可解释性强:所选patch与资深病理学家标注的诊断关键区域高度一致,验证了方法的临床合理性
  4. 70%压缩无损:大幅减少token数的同时性能反超全量输入方法,说明去除噪声patch本身有益

亮点与洞察

  1. 认知启发的设计:从病理学家的"粗看→细查"工作流出发,将领域知识编码为模型架构,比纯数据驱动更高效
  2. IB理论的优雅应用:信息瓶颈从理论概念到双层(组级+patch级)的实际落地,Bernoulli KL + 余弦先验的设计简洁有效
  3. STE解决硬选择:硬采样比软注意力更符合实际需求(真正减少计算),STE保证可训练
  4. 临床可解释性:不只是跑分,选出的patch与病理学家认知一致,增加了方法的可信度和实用性

局限与展望

  1. 组织类型需预定义:M个组织prompt由领域专家手工设定,跨疾病/跨器官迁移时需重新配置
  2. CONCH依赖:分组质量受限于CONCH模型在特定病理领域的编码能力,尾部罕见组织类型可能分组不准
  3. 硬选择的信息丢失:虽然STE能训练,但被丢弃的patch中仍可能包含微弱但有用的上下文信息
  4. 多尺度未考虑:当前方法在单一放大倍率下工作,未利用WSI的多尺度金字塔结构
  5. 计算量仍需关注:CONCH编码所有patch + MLP推理的前置开销在超大WSI上可能不可忽略

相关工作与启发

  • CONCH / PLIP:病理领域的视觉-语言对齐模型,提供了高质量的patch特征空间
  • Information Bottleneck:Tishby et al. 的经典理论,在视频理解(AdaFocus)和NLP(VIB)中有成熟应用
  • PathChat / LLaVA-Med:病理VQA的代表方法,HistoSelect可作为它们的即插即用前端
  • 启发:IB双层压缩框架可推广到其他存在层级结构的长序列任务(如长视频理解、多文档QA)

评分

维度 分数 (1-5) 说明
创新性 4 IB双层压缩+病理认知流程的结合新颖
技术深度 4 信息论基础扎实,STE/先验设计合理
实验充分度 4 三数据集+消融+可解释性分析
实用价值 5 减70% token且性能提升,临床可落地
写作清晰度 4 思路清晰,图示直观
总分 4.2 认知启发+信息论的优雅结合