SegCompass: Exploring Interpretable Alignment with Sparse Autoencoders for Enhanced Reasoning Segmentation¶

会议: CVPR 2026
arXiv: 2605.22658
代码: https://github.com/ZhenyuLU-Heliodore/SegCompass (有)
领域: 推理分割 / 多模态VLM / 可解释性
关键词: 推理分割、稀疏自编码器、CoT、可解释对齐、GRPO

一句话总结¶

SegCompass 用稀疏自编码器（SAE）把 MLLM 的链式推理（CoT）和视觉 token 投到一个共享的高维稀疏概念空间里，再经码本聚合、槽位映射生成可观察的多槽热力图来引导分割，从而把"推理→分割"这条原本是黑盒/事后拼接的通路改造成可逐步检视的"白盒"对齐，在 5 个基准上达到或超过 SOTA。

研究背景与动机¶

领域现状：推理分割（reasoning segmentation）要求模型根据复杂的、多步的自然语言指令（如"分割那个颜色和盘子匹配、且离水槽最近的杯子"）定位并分割目标。主流做法是把大语言模型的组合推理能力接到一个分割模块上，目前有两条技术路线。

现有痛点：第一条路线是潜在查询对齐（latent query alignment），代表是 LISA 系列——把 LLM 的隐状态映射成 latent query 去和视觉特征交互预测 mask。它确实端到端，但中间决策被封装在不透明的向量里，是个黑盒：你看不到模型究竟"想"了什么、又是凭什么定位到那块区域的。第二条路线是文本定位读出（textual localization readout），代表是 Seg-Zero / VisionReasoner / Text4Seg——先用 CoT 生成离散的定位 token（框坐标、patch 索引），再当作一个独立后处理步骤喂给 SAM。它的推理过程可读但不可解释：CoT 不受约束、空间线索的推导过程不透明、文本 token 本身又承载不了足够的语义细节，本质是事后拼接。

核心矛盾：两条路线都没能在"推理过程"和"最终 mask"之间建立一条既可解释又可验证的连接——要么端到端但不透明，要么可读但割裂。可解释性和端到端可微之间存在缺口。

本文目标：造一个机制，让"推理→感知"这条通路变成白盒：每一步用了哪些语义概念、这些概念落在图像的哪块区域，都能被检视，而且整条通路可微、可端到端训练。

切入角度：作者注意到稀疏自编码器（SAE）学到的特征是离散、高维、且语义可解释的——SAE 本就是为了把 LLM 内部叠加在一起的特征解纠缠成单个可命名的概念而设计的。既然 SAE 天生擅长"把激活拆成可解释概念"，那它正好可以充当推理与分割之间的可解释桥梁。

核心 idea：用 SAE 当接口，把 CoT 和视觉 token 都编码进同一个稀疏概念空间，再把被激活的稀疏概念显式地接地（grounding）成多槽热力图去引导分割，用稀疏概念这个"可命名的中间表示"替代不透明的 latent query 和割裂的文本 token。

方法详解¶

整体框架¶

SegCompass 要解决的是"如何让 MLLM 的推理透明地落到分割上"。整体是一条端到端的稀疏概念通路：输入一张图 + 一条指令，MLLM 策略 \(\pi_{\bm{\theta}}\) 先生成一段 CoT 推理和 \(K_s\) 个"聚焦 token"（concentration tokens）；接着 SAE 在某一层把图像 token、文本 token 和 CoT 的隐状态一起编码进一个超高维稀疏空间（\(d_{\text{sae}}=65536\)，而 LLM 隐维 \(d_\pi=4096\)）；一个可学习的查询码本（query codebook）从被激活的稀疏概念里挑出显著概念、再用 Transformer 编码块聚合成 \(K_s\) 个概念表示；聚焦 token 嵌入和概念表示融合成 \(K_s\) 个槽位查询，去和视觉编码器（ViT-H，即 SAM 的图像编码器）抽出的图像键做注意力，由槽位映射器（slot mapper）产生可观察的多槽热力图 \((\mathcal{H}_k, c_k)\)；最后 mask 解码器把热力图转成预测 mask。训练时把推理路径（用 GRPO 强化学习）和分割路径（用监督）统一在一个目标里联合优化。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像 + 指令"] --> B["MLLM 推理<br/>CoT + Ks 个聚焦 token"]
    B --> C["SAE 稀疏概念接口<br/>编码进 65536 维稀疏空间"]
    C --> D["查询码本 + Transformer<br/>选取并聚合成 Ks 个概念表示"]
    A --> K["视觉编码器 ViT-H<br/>抽图像键"]
    D --> E["槽位映射器<br/>概念×聚焦token 对图像键做注意力"]
    K --> E
    E --> F["多槽热力图 + 置信度<br/>(Hk, ck)"]
    F --> G["Mask 解码器 → 预测 mask"]

关键设计¶

1. SAE 稀疏概念接口：把推理和视觉投到可命名的共享概念空间

这是整篇论文的核心，针对的就是 latent query "不透明"和文本 token "割裂"的痛点。SAE 把某一层的 token 隐状态 \(\bm{z}\in\mathbb{R}^{T\times d_\pi}\) 经编码器 \(\mathcal{E}_{\text{sae}}\) 做一次线性映射加稀疏激活，得到超完备的高维稀疏激活 \(h(\bm{z})\in\mathbb{R}^{T\times d_{\text{sae}}}\)（\(d_{\text{sae}}\gg d_\pi\)，文中取 65536）。这个空间里每一维都像一个字典原子，只在它对应的概念出现时才激活，因此支持集 \(\mathcal{S}(\bm{z})=\{j: h_j(\bm{z})\neq 0\}\) 远小于 \(d_{\text{sae}}\)，得到的是稀疏、解纠缠的概念。关键在于这一编码对文本和视觉 token 统一适用——CoT 里提到"白色陶瓷碗"这个概念，和图像里碗那块区域的 token，会落到同一套稀疏概念基上，从而天然把"推理说了什么"和"图像哪里有"对齐起来。相比把推理压成一个不可读的 latent 向量，这里激活了哪些字典原子、激活强度多少都是显式的索引—激活对 \((j, h_j(\bm{z}))\)，可做概念级归因。SAE 在主训练前用 OBELICS 的 200K 样本单独预训练（每个 backbone 各训一个），目标是重建+稀疏：

\[\mathcal{L}_{\text{sae}}(\bm{z})=\|\bm{z}-\hat{\bm{z}}\|_2^2 + \alpha\|h(\bm{z})\|_1\]

其中 \(\hat{\bm{z}}=\mathcal{D}_{\text{sae}}(h(\bm{z}))\) 是线性解码重建，\(\ell_1\) 项把大部分坐标压到 0、逼出紧凑的概念基，\(\alpha\) 控制稀疏强度。

2. 查询码本 + 概念聚合：从一堆稀疏激活里挑出并攒成 Ks 个槽位概念

SAE 给出的是一大堆零散的索引—激活对，还不能直接拿去分割。这一步针对"如何把散乱的稀疏概念组织成对应若干目标的紧凑表示"。先过滤出非零激活得到 \(\{(j, h_j(\bm{z}))\}_{j\in\mathcal{S}(\bm{z})}\)，再用码本 \(\bm{C}\in\mathbb{R}^{d_{\text{sae}}\times d_c}\) 把这些被激活的稀疏概念解码回稠密空间；然后初始化 \(K_s\) 个概念表示，连同 \(\{\bm{C}(h_j(\bm{z}))\}\) 一起送进带自注意力的 Transformer 编码块，聚合出 \(K_s\) 个概念表示 \((\bm{r}_k)_{k=1}^{K_s}\)。这一步的妙处是保留了来源（provenance）：哪些来自 \(\mathcal{S}(\bm{z})\) 的索引、以多大权重贡献给了某个概念表示都是可追溯的，所以聚合后依然可解释。\(K_s\) 是超参（槽位上限设为 6），对应一条指令里可能涉及的多个目标。

3. 槽位映射器：把概念接地成可观察的多槽热力图

有了概念表示，还要把它"落"到图像的具体位置上——这是连接推理与像素的最后一跳。聚焦 token 嵌入 \(\bm{e}_k\) 和概念表示 \(\bm{r}_k\) 先经一个轻量 MLP 拼成槽位查询 \(\bm{Q}\in\mathbb{R}^{K_s\times d_q}\)；视觉骨干把图像编码成图像键 \(\bm{K}\in\mathbb{R}^{h\times w\times d_k}\)。槽位映射器对二者做多头注意力，对每个头算注意力分数 \(\bm{S}=[(\bm{Q}\bm{W}_i^Q)(\bm{K}\bm{W}_i^K)^\top/\sqrt{d_h}]_{i=1}^{N_h}\)，再分两个头分别产出空间热力图和置信度：

\[(\mathcal{H}_k)_{k=1}^{K_s}=\mathcal{F}_{\text{map}}(\bm{S}),\quad (c_k)_{k=1}^{K_s}=\mathcal{F}_{\text{conf}}(\bm{S})\]

热力图 \(\mathcal{H}_k\) 是每个槽位在图像上的空间足迹、\(c_k\) 是该槽位的可靠性。这一步让"第 k 个概念落在图像哪块、靠不靠谱"直接可视、可检视，正是论文所谓"白盒"的落点。最后 mask 解码器先用三层 2D 卷积把热力图重采样到解码分辨率，再用 SAM 风格的 Two-Way Transformer 在图像键和特征图之间做双向交叉注意力，输出最终 mask \(\hat{\bm{M}}=\mathcal{F}_{\text{dec}}(\bm{K},(\mathcal{H}_k,c_k))\)。

损失函数 / 训练策略¶

整体目标把语言路径的强化学习和视觉路径的分割监督耦合在一起：

\[\mathcal{L}=\mathcal{L}_{\text{grpo}}+\lambda_{\textsc{s}}\mathcal{L}_{\text{seg}}+\lambda_{\textsc{c}}\mathcal{L}_{\text{conf}}\]

GRPO（推理路径）：策略对每个输入采一组 \(G\) 个回答，按优势算 GRPO 损失。奖励由两部分组成——分割奖励（对预测 mask 和 GT 做二分图匹配，每个匹配对给一个结合置信度和 mask IoU 的分数）和格式奖励（用一组正则检查 CoT 格式），二者归一化到 \([0,1]\)，权重 0.7（分割）+ 0.3（格式）。
分割监督（视觉路径）：\(\mathcal{L}_{\text{seg}}=\mathcal{L}_{\text{bce}}((\mathcal{H}_k),\bm{M}_{\text{gt}})+\lambda_{\textsc{d}}\mathcal{L}_{\text{dice}}(\hat{\bm{M}},\bm{M}_{\text{gt}})\)，BCE 作用在多槽热力图上鼓励空间证据集中、Dice 直接监督 mask 质量。
置信度损失：\(\mathcal{L}_{\text{conf}}=\frac{1}{K_s}\sum_k\mathcal{L}_{\text{bce}}(c_k,y_k)\)，二值目标 \(y_k\) 表示该槽位是否匹配到某个 GT 实例。所有分割/置信度损失只在匹配对上计算。
超参：\(\lambda_{\textsc{s}}=1.0\)、\(\lambda_{\textsc{c}}=0.2\)、\(\lambda_{\textsc{d}}=0.6\)；MLLM 基础学习率 2e-6，码本/槽位映射器/mask 解码器分别乘 25×/80×/10×；AdamW（weight decay 0.01）+ OneCycleLR；8×A100 80GB。

实验关键数据¶

backbone 用三个 MLLM：Qwen2.5-VL-7B、LLaVA-1.5-7B、LLaVA-1.5-13B。在 RefCOCO(+/g)、gRefCOCO 上训练，ReasonSeg 做零样本评测。指标：RefCOCO 系列报 cIoU，gRefCOCO/ReasonSeg 报 cIoU + gIoU。

主实验¶

RefCOCO 系列（cIoU），与 27 个对比方法的代表对比：

数据集/split	本文 SegCompass	强基线	说明
RefCOCO val (13B)	86.3	HiMTok-8B 85.9 / X-SAM 85.1	几乎全 split 最优
RefCOCO+ val (13B)	80.5	HiMTok-8B 80.5	持平最强
RefCOCOg val (13B)	84.0	X-SAM-3.8B 83.8	略超 SOTA
RefCOCO+ testB (13B)	76.9	HiMTok-8B 76.4	超 SOTA

gRefCOCO（多目标，val，13B）：gIoU 76.8 / cIoU 72.2，超过 RAS-13B（74.6/70.5）、Text4Seg-13B（74.8/69.8）。

ReasonSeg（零样本，test，13B）：gIoU 64.2 / cIoU 66.5，超过 VisionReasoner-7B（63.6）、HiMTok-8B（60.8/66.2）。论文还指出：用 RL 训练的方法（Seg-Zero、SAM-R1、VisionReasoner、本文）在零样本上普遍优于其他方法，说明 RL 带来泛化收益。

消融实验（SegCompass-13B，RefCOCOg / gRefCOCO / ReasonSeg）¶

配置	RefCOCOg	gRefCOCO	ReasonSeg	说明
仅 RL	65.9	63.0	40.1	只有推理、无分割监督，掉得最狠
仅分割监督	77.9	74.0	59.3	有 mask 但推理弱
RL + 分割监督（Full）	81.3	77.3	66.5	二者互补，最优

视觉骨干：ViT-B(0.09B)→ViT-L(0.31B)→ViT-H(0.64B) 在 ReasonSeg 上 58.8→63.9→66.5，越大越好。

奖励配比（格式:分割）：1.0:0.0→0.5:0.5→0.3:0.7 在 ReasonSeg 上 63.9→66.2→66.5，分割奖励贡献更大（与分割质量直接相关，格式奖励只规范行为）。

关键发现¶

RL 与分割监督是强互补：单看 ReasonSeg，仅 RL 只有 40.1、仅监督 59.3，合起来跳到 66.5——RL 强化推理、监督强化 mask 生成，复杂推理分割两者缺一不可。
稀疏概念质量 ↔ mask 精度强相关（可解释性分析）：实例 token 和 CoT token 激活的稀疏特征最多，问题 token 次之，背景 token 最少，说明激活有语义选择性、聚焦在被分割对象和推理过程上；且 Qwen2.5-VL-7B 激活数更多、token 类型间分离更大，恰好对应它更强的下游结果。
实例覆盖率分析：尽管 SAE 只预训练、从未见过分割监督，按激活幅度排序的 top-K% token 对实例像素的覆盖率显著高于随机 K% 基线，说明 SAE 激活天然就对所指实体敏感。
GRPO 组大小：组越大性能越好（组内正负样本差异更明显），且不同组大小收敛所需总采样数差别不大，所以增大组大小近乎"免费"提分。

亮点与洞察¶

把 SAE 从"分析工具"变成"可微接口"：以往 SAE 主要用来事后分析 LLM 内部机制、控制不安全输出；本文第一次把它接进下游分割任务、端到端训练，让稀疏概念既能解释推理又能引导分割头——这个"用解释器当桥梁"的思路很巧。
统一推理与视觉两条异质优化路径：语言侧用 GRPO（无可微监督信号）、视觉侧用监督 Dice/BCE，二者在一个目标里联合优化且互补提分，给"RL 推理 + 监督感知"的混合训练提供了一个干净范式。
可解释性不是花瓶，而是和精度挂钩的：论文用激活模式、实例覆盖率两组分析定量证明"学到的稀疏概念质量越好、mask 越准"，把"可解释"从定性口号做成了可测的相关性——这点对后续做可信视觉系统很有借鉴。
多槽热力图天然支持多目标：\(K_s\) 个槽位 + 置信度 + 二分图匹配，让 gRefCOCO 这类"一条指令多个目标"的场景有了自然的输出结构，可迁移到任意需要"一指令多实例"接地的任务。

局限与展望¶

依赖逐 backbone 预训练 SAE：每个 MLLM backbone 都要单独用 200K OBELICS 样本预训一个 65536 维 SAE，换 backbone 成本不低，且 SAE 质量上限会卡住整体可解释性。
稀疏概念"可解释"的程度仍偏定量：论文证明了激活有语义选择性、和 mask 精度相关，但单个字典原子是否真对应人能命名的概念（如"白色陶瓷碗"），主要靠可视化举例，缺乏大规模的概念命名/一致性评估。
GRPO 训练开销：每个输入要采一组 \(G\) 个回答 + 8×A100，rollout 成本对复现不友好；group size 虽提分但也增加采样负担。
槽位上限固定为 6：超过 6 个目标的指令如何处理、\(K_s\) 设定对超多目标场景的影响，文中未充分讨论。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把 SAE 作为可微接口接进推理分割，开辟"白盒对齐"第三条路线
实验充分度: ⭐⭐⭐⭐ 5 基准 + 27 对比方法 + 训练模式/骨干/奖励/组大小消融，但 SAE 概念命名的人工评估偏弱
写作质量: ⭐⭐⭐⭐ 三路线对比清晰、pipeline 公式完整，部分模块（slot mapper 维度变换）需对照图才好懂
价值: ⭐⭐⭐⭐ 给"可解释 + 高性能可兼得"提供了可测的范式，对可信视觉系统有借鉴