AnchorSeg: Language Grounded Query Banks for Reasoning Segmentation¶

会议: ACL 2026
arXiv: 2604.18562
代码: https://github.com/rui-qian/AnchorSeg
领域: 推理分割 / 多模态VLM
关键词: 推理分割, 语言引导查询库, 空间先验, Token-Mask一致性, SAM

一句话总结¶

提出AnchorSeg，将推理分割重构为基于语言引导查询库的结构化条件生成过程，通过锚点查询显式解耦空间定位与语义推理，配合Token-Mask循环一致性训练目标，在ReasonSeg上达到SOTA（67.7% gIoU, 68.1% cIoU）。

研究背景与动机¶

领域现状：推理分割要求模型根据复杂、隐含的文本查询（如"这个场景中提供遮荫的物体"）预测像素级掩码。LISA等方法引入<SEG> token，将其隐藏状态作为单一查询送入SAM解码器来预测掩码。

现有痛点：现有方法将语义推理和空间定位都压缩到单一<SEG> token的隐藏表示中，这种隐式压缩限制了模型显式区分"分割什么"（语义推理）和"在哪分割"（空间定位）的能力，在复杂推理场景下表现受限。

核心矛盾：单一embedding需要同时编码语义理解和空间位置两种本质不同的信息，这造成了表征瓶颈——推理越复杂，单一向量越难以同时承载两种信号。

本文目标：将推理分割重新定义为结构化条件生成问题，在图像token层面显式建模空间定位，并用语言引导的查询来提供条件。

切入角度：引入多个可学习token构成"查询库"，让不同token承担不同角色——上下文查询负责语义推理，锚点查询负责空间定位。

核心 idea：用语言引导的查询库替代单一SEG token，通过因子化条件分布显式解耦空间定位（锚点查询）与语义调制（上下文查询）。

方法详解¶

整体框架¶

输入图像和文本查询，LMM（如LLaVA）自回归生成K个潜在推理token和1个分割锚点token <SEG>，构成查询库 \(\mathbf{Q} = (\boldsymbol{q}_1, ..., \boldsymbol{q}_K, \boldsymbol{q}_{anc})\)。锚点查询与图像token计算相似度产生空间先验，注入视觉特征后，整个查询库送入SAM解码器预测最终掩码。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["输入：图像 + 文本查询"] --> B
    subgraph B["语言引导查询库构建"]
        direction TB
        B1["LMM 自回归生成<br/>K 个潜在推理 token + 1 个 &lt;SEG&gt;"] --> B2["上下文查询（分割什么）<br/>+ 锚点查询（在哪分割）"]
    end
    B --> C["语言引导空间条件化<br/>锚点查询·图像 token 内积 → 空间先验 P<br/>逐元素注入视觉特征 f"]
    C --> D["SAM 解码器<br/>整个查询库条件化"]
    D --> E["预测掩码"]
    C -.->|训练约束| T["Token-Mask 循环一致性 TMCC<br/>token 级响应 ↔ 像素级掩码 双向对齐"]
    E -.->|训练约束| T

关键设计¶

1. 语言引导查询库构建：把挤在一个 token 里的"推什么"和"在哪"拆到不同 token 上

旧范式把语义推理和空间定位全压进单个 <SEG> token，推理越复杂这个向量越扛不住。AnchorSeg 扩展 LMM 的词表，引入 \(K\) 个潜在推理 token <LAT_1>,...,<LAT_K> 和一个分割 token <SEG>，自回归生成时 <SEG> 显式条件化在前面的推理 token 之上：上下文查询 \(\boldsymbol{q}_{1:K}\) 负责编码中间推理状态、对应"分割什么"，锚点查询 \(\boldsymbol{q}_{anc}\) 专门承载"在哪分割"的空间信号。这样模型内部自然形成"先推理、后定位"的有序分工，不再让单个 embedding 同时背两份本质不同的信息。

2. 语言引导空间条件化：让锚点查询直接在图像 token 上算出一张空间先验图

光是拆出锚点查询还不够，得把它变成解码器能用的显式定位信号。AnchorSeg 把空间定位建模成图像 token 上的因子化条件分布 \(p(\boldsymbol{S}|\mathbf{Q}) = \prod_i p(s_i | \boldsymbol{i}_i, \boldsymbol{q}_{1:K}, \boldsymbol{q}_{anc})\)，落地时就是锚点查询与每个图像 token 做内积算空间响应 \(s_i = \boldsymbol{i}_i^\top \boldsymbol{q}_{anc}\)，reshape 成空间先验图 \(\mathbf{P}\)，再逐元素加回视觉特征 \(\tilde{\mathbf{f}} = \mathbf{f} \oplus \mathbf{P}\) 后送进 SAM 解码器。锚点查询直接产出定位响应，而上下文查询通过自回归生成链路隐式塑造锚点查询的内容，于是语义对空间的调制就显式发生在特征层面，而非埋在一个不可分解的向量里。

3. Token-Mask 循环一致性（TMCC）：用双向约束补上 token 级响应与像素级掩码的分辨率落差

空间响应在低分辨率的 token 网格上算，监督却是高分辨率的像素掩码，两个层次各算各的容易打架。TMCC 加一对双向约束把它们锁住：Token-to-Mask 把 token 级响应上采样到图像分辨率，用 BCE+Dice 损失对齐高斯平滑后的 GT 掩码；Mask-to-Token 反过来把 GT 掩码下采样到 token 分辨率，与 token 级响应对齐。一上一下互相校准，保证语义-视觉两个层级上的空间推理保持一致、不至于训练发散。

损失函数 / 训练策略¶

总损失包含三部分：自回归文本生成损失 \(\mathcal{L}_{txt}\)、SAM掩码预测损失 \(\mathcal{L}_{mask}\)（BCE+Dice）、以及TMCC损失 \(\mathcal{L}_{T2M} + \mathcal{L}_{M2T}\)。TMCC的BCE和Dice权重与掩码损失共享。

实验关键数据¶

主实验¶

在ReasonSeg测试集上的表现：

方法	gIoU	cIoU
LISA-7B	54.3	58.1
GSVA-7B	55.6	59.4
READ-7B	57.2	60.5
RSVP-7B	63.7	64.8
AnchorSeg-7B	67.7	68.1

消融实验¶

配置	gIoU	说明
单一SEG token (baseline)	54.3	LISA原始设计
+ 查询库 (无空间先验)	~62	多token推理有帮助
+ 空间先验注入	~65	显式定位信号提升大
+ TMCC	67.7	双向一致性进一步提升

关键发现¶

从单一SEG token到查询库的提升最为显著，说明多token推理结构是核心贡献
空间先验的显式注入（而非仅作为查询）带来明显额外收益，验证了解耦设计的必要性
TMCC的双向一致性约束虽然提升幅度不大，但有效防止了训练不稳定
在RefCOCO/+/g上也展现出竞争力，表明方法泛化性好

亮点与洞察¶

因子化条件分布的建模方式非常优雅：将空间定位显式建模为"每个图像token的相关性"，数学表达清晰且物理意义明确。这种token级的空间推理可以迁移到其他需要精确定位的多模态任务。
查询库内部的角色分工（上下文查询 vs 锚点查询）类似于人类的认知过程：先理解问题语义，再进行空间定位，最后精细分割。
TMCC的跨分辨率一致性约束是一个简洁但有效的正则化手段，可应用于任何涉及不同分辨率表征对齐的场景。

局限与展望¶

查询库中的K值（潜在推理token数量）是超参数，不同复杂度的查询可能需要不同数量的推理token
空间先验仅通过简单内积计算，可能在需要复杂空间推理（如遮挡关系）时不够强大
目前仅在推理分割和referring segmentation上评估，未探索在视觉问答等其他任务中的泛化
方法依赖SAM作为掩码解码器，受SAM本身能力的限制

评分¶

新颖性: ⭐⭐⭐⭐⭐ 查询库+因子化空间条件化的设计思路非常新颖
实验充分度: ⭐⭐⭐⭐ 在ReasonSeg和RefCOCO上全面评估
写作质量: ⭐⭐⭐⭐ 形式化清晰，但部分符号较重
价值: ⭐⭐⭐⭐ 为推理分割提供了更结构化的解决范式