Enhancing Part-Level Point Grounding for Any Open-Source MLLMs¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无（未公开）
领域: 多模态VLM
关键词: 部件级点定位, MLLM注意力, 冻结骨干, 查询合成, 机器人感知

一句话总结¶

不微调任何 MLLM 参数，仅在中间层"合成一个 grounding 感知的 query"来重塑 text-to-image 注意力、再用轻量解码器升采样成点热图，就能把开源 MLLM 的部件级（part-level）点定位精度大幅拉高，并能即插即用到任意带注意力机制的模型上。

研究背景与动机¶

领域现状：视觉定位（visual grounding）是把自由文本 query 对应到图像中的具体区域。近来 MLLM（如 Molmo、Qwen2.5-VL）开始把"点定位（point grounding）"写进训练目标，能直接以文本形式吐出坐标。点这种表示比框/掩码更紧凑、更贴近机器人抓取放置这类"动作位置"，因此在具身操作里很有用——比如叠衣服时要定位袖口、领口、下摆这些部件。

现有痛点：现有 MLLM 在物体级定位上表现不错，但部件级上明显拉胯。论文 Table 1 给出铁证：Molmo-7B 物体级 Acc 0.854、部件级只剩 0.487；Qwen2.5-VL-7B 物体级 0.838、部件级 0.407；没专门训过点定位的 First-Gen-MLLM 部件级仅 0.068。部件级要求更精细的空间定位，是细粒度操作任务的刚需。

核心矛盾：要增强 MLLM 的定位能力，过去两条路都有代价。第一条是微调：让模型自回归输出框坐标、或引入 [SEG] 特殊 token 再解码掩码——但微调会让模型过拟合到特殊 token 输出，损害原有的推理和对话能力。第二条是冻结参数、读注意力：近期工作发现 MLLM 的 text-to-image 注意力天然能高亮文本相关区域，可零样本拿来定位——但直接用原生注意力精度不够，对要求精确空间定位的部件级尤其不行。

本文目标：在完全冻结 MLLM、保住预训练能力的前提下，把原生注意力学着精修成更准的部件级点定位，并且方法要能通用地插到任意开源 MLLM 上。

切入角度：作者发现现有"读注意力"方法有两个具体短板——① 它们固定用句子最后一个 token 的 query 来代表整句语义（如"Point to the handle of the knife."用句号 . 的 query），当句子含多概念或需推理时，最后 token 抓不全语义；② 注意力图分辨率受图像 patch 化限制（通常是原图除以 14），即便选对 patch、直接指 patch 中心也定不准。

核心 idea：用一个可学习的 Q-Synth 模块从全部文本 query 中聚合语义、合成一个 grounding 感知的单 query 去驱动注意力；再用A2P 解码器把低分辨注意力升采样成点中心热图；外加一个SDF 惩罚场做点中心监督。三件套全程冻结骨干、端到端训练。

方法详解¶

整体框架¶

方法插在一个冻结的 MLLM 内部某层 \(l\)、某些注意力头 \(h\) 上。先按前人方法（[9]）选出 top-\(k\) 个"对定位最关键"的注意力头作为 localization heads；在每个头里，文本特征作 query \(Q_t\)、图像特征作 key \(K_v\)/value \(V_v\)。原生做法是拿某个目标 token 的 query \(q_{tg}\) 去算 text-to-image 注意力，本文要把它换成更好的。

整条 pipeline 三步走：(1) Q-Synth 模块吃下该层全部文本 query \(Q_t\in\mathbb{R}^{L\times d_h}\)，合成出单个 grounding 感知 query \(q_s\)，算出精修注意力图 \(A_s\)；(2) A2P 解码器用 \(A_s\) 去调制图像 value \(V_v\) 得到聚焦目标的特征图，融合 \(k\) 个头的特征后经卷积+双线性升采样，输出高分辨热图 \(H\)；(3) 取 \(H\) 的峰值位置作为最终预测点。训练时用两个损失：逐 patch 的 BCE 监督 \(A_s\)、SDF 惩罚场塑形 \(H\)，全程不动 MLLM 任何参数。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像 + 文本指令"] --> B["冻结 MLLM<br/>选 top-k 定位头<br/>得 Qt / Kv / Vv"]
    B --> C["Q-Synth 模块<br/>聚合全部文本query<br/>合成 qs → 注意力 As"]
    C --> D["A2P 解码器<br/>As 调制 Vv → 融合k头<br/>升采样成热图 H"]
    D --> E["取热图峰值<br/>输出预测点"]
    C -.->|"BCE 监督 As"| F["SDF 惩罚场<br/>点中心监督 H"]
    F -.->|"塑形 H"| D

关键设计¶

1. Q-Synth 查询合成模块：把整句语义压成一个 grounding 感知的 query

针对"固定用最后 token query 抓不全语义"这个痛点，Q-Synth 不再挑某一个 token，而是条件于全部文本 query \(Q_t\in\mathbb{R}^{L\times d_h}\) 来合成单个 query \(q_s\)。它初始化 \(N\) 个可学习 latent 向量 \(Z^{(0)}\in\mathbb{R}^{N\times d_h}\) 作 query，把文本特征同时当 key 和 value（\(K_s=V_s=Q_t\)），堆叠 \(T\) 轮 cross-attention 让 latent 反复"吸收+提炼"最相关的语义：

\[Z^{(t)} = Z^{(t-1)} + \mathrm{CrossAttn}\!\left(Z^{(t-1)},\, K_s,\, V_s\right)\]

跑完 \(T\) 轮得到 \(Z^{(T)}=[z_1,\dots,z_N]\)，再用一个轻量 MLP 算每个 latent 的重要性权重，加权求和成最终 query：

\[q_s = \sum_{i=1}^{N}\alpha_i z_i,\quad \alpha_i = \mathrm{softmax}\!\left(\mathrm{MLP}(z_i)\right)\]

\(q_s\) 替代原来的 \(q_{tg}\) 去算合成注意力图 \(A_s\)（公式形式同原生注意力 \(\mathrm{softmax}(q K_v^\top/\sqrt{d_h})\)）。每个被选中的 localization head 都挂一个独立 Q-Synth，产出 \(k\) 张合成注意力图。这一步是全方法的命门：消融显示去掉 Q-Synth 掉点最狠，说明瓶颈不在分辨率而在"注意力的语义精度"。

2. A2P 注意力到点解码器：把低分辨注意力升采样成点中心热图

针对"patch 化导致注意力分辨率低、指 patch 中心定不准"的痛点，A2P 解码器把 \(A_s\) 升级成高分辨热图。关键在于它不只用注意力本身，还引入原始图像 value \(V_v\)——因为 \(V_v\) 装着该注意力头真正"看到"的视觉内容。具体先用 \(A_s\) 加权 \(V_v\) 得到空间调制特征图 \(F\in\mathbb{R}^{P_h\times P_w\times d_h}\)，把目标区域点亮、无关区域压暗。由于有 \(k\) 个头各自的特征图，用一个轻量 MLP 学权重，沿特征维拼接后过 \(1\times1\) 卷积降维成融合特征 \(F_{\text{fused}}\)，最后经"卷积层 + 双线性升采样"交替的序列做空间精修与逐级上采样，输出高分辨热图 \(H\) 供点预测。消融里去掉对 \(V_v\) 的使用（解码器只吃 \(k\) 通道注意力图）精度从 0.463 掉到 0.453，说明细粒度视觉信息确实有用。

3. SDF 惩罚场：用非对称符号距离场把热图逼向部件最内点

针对"热图只覆盖区域、却没聚到最有代表性的那个点"的痛点，作者借鉴 3D 重建里的符号距离场（SDF）设计了一个非对称惩罚场。标准 SDF 对边界两侧对称（外正内负），但这里目标不对称：预测落在目标外应重罚，落在内算对、只给小罚，同时还想鼓励模型靠近目标最内点。于是用 softplus 配两个超参 \(\tau\)（控陡峭度）、\(\gamma\)（控内外不对称）把原始 SDF 值 \(x\) 映射成惩罚：

\[f(x) = \operatorname{softplus}\!\left(\frac{x}{\tau}\right) + \gamma\begin{cases} e^{x/\tau}, & x \le 0,\\ 1, & x > 0, \end{cases}\]

SDF 损失是预测热图分布与惩罚场的逐像素加权和：\(\mathcal{L}_{\text{sdf}} = \sum_{u,v}\operatorname{softmax}\!\big(H(u,v)\big)\,f\!\big(D(u,v)\big)\)，其中 \(D\) 是符号距离场。它逼着热图既不越界、又往最内点收紧，得到更尖锐、空间更连贯的热图。

损失函数 / 训练策略¶

总损失 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{bce}} + \lambda\,\mathcal{L}_{\text{sdf}}\)，端到端训练，全程冻结 MLLM 所有参数。其中 Q-Synth 用部件级分割掩码 \(M_p\)（由原掩码 \(M\) 下采样到 patch 网格）做逐 patch 分类监督：\(\mathcal{L}_{\text{bce}} = \mathrm{BCE}(q_s K_v^\top,\, M_p)\)，逼 \(q_s\) 与目标区域视觉特征对齐、产生近二值化的注意力激活，方便后续特征调制；A2P 的热图 \(H\) 由上面的 \(\mathcal{L}_{\text{sdf}}\) 塑形。

实验关键数据¶

主实验¶

三个数据集：PACO（直接指点，query 直接给出目标部件）、InstructPart（推理指点，query 省略部件需推理）、PointArena Point-Bench（跨任务泛化）。指标用 hit-or-miss：预测点落在 GT 掩码内即对；另报 Patch Accuracy（量化误差前的定位精度）。

主结果（PACO 直接指点 / InstructPart 推理指点，Accuracy）：

模型	方法	PACO Acc	InstructPart Acc
Molmo-7B	text pointing	0.487	0.710
Molmo-7B	attention pointing [9]	0.428	0.378
Molmo-7B	Ours	0.510	0.868
Qwen2.5-VL-7B	text pointing	0.407	0.708
Qwen2.5-VL-7B	attention pointing [9]	0.309	0.283
Qwen2.5-VL-7B	Ours	0.479	0.818
First-Gen-MLLM	text pointing	0.068	0.033
First-Gen-MLLM	attention pointing [9]	0.183	0.194
First-Gen-MLLM	Ours	0.463	0.783

最亮眼的是 First-Gen-MLLM：一个完全没训过点定位的模型，本文方法把它从 0.068 直接拉到 0.463（PACO）、0.033 拉到 0.783（InstructPart），证明只要模型有注意力机制就能被赋能。InstructPart 上提升尤其大（文本更长、更需推理），说明 Q-Synth 聚合全句语义的优势在长文本场景被放大。

跨数据集泛化（PointArena，PACO 训练后直接评，Patch-Acc）：

模型	方法	Affordance	Spatial	Reasoning	Steerability
Molmo-7B	attn pointing	0.495	0.436	0.513	0.285
Molmo-7B	Ours	0.793	0.554	0.653	0.450
Qwen2.5-VL-7B	attn pointing	0.359	0.431	0.373	0.227
Qwen2.5-VL-7B	Ours	0.838	0.585	0.658	0.430

即便在训练中没见过的任务（Spatial / Reasoning / Steerability）上也全面超过原生注意力指点，说明方法学到的是"把文本意图凝练成 grounding query"的通用能力。

消融实验¶

在 First-Gen-MLLM + PACO 上做（该模型本无指点能力，提升可直接归因于本文组件）：

Q-Synth	A2P Decoder	Image V	Accuracy	说明
✓	✓	✓	0.463	完整模型
✓	✓	✗	0.453	去掉图像 V 输入，缺细粒度视觉信息
✓	✗	—	0.429	去掉 A2P，仅用低分辨注意力（仍远高于基线 0.183）
✗	✓	✓	0.336	去掉 Q-Synth，仅原生注意力进解码器（掉点最狠）

localization head 数量消融：\(k=1\) 为 0.427、\(k=3\) 为 0.451、\(k=5\)（本文）为 0.463；\(k>5\) 时多出的头定位较弱、注意力不够独特且算力增加，故止步 5。

关键发现¶

Q-Synth 贡献最大：去掉它精度从 0.463 暴跌到 0.336，证明瓶颈不在注意力分辨率低，而在其语义精度——即便有 A2P 升采样精修，糟糕的注意力初始化也救不回来。
A2P 用图像 V 是有效细节：去掉对 \(V_v\) 的利用掉 1 个点（0.463→0.453），仅有注意力图本身不够，还需注入真实视觉内容。
head 越多越好（到 5 为止）：与前人 [9] 发现 \(k=3\) 最优不同，本文因 A2P 利用了图像 \(V\)，更多头提供更丰富多样的特征基底，故 \(k=5\) 最佳。

亮点与洞察¶

"合成 query"而非"挑 token"：用 Perceiver 式可学习 latent 把整句语义聚合成单个 grounding query，巧妙绕开"最后 token 抓不全语义"的老问题，且能即插到任意 MLLM 的任意注意力头上。
冻结骨干、零微调即赋能：完全不动 MLLM 参数就把 First-Gen-MLLM 从几乎不会指点（0.068）拉到可用（0.463），既保住预训练推理/对话能力，又给"未来新 MLLM 怎么低成本加细粒度定位"指了一条可扩展的路。
非对称 SDF 惩罚场：把 3D 重建的 SDF 思想搬到 2D 点定位监督，用 softplus + 内外不对称项把"覆盖区域"升级为"逼向最内点"，这个监督设计可迁移到任何需要"点中心热图"的任务（如关键点、抓取点预测）。

局限与展望¶

依赖部件级分割掩码做训练监督：Q-Synth 的 BCE 和 A2P 的 SDF 都需要 \(M_p\)/SDF，意味着仍要有部件级标注的数据集（如 PACO），无标注新域如何自适应未讨论。
解码器细节藏在补充材料：A2P 具体卷积层数/升采样倍率正文未给全，复现需查 supplementary（⚠️ 以原文为准），且代码未公开。
只做 2D 点：面向机器人抓取的实际动作往往需要 3D 位姿，从 2D 点到可执行 grasp 还有 gap，论文只验证了 2D 定位精度、未接真实操作闭环。
超参 \(\tau,\gamma,\lambda\) 敏感性：惩罚场陡峭度/不对称度与 SDF 权重的取值正文未做敏感性分析。

评分¶

新颖性: ⭐⭐⭐⭐ "合成 grounding query + 冻结骨干精修注意力 + 非对称 SDF 监督"三件套组合新颖，但建立在已有"注意力即定位"发现之上。
实验充分度: ⭐⭐⭐⭐ 跨 3 个 MLLM、3 个数据集、含泛化与组件消融，证据扎实；缺超参敏感性与真实机器人闭环验证。
写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑清晰，图 2/3 把 pipeline 讲得明白，部分解码器细节下放补充材料。
价值: ⭐⭐⭐⭐ 给"任意开源 MLLM 低成本获得部件级点定位"提供了即插即用方案，对具身/机器人感知有实用价值。