BAMI: Training-Free Bias Mitigation in GUI Grounding¶

会议: CVPR 2026
arXiv: 2605.06664
代码: https://github.com/Neur-IO/BAMI (有)
领域: Agent / 多模态VLM
关键词: GUI Grounding, 免训练, 归纳偏差, 测试时推理, 由粗到精

一句话总结¶

本文先用 MPD 归因法诊断出 GUI grounding 的错误主要来自两类归纳偏差（精度偏差 + 歧义偏差），再提出免训练的 BAMI 推理框架，用「由粗到精聚焦」消除精度偏差、用「候选选择」消除歧义偏差，把 TianXi-Action-7B 在 ScreenSpot-Pro 上的准确率从 51.9% 提到 57.8%。

研究背景与动机¶

领域现状：GUI grounding 是 GUI agent 的核心能力——给定自然语言指令 + 截图，模型要在高分辨率界面里精确定位目标控件坐标，才能执行点击/拖拽/输入等原子动作。主流范式已经从依赖 XML/DOM 结构树，转向「指令 + 截图 → MLLM 直接吐坐标」的纯视觉路线（如 OS-Atlas、UI-TARS、TianXi-Action）。

现有痛点：在专业软件场景（ScreenSpot-Pro 这类高分辨率、小目标、控件密集的 benchmark）上，绝大多数模型的准确率仍低于 50%。问题是，这些模型其实已经被充分训练过，为什么还是定位不准？是知识不够，还是别的原因？

核心矛盾：作者从「错误驱动」视角把失败分成两类——(1) 知识缺陷：模型压根不认识目标；(2) 归纳偏差：模型有相关知识、但因为自身的选择偏好出错。后者又细分为 精度偏差（认对了目标但坐标系统性偏移）和 歧义偏差（被相似区域/误导性语义带偏）。通过 MPD 归因法统计 50 个错误样本发现，只有约 14% 来自知识缺陷，而高达 74% 来自归纳偏差——这意味着不重训模型、只优化推理方式就能挽回大半错误。

本文目标：在完全不微调模型的前提下，分别针对精度偏差和歧义偏差设计推理时操作，把现有开源 backbone 的潜力榨出来。

核心 idea：把「一步到位的坐标回归」改造成「带偏差感知操作的递归式多步结构化推理」——外层用裁剪逐级聚焦修精度偏差，每一级内用「掩码生成多候选 + 外部模型重选」修歧义偏差。

方法详解¶

整体框架¶

BAMI（Bias-Aware Manipulation Inference）是一个套在任意现成 grounding 模型外面的免训练推理流程。输入是「指令 q + 截图 I」，输出是单个定位点 (x, y)。它把单步定位拆成 N 轮「由粗到精」的外循环：每一轮先在当前图上让 grounding 模型反复预测、每预测一个候选框就把框内像素掩掉以逼出互斥的多个候选，然后交给一个外部「纠错模型」按 GUI 先验规则从候选里挑出最合理的框，再以该框为中心按比例 λ 裁剪图像进入下一轮；N 轮后取最终框中心作为定位点。整套流程的诊断依据来自前置的 MPD 归因。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["指令 + 高分辨率截图"] --> B["MPD 误差归因<br/>诊断偏差来源"]
    B --> C["由粗到精聚焦<br/>按 λ 裁剪缩小搜索域"]
    C --> D["候选选择<br/>掩码生成互斥多候选"]
    D --> E["纠错模型按 KP 规则重选"]
    E -->|未到 N 轮: 以选中框裁剪| C
    E -->|已到 N 轮| F["输出定位点 (x,y)"]

关键设计¶

1. MPD 误差归因：把"模型到底看哪儿"画成热力图

要对症下药，先得知道错在哪。传统梯度归因（GradCAM、Integrated Gradients）不适配「离散文本 → 坐标」这种生成式输出；改用 Shapley 值在数学上更严谨，但对高分辨率截图单样本要在一块 RTX 4090 上算约 10 小时，完全不可行。本文提出 Masked Prediction Distribution (MPD)：对同一截图随机遮挡不同区域、重复预测（每样本 300 次扰动），把所有预测点的空间频率聚合成热力图，约 20 分钟出一张。热力图里预测点越密、说明模型对该区域越自信，从而直观暴露错误来源。基于它对 50 个错误样本的统计给出了关键诊断：知识缺陷 14%、精度偏差 20%、歧义偏差 54%、其他 12%——后两类共 74% 的归纳偏差正是 BAMI 要打的靶子

2. 由粗到精聚焦：用层级裁剪消除离散化带来的精度偏差

精度偏差的根因在坐标的离散化：Qwen 系模型把坐标值（如 \(x_1=789\)）拆成单个数字字符 <7><8><9> 再转成 token，精度天生被钉死在个位级，输出难以完美精确，误差有时达几十甚至上百像素。受人类「先扫一眼再凑近看」的观察策略启发，BAMI 先用 grounding 模型预测一个粗坐标 \((x^t, y^t)\)，再以该点为中心把原图裁到比例 \(\lambda<1\)，把裁剪后的小图重新喂回模型做精定位得到 \((x^{t+1}, y^{t+1})\)。裁剪等价于局部放大、缩小搜索空间、抬高有效分辨率，所以坐标越来越准。这里存在超参 trade-off：迭代次数过多会让累计裁剪比过大、反而丢上下文掉点（实验里 2 轮最优）；裁剪比 λ 太小（<40%）会裁掉关键上下文、太大又放大不够（实测 λ∈[0.5,0.7] 最佳）

3. 候选选择：用掩码多样化 + 外部纠错模型修正歧义偏差

歧义偏差来自训练目标与空间度量的错位：交叉熵优化的是 token 序列的编辑距离，而非坐标的欧氏距离。举例真值 \(x_{\text{GT}}=789\)，候选 \(x'=189\) 与 \(x''=801\)，编辑距离 \(d_{\text{edit}}(x_{\text{GT}},x')=1<d_{\text{edit}}(x_{\text{GT}},x'')=3\)，但欧氏距离 \(d_{\text{euc}}(x_{\text{GT}},x')=600>d_{\text{euc}}(x_{\text{GT}},x'')=12\)——模型按编辑距离会选错的那个。BAMI 的解法分两步：先掩码逼出互斥候选——每预测出一个候选框就把框内像素遮掉再预测，保证新候选与已有结果互不重叠（每轮 2~3 个）；再用一个外部纠错模型（在线 GPT-5 / Gemini-2.5-Pro，或本地 LoRA 微调的 Qwen3-VL-8B）从候选里重选。关键不在用什么模型、而在 prompt 设计：朴素 prompt 没用，必须把符合 GUI 先验的 Key Principle（KP） 注入提示词（功能优先、记忆比对标准控件模式、交互元素优先于静态文本），相当于把欧氏空间的优先级先验灌进选择过程，纠正 grounding 模型按编辑距离排序的错误倾向

一个例子：一次 BAMI 推理（N=2, M=2~3）¶

以一张 ScreenSpot-Pro 专业软件截图为例：第 1 轮在全图上让模型预测，得到候选框 A，掩掉 A 内像素再预测得 B，凑出互斥候选集 {A, B}；纠错模型按 KP 规则判断「目标是可交互按钮」→ 选中 B；以 B 为中心按 λ=0.6 裁剪得到局部放大图进入第 2 轮；在局部图上同样掩码生成 2~3 个更精细候选、纠错模型再选一个；取第 2 轮选中框的中心点作为最终定位 (x, y)。两轮下来，搜索域从全屏收缩到目标局部、候选从编辑距离主导改为 GUI 先验主导，精度与歧义两类偏差被同时压下。

实验关键数据¶

主实验¶

在 ScreenSpot-Pro（高分辨率专业软件、小目标）上对比各类方法（Avg. 为综合准确率 %）：

方法	类型	ScreenSpot-Pro Avg.
GPT-4o	专有模型	0.8
Claude Computer Use	专有模型	17.1
OS-Atlas-7B	GUI-SFT	18.9
UI-TARS-7B	GUI-SFT	35.7
TianXi-Action-7B	GUI-SFT	51.9
GUI-G2-7B	GUI-RL	47.5
GUI-RC	测试时方法	41.2
DiMo-GUI-7B	测试时方法	49.7
BAMI-7B (本文)	测试时方法	57.8

BAMI 把基座 TianXi-Action-7B 从 51.9% 提到 57.8%（+5.9），在 7B 级别拿到 SOTA，且明显超过同为测试时方法的 DiMo-GUI（49.7）和 GUI-RC（41.2）。

跨基座一致性（Table 3，+BAMI 为加本文方法后的 Avg.）：

基座	原始	+ BAMI	提升
UGround-7B	16.5	30.0	+13.5
OS-Atlas-7B	18.9	41.6	+22.7
UI-TARS-1.5-7B	40.8	51.9	+11.1
TianXi-Action-7B	51.9	57.8 (GPT-5) / 56.2 (本地)	+5.9 / +4.3

对越弱的基座增益越大（OS-Atlas +22.7），说明 BAMI 主要在「模型有知识但被偏差带偏」的样本上发力。

消融实验¶

两类操作各自的贡献，以及 prompt 设计（Table 4，基座 51.9%）：

配置	准确率	说明
Baseline	51.9	TianXi-Action-7B 原始
+ 由粗到精聚焦 (PB)	55.2	单独消除精度偏差 +3.3
+ 候选选择 (AB)	54.3	单独消除歧义偏差 +2.4
+ BAMI (PB+AB)	57.8	两者叠加 +5.9
Vanilla prompt	55.7	纠错模型用朴素提示
+ w/ CoT	57.0	加思维链
+ w/ CoT & KP	57.8	再加 Key Principle 先验

不同纠错模型（Table 5）：在线 API 里 GPT-5（57.8）、Gemini-2.5-Pro（57.2）最好；本地 LoRA 微调的 Qwen3-VL-8B 达 56.2，且参数量与 grounding 模型同级。

关键发现¶

歧义偏差占比最高（54%）但单修增益略低于精度偏差：歧义偏差是错误的最大来源，但单独加候选选择 +2.4，略小于单独加聚焦的 +3.3——说明歧义更难靠重选完全纠正，两者叠加才补满。
KP 先验是 prompt 的胜负手：从 Vanilla(55.7) 到 CoT(57.0) 再到 CoT&KP(57.8)，把 GUI 欧氏空间先验注入提示词才是关键，朴素 prompt 用不动纠错模型。
超参有明显甜区：迭代 2 轮、裁剪比 λ≥40%（实用区间 0.5~0.7）最佳；迭代过多/裁剪过狠都会因丢上下文掉点。
本地纠错模型几乎追平在线 API：8B 同级别本地模型 56.2 vs GPT-5 的 57.8，差距仅 1.6，照顾了隐私与独立部署需求。

亮点与洞察¶

MPD 是个便宜又直观的归因工具：用「随机遮挡 + 多次预测 + 频率聚合」把不可微的「文本→坐标」过程的注意力可视化，把 Shapley 的 10 小时压到 20 分钟，这个思路可迁移到任何「输出离散、梯度不好用」的定位/检测任务做错误诊断。
把"为什么错"量化成偏差占比再对症设计，而不是一上来就堆模块——14%/20%/54% 的归因数据直接决定了 BAMI 只打归纳偏差、不碰知识缺陷，方法动机非常扎实。
编辑距离 vs 欧氏距离的错位分析一针见血：点破了「token 序列优化目标」和「空间定位需求」的根本冲突（789 vs 189/801 的反例），这是 MLLM 坐标回归的通病，外部几何约束纠错是个可复用的补丁。
掩码逼互斥候选是个巧设计：不靠采样温度凑多样性，而是物理遮挡已选区域强制模型看别处，保证候选不退化成同一个框的复制。

局限与展望¶

依赖外部纠错模型：最佳结果靠 GPT-5/Gemini 这类在线大模型，引入了额外的隐式知识与 API 成本；本地 Qwen3-VL-8B 虽追平到 56.2，但仍需 128K 双框样本做 LoRA 微调，并非纯免训练。
多步推理推高了推理开销：N 轮外循环 × 每轮 M 候选，相比单步定位是数倍前向，论文强调「成本可控」但未给出与基线的延迟/吞吐量化对比，⚠️ 效率优势以原文定性表述为准。
只验证了 ScreenSpot 系：ScreenSpot-V2 结果放在补充材料、正文未展开；对更长链路的真实 GUI agent 任务（多步操作、跨页面）的端到端收益尚未验证。
裁剪策略对"目标横跨大区域"可能失效：由粗到精假设目标能被逐级框小，若初始粗定位严重偏离、裁剪会把真目标裁出视野，缺少回退机制的讨论。

评分¶

新颖性: ⭐⭐⭐⭐ MPD 归因 + 偏差驱动的免训练推理框架角度新颖，但「由粗到精裁剪」「多预测聚合」在 GUI 测试时方法里已有先例。
实验充分度: ⭐⭐⭐⭐ 多基座 + 多纠错模型 + 组件/prompt/超参消融较完整，但延迟成本与 ScreenSpot-V2 正文展开不足。
写作质量: ⭐⭐⭐⭐ 归因→根因分析→对症设计的逻辑链清晰，编辑距离 vs 欧氏距离的反例讲得很透。
价值: ⭐⭐⭐⭐ 免训练即插即用、对弱基座增益显著，对实际部署 GUI agent 很实用。