Evaluating and Easing Hallucinations for GUI Grounding¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/aibench/GUI-HalluBench
领域: 多模态VLM / GUI Agent / 幻觉评测
关键词: GUI grounding, 幻觉评测, 多模态大模型, benchmark, 双语

一句话总结¶

本文首次系统研究 GUI grounding 中的幻觉问题，把它拆成"认错相似元素"的混淆幻觉和"凭空捏造坐标"的虚构幻觉，构建了双语、双子集的 GUI-HalluBench 来诊断幻觉与 parsing 能力的关联，并给出一个免训练的"先解析后定位"提示（PGP）和一个基于幻觉数据微调（HFT）的缓解方案，实验证明 parsing 越强幻觉越少、HFT 最高带来约 7% 的绝对提升。

研究背景与动机¶

领域现状：大型多模态模型（LMM）正被大量部署到 GUI 自动化、智能助手、交互式 agent 中。GUI 交互有两个核心能力：parsing（识别并归类界面里的按钮、图标、文本框等元素）和 grounding（把用户指令映射到具体元素的坐标）。围绕这两件事，社区已经做了 ScreenSpot、ScreenSpot-Pro、MMBench-GUI、Mind2Web 等一系列 benchmark。

现有痛点：这些 benchmark 几乎都在比拼"综合能力"——能不能看懂界面、跟随指令、完成任务，却基本忽略了可靠性，尤其是幻觉。在自然图像领域幻觉已经被 POPE、HallusionBench 等研究得比较透，但它们关注的是"看错物体 / 图文不一致"，放到结构化的 GUI 里完全不适用。GUI 里的幻觉是另一种形态：模型会自信地输出错误或捏造的目标坐标，直接破坏真实交互中的可信度。

核心矛盾：grounding 作为 GUI 交互的核心能力，恰恰最容易幻觉，但没有任何 benchmark 专门去分析它、找它的根因。作者从经验观察发现，grounding 幻觉并非孤立现象，而是和 parsing 缺陷强相关——模型连界面结构都没看清，自然要么认错相似元素，要么凭空想象不存在的元素。

本文目标：拆成三个子问题——① 把 GUI grounding 幻觉分类清楚；② 造一个能同时测 parsing 与幻觉、并分析二者关联的 benchmark；③ 给出低成本到高成本的缓解手段。

切入角度：既然幻觉源于 parsing 缺陷，那就把 parsing 和幻觉放进同一个 benchmark 的两个互补子集里同时评测，用相关性分析坐实"parsing 差 → 幻觉多"这条因果链，再顺着这条链去缓解。

核心 idea：把 GUI grounding 幻觉二分为混淆幻觉与虚构幻觉，用"parsing 子集 + 幻觉子集"的双语诊断基准暴露其根因（parsing 缺陷），并用"先解析后定位"的提示与幻觉感知微调来对症下药。

方法详解¶

整体框架¶

这是一篇 benchmark + 分析 + 缓解三位一体的工作，核心不在于提出新模型，而在于把"GUI grounding 为什么会幻觉、怎么测、怎么缓解"这条链路打通。整体分四块：先定义两类幻觉作为标注与评测的靶子；再从约 5000 张双语界面出发，经过一条"自动检测 + 人工复核"的双阶段标注流水线，均衡采样出 2000 条（中英各 1000）同时带 parsing 标注与幻觉标注的基准；然后对每类幻觉设计专属指标，在 13+ 个 SOTA 模型上跑评测并做相关性分析，确认幻觉与 parsing 强相关；最后给出免训练的 PGP 提示和需训练的 HFT 微调两条缓解路径。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["双语GUI池<br/>约5000张 中英界面"] --> C["双子集标注流水线<br/>parsing标注 + 幻觉标注"]
    B["幻觉二分类<br/>混淆 / 虚构"] --> C
    C -->|均衡采样2000条| D["GUI-HalluBench<br/>parsing子集 + 幻觉子集"]
    D --> E["类型定制评测<br/>R/P/FS + LA + RR"]
    E -->|相关性分析:幻觉源于parsing| F["双路缓解策略<br/>PGP免训练 / HFT微调"]

关键设计¶

1. 幻觉二分类：把 GUI grounding 的失败模式讲清楚

作者首先回答"GUI grounding 到底怎么幻觉"这个此前没人系统回答的问题，给出两类失败模式。混淆幻觉（Confusion Hallucination）指目标元素确实存在，但模型因为语义理解模糊或视觉高度相似而选错了"干扰元素"——比如把长得像相机的图标当成相机 app，把"乒乓球"图标当成"网球"。虚构幻觉（Fabricated Hallucination）指界面里根本没有目标元素，模型却"想象"出一个并给出看似合理的坐标——比如在日历里凭空定位"11 月 17 日"，或为不存在的"PowerPoint 图标""购买 iPhone 17 Pro Max 图标"输出 bounding box。这个二分法不是文字游戏，它直接决定了后面两类样本怎么造、两类指标怎么设：混淆幻觉要测"在有干扰项时能不能选对"，虚构幻觉要测"该拒绝时能不能拒绝"。在最终基准里两类约为 40% 混淆、60% 虚构，反映出真实场景中虚构更高发。

2. 双子集标注流水线：让 parsing 与幻觉在同一基准里可联合诊断

为了能把"幻觉"和"parsing 缺陷"放在一起比对，benchmark 被设计成两个互补子集——parsing 子集测模型对界面元素结构的识别（输出所有图标/文本的语义 + 坐标），幻觉子集在挑战性条件下测 grounding 鲁棒性。数据来自双语 GUI 池：英文界面取自 ScreenSpot 与 AMEX，中文界面按国内热门 app 的统计手工采集日常生活、出行、医疗、餐饮、娱乐五大领域，共约 5000 张。标注分两阶段：parsing 标注先用 Grounding DINO 检测图标 bounding box、PaddleOCR 识别关联文本，经 NMS 去冗余，再由一个 LMM 模块统一格式并做语义验证，最后人工复核；幻觉标注先用 LMM 过滤出"适合改造成幻觉案例"的界面，再让 LMM 联合界面与 parsing 标注生成混淆/虚构幻觉建议，最后由至少 3 名标注员审核定稿。两阶段共享同一批界面，使得"某模型 parsing 错在哪 → 幻觉发生在哪"可被对齐分析。最后按冗余度与信息密度做均衡采样，得到中英各 1000、共 2000 条的子集，每条都同时带 parsing 与幻觉标注。

3. 类型定制评测指标：不同幻觉用不同的"对/错"定义

parsing 与两类幻觉的失败形态不同，作者为它们各设指标而非套一个统一分数。parsing 侧用三个指标：元素召回 \(R = N_m / N_{gt}\)（\(N_m\) 为与真值匹配即 IoU \(\geq 0.5\) 的预测框数，\(N_{gt}\) 为真值元素总数）、元素精度 \(P = N_m / N_{pr}\)（\(N_{pr}\) 为预测框总数），以及衡量语义忠实度的函数相似度 \(FS = \frac{1}{N_m}\sum_{i=1}^{N_m}\mathrm{sim}(f_i^{pred}, f_i^{gt})\)，其中 \(\mathrm{sim}\) 是预测与真值功能描述文本嵌入的余弦相似度。幻觉侧按类型分别定义：混淆幻觉用定位准确率 \(LA = N_{cor} / N_{tot}\)（在有干扰项时选对的比例），虚构幻觉用拒识率 \(RR = N_{rej} / N_{fab}\)（对不存在元素成功拒绝识别的比例，\(N_{fab}\) 为虚构案例总数）。拒识率这个指标是关键——它把"该说没有时能不能说没有"量化成了硬指标，正是虚构幻觉鲁棒性的核心。

4. 双路缓解策略：免训练的 PGP 与需训练的 HFT

确认"幻觉源于不完整的结构感知 + 推理不一致"后，作者从推理时和训练时两条路缓解。PGP（Parsing-guided Prompt，免训练）把原本"直接定位某元素"的指令改写成单轮内的"先解析后定位"结构化提示：强制模型先枚举界面上所有图标/文本及其语义坐标，再基于这份解析结果输出目标坐标。它不改一个参数，只靠提示工程把隐式的"看清界面"这一步显式化。HFT（Hallucination-aware Fine-Tuning，需训练）则用幻觉数据做监督微调：为防数据泄漏，单独采集与 GUI-HalluBench 来源完全隔离的 20K 界面做 parsing 标注、再造 10K 幻觉标注（用单标注员快速剔除低质标签以兼顾规模），混入 WidgetCaption、Os-Atlas、GUIEnv、LLaVA-Instruct 等公开数据，对 Qwen3-VL-8B 与 InternVL3.5-8B 用 LoRA（rank 8、α 32、lr 1e-4、3 epoch、8×A100）微调，冻结 ViT 与 aligner。两条路成本递增、效果递增：PGP 零成本但提升温和，HFT 成本高但能把幻觉鲁棒性大幅拉起。

实验关键数据¶

主实验¶

在 GUI-HalluBench 上评测 13+ 个代表性模型，下表给出 parsing 平均分（A–F 综合）与幻觉平均分（混淆 LA + 虚构 RR 综合）的代表性结果：

模型	Parsing Avg (%)	Hallu Avg (%)	备注
GPT-4o (with grounding)	20.2	57.2	闭源；元素精度仅 4.3%，杂乱界面下定位极弱
Claude Computer Use	37.7	56.6	闭源
Gemini-2.0 (Project Mariner)	41.6	60.5	闭源中最佳
InternVL3.5-8B	55.7	63.2	开源
GUI-Owl-7B	55.4	64.9	开源 GUI 专用
Qwen3-VL-8B	58.1	66.0	开源中最佳（基线）
InternVL3.5-8B (HFT)	71.9	69.1	本文微调
Qwen3-VL-8B (HFT)	72.3	73.0	本文最佳

一个反直觉的结论：闭源模型尽管通用推理更强，但在 GUI 的 parsing 与幻觉两个子任务上都没领先，说明强通用多模态推理并不直接等于可靠的 GUI 理解，后者需要领域适配的结构感知与细粒度定位。

缓解策略消融¶

下表对比基线 / PGP / HFT 在两个开源模型上的效果：

配置	Parsing Avg (%)	Hallu Avg (%)	说明
Qwen3-VL-8B 基线	58.1	66.0	—
Qwen3-VL-8B + PGP	58.1	67.7	免训练，parsing 不变、幻觉 +1.7
Qwen3-VL-8B + HFT	72.3	73.0	微调，幻觉 +7.0
InternVL3.5-8B 基线	55.7	63.2	—
InternVL3.5-8B + PGP	55.7	64.8	幻觉 +1.6
InternVL3.5-8B + HFT	71.9	69.1	幻觉 +5.9

关键发现¶

幻觉与 parsing 强相关：用 SRCC 相关性热图分析 12 个指标，发现 parsing 平均性能（L）与幻觉平均性能（G）强相关——parsing 的元素精度/召回越高，抗幻觉越强，坐实了"grounding 幻觉源于 parsing 缺陷"的核心论点。而函数相似度（C、F）与幻觉指标相关性弱，因为它测的是匹配框的语义对齐，与幻觉所依赖的"元素检测 + 上下文推理"是不同的底层能力。
PGP 提升温和但零成本：PGP 不改 parsing 分数（提示不增强解析本身的准确率），却通过"先解析后定位"的推理顺序让模型决策更稳，对英文/中文的拒识率（I、K）提升最明显，因为更准的元素识别减少了导致幻觉的错误。
HFT 提升显著且跨语言泛化：HFT 把 Qwen3-VL-8B 平均准确率从 66.0% 拉到 73.0%（约 +7%），且一旦结构感知被强化，幻觉抑制能跨语言迁移——说明幻觉模拟数据是有效的数据增强工具。
双语不一致：所有模型都存在中英性能差，且 parsing 子任务的差距明显大于幻觉子任务（结构感知更依赖语言相关线索如内嵌文本、OCR 噪声；幻觉鲁棒性更依赖相对语言无关的视觉推理与拒识）。英文公司的模型（GPT-4o、Claude）在英文界面更强，中文公司的模型（Qwen3-VL、InternVL）相反，暴露出训练语料的语言文化偏置。

亮点与洞察¶

把"幻觉"在 GUI 这个结构化域里重新定义：自然图像的幻觉范式搬不过来，作者用"混淆 / 虚构"二分法精准刻画了 GUI grounding 的两种失败，且让每种失败都有对应的样本构造与评测指标，这是整个工作能成立的地基。
拒识率（RR）是被低估的好指标：把"该拒绝时能不能拒绝"量化出来，正中虚构幻觉要害——很多 grounding benchmark 默认目标一定存在，从不测模型"说没有"的能力，而真实 GUI 里目标缺失非常常见。
用相关性分析把"诊断"做实：不止报告各模型分数，还用 SRCC 把 parsing 与幻觉的因果关系量化出来，让"提升 parsing 就能降幻觉"从直觉变成可验证的结论，进而直接指导了 PGP/HFT 的设计方向。
PGP 的迁移性："先解析后定位"这种把隐式中间步骤显式化的提示思路，可迁移到其他需要先感知结构再决策的任务（如表格问答、图表理解），零成本就能换取鲁棒性。

局限与展望¶

parsing 标注依赖自动检测器：parsing 真值由 Grounding DINO + PaddleOCR + LMM 验证生成，虽有人工复核，但检测器本身在小图标、密集界面上的漏检/误检可能给"真值"引入系统性偏差，进而影响 IoU≥0.5 的匹配判定。⚠️ 论文未给出人工复核改动比例。
幻觉样本部分由 LMM 生成：幻觉建议由 LMM 模拟产生再经人工审核，HFT 的 10K 幻觉数据更是用"单标注员剔除低质"来换规模，标签质量与多样性可能不如全人工标注，存在 LMM 生成偏好被放大的风险。
PGP 收益有限：免训练路线的幻觉提升仅 1–2 个百分点，且不改善 parsing 本身；真正大幅缓解仍需 HFT 这种高成本路线，对无法微调的闭源大模型实用性受限。
评测仍是静态单步 grounding：基准聚焦单张界面的元素定位幻觉，未覆盖多步导航、动态界面下幻觉的累积传播，而后者才是 agent 落地最关心的场景。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个系统研究 GUI grounding 幻觉、首创混淆/虚构二分法与拒识率指标
实验充分度: ⭐⭐⭐⭐ 覆盖 13+ SOTA 模型、双语、含相关性分析与两路缓解消融，但缺多步导航场景
写作质量: ⭐⭐⭐⭐ 诊断→根因→缓解逻辑清晰，指标定义完整；部分附录细节未在正文展开
价值: ⭐⭐⭐⭐⭐ 为 GUI agent 可靠性提供了可复用的诊断基准与可操作的缓解杠杆