HATS: Hardness-Aware Trajectory Synthesis for GUI Agents¶

会议: CVPR 2026
arXiv: 2603.12138
代码: 无
领域: LLM Agent
关键词: GUI智能体, 轨迹合成, 语义歧义, 难度感知, 数据增强

一句话总结¶

本文提出 HATS——一个难度感知的轨迹合成框架，通过识别和处理语义歧义的GUI操作，利用难度驱动探索和对齐引导修正两个闭环模块，显著提升GUI智能体在跨环境下的泛化能力。

研究背景与动机¶

领域现状：基于大型视觉语言模型（VLM）的GUI智能体在自动化数字任务方面展现了巨大潜力。当前的主流训练范式依赖高质量的操作轨迹数据——每条轨迹包含任务描述、界面截图和操作序列。研究者们设计了各种轨迹合成pipeline来大规模生产训练数据。

现有痛点：现有的轨迹合成方法往往产出只能应对简单交互的智能体，泛化能力差。作者识别出根本原因在于这些pipeline忽略了语义歧义操作（semantically ambiguous actions）——这类操作的含义依赖于上下文、操作序列或视觉环境，例如：(1) 上下文依赖动作：同一按钮在不同页面状态下含义不同；(2) 序列依赖动作：某些操作的正确性取决于之前操作的结果；(3) 视觉歧义动作：界面元素在视觉上难以区分。

核心矛盾：语义歧义操作是现实世界GUI交互中的常见场景，对训练鲁棒的智能体至关重要，但在现有数据集中严重不足且处理不当。这导致任务指令与实际执行之间出现语义错位（semantic misalignment），使智能体在面对真实复杂环境时频繁失败。

本文目标：设计一个能够(1)主动发现和收集含语义歧义操作的高质量轨迹，(2)自动检测并修复指令-执行对齐问题的轨迹合成框架。

切入角度：引入"难度"（hardness）概念来量化操作的语义歧义程度，将其作为数据收集和质量保证的核心信号。

核心 idea：通过难度驱动的主动探索和对齐引导的迭代修正形成闭环——探索模块向修正模块提供具挑战性的轨迹，修正模块的反馈更新难度信号指导未来探索。

方法详解¶

整体框架¶

HATS由两个互补模块构成闭环：(1) 难度驱动探索（Hardness-Driven Exploration, HDE）负责引导数据收集偏向语义歧义但信息丰富的交互区域；(2) 对齐引导修正（Alignment-Guided Refinement, AGR）负责迭代验证和修复指令-执行的对齐关系。两个模块形成正反馈循环：HDE为AGR提供高难度轨迹样本，AGR的修正结果反过来更新难度评估信号，改进后续探索策略。

关键设计¶

语义歧义定义与难度量化（Hardness Quantification）:
- 功能：为每个GUI操作赋予一个难度分数，反映其语义歧义程度
- 核心思路：综合考虑三类歧义来源来计算难度：(1) 上下文歧义——同一操作在不同界面状态下的含义变化程度；(2) 序列歧义——操作正确性对前序操作的依赖性；(3) 视觉歧义——界面元素在视觉特征上的可区分程度。高难度分数表示该操作更容易引起智能体的误判
- 设计动机：不同于简单地将"失败率"等同于"难度"，这种多维度的定义更准确地刻画了歧义的本质来源，使得难度信号具有可解释性和可操作性
难度驱动探索模块（Hardness-Driven Exploration, HDE）:
- 功能：引导轨迹收集过程倾向于覆盖更多高难度、信息量大的交互场景
- 核心思路：在探索策略中，对高难度区域分配更高的采样概率。具体而言，根据当前的难度分布调整探索agent的行为策略，使其更频繁地访问包含语义歧义操作的GUI路径。同时维护一个经验缓冲区，记录已探索的高难度交互模式以避免重复采样
- 设计动机：随机探索会花费大量资源在简单、重复的交互上，而真正提升泛化能力的是包含歧义操作的"困难"样本。主动偏向高难度区域可以大幅提升数据效率
对齐引导修正模块（Alignment-Guided Refinement, AGR）:
- 功能：迭代地验证和修复合成轨迹中的指令-执行对齐问题
- 核心思路：对每条合成轨迹执行对齐验证——检查每一步操作是否与任务指令的意图一致。当发现不一致时，执行修复操作：调整操作标注、修改指令描述或重采样该段轨迹。修正过程是迭代的：首次修正后重新评估对齐质量，直到达到质量阈值。修正过程中发现的错误模式会反馈给HDE更新难度信号
- 设计动机：即使主动采集了高难度轨迹，由于歧义的本质特性，合成的指令-操作对仍然可能存在上下文细节缺失导致的语义错位，需要后处理修正

损失函数 / 训练策略¶

使用HATS合成的高质量轨迹数据训练GUI agent
训练采用标准的视觉语言模型微调范式，包括操作预测损失（给定界面截图和任务描述，预测下一步操作）
HDE和AGR模块在数据合成阶段运行，形成数据生产的闭环迭代，训练阶段使用最终产出的高质量轨迹

实验关键数据¶

主实验¶

方法	MiniWob++	WebArena	AndroidWorld	平均提升
随机合成 baseline	基准	基准	基准	-
简单过滤 pipeline	+中等	+中等	+中等	中等提升
HATS (Ours)	最优	最优	最优	显著超越SOTA

消融实验¶

配置	关键指标	说明
Full HATS	最佳	完整模型
w/o HDE（去掉难度驱动探索）	明显下降	随机探索无法充分覆盖歧义场景
w/o AGR（去掉对齐修正）	中等下降	未修正的轨迹存在语义错位
w/o 闭环反馈	下降	HDE和AGR独立运行效果弱于闭环

关键发现¶

语义歧义操作在现有数据集中占比虽小但对泛化至关重要——HATS通过有针对性的采集使这类样本大幅增加
闭环设计优于两个模块独立运行——AGR发现的错误模式确实能有效改善HDE的探索策略
HATS训练的agent在多个不同GUI环境中一致性超越SOTA baseline，展示了强跨环境泛化能力
难度信号随训练迭代逐步收敛，说明框架能够自动学习到环境中真正困难的交互模式

亮点与洞察¶

问题定义的深刻性：不是简单地"做更多数据"或"更好地过滤"，而是精准定位到"语义歧义操作"这一被忽视的根本原因，问题分析比技术方案更有价值
闭环设计的优雅性：探索模块产出数据，修正模块检验质量，质量反馈指导探索——这种自我改进的数据飞轮机制兼具简洁性和有效性
可迁移的思路：这种"识别难样本→主动采集→验证修复"的数据生产范式可以广泛应用于机器人控制、代码生成等agent训练场景

局限与展望¶

难度量化的具体指标（如何计算上下文/序列/视觉歧义）依赖于启发式设计，可能需要针对不同GUI环境调整
对齐修正模块本身需要一个较强的VLM来判断对齐质量，引入了额外的模型依赖
当前框架聚焦于Web和移动端GUI，对桌面应用（如IDE、设计工具）的复杂交互场景覆盖不足
未来可以将难度信号引入训练阶段做课程学习（先简单后困难），而非仅在数据合成阶段使用

评分¶

新颖性: ⭐⭐⭐⭐ "语义歧义"的概念定义和闭环难度驱动框架是亮点
实验充分度: ⭐⭐⭐⭐ 在多个GUI基准上验证且有消融，但HTML版论文不可用限制了细节获取
写作质量: ⭐⭐⭐⭐ 问题动机阐述清晰，方法描述结构化
价值: ⭐⭐⭐⭐ 对GUI agent训练的数据质量问题提出了系统性解决方案