OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use¶

会议: ACL 2025
arXiv: 2508.04482
代码: GitHub
领域: LLM Agent / 操作系统智能体 / 综述
关键词: OS Agents, GUI Automation, MLLM, Foundation Model, Agent Framework

一句话总结¶

系统综述了基于多模态大语言模型（MLLM）的操作系统智能体（OS Agents），从基本概念（环境/观测/动作空间）、核心能力（理解/规划/定位）、构建方法（基础模型+智能体框架）到评估基准全面梳理，揭示了该领域从虚拟助手到通用计算设备自动化的演进路径。

研究背景与动机¶

现有痛点：传统虚拟助手（Siri、Cortana、Alexa）虽提供了有限的任务自动化能力，但受限于上下文理解不足、操作范围窄、无法跨应用协作等问题，远未实现"通用计算设备自动化"的愿景。同时 OS Agent 研究快速发展（Computer Use、Apple Intelligence、AutoGLM 等相继发布），但缺乏系统性文献梳理。
核心矛盾：MLLM 的理解和推理能力使 OS Agent 技术上变得可行，但实际 GUI 环境极其复杂——高分辨率界面充斥微小图标和密集文本、多步骤任务需要动态规划和错误恢复、动作空间巨大且跨平台不一致。将 MLLM 的通用能力转化为可靠 GUI 操作仍面临理解、规划和定位三重挑战。
本文要解决：(1) 定义 OS Agent 的基本组件和核心能力；(2) 梳理构建 OS Agent 的两条路径：领域基础模型开发 vs 智能体框架构建；(3) 总结评估方法和基准；(4) 讨论安全隐私和个性化自进化等未来方向。
切入角度：作者将 OS Agent 视为操作系统环境中的特殊 AI Agent，从"环境-感知-行动"的经典 Agent 框架出发，统一不同平台（桌面/移动/Web）的研究，提供全景式的领域概览。

方法详解¶

整体框架¶

综述结构为：基础概念（§2）→ 构建方法（§3）→ 评估（§4）→ 挑战与展望（§5）。ACL 2025 接收的 9 页精简版，覆盖核心内容。

关键设计¶

OS Agent 基本组件定义（§2.1）：
- 功能：建立统一的概念框架
- 核心思路：环境——桌面/移动/Web 三类平台，各有独特的任务复杂度和交互模式；观测空间——屏幕截图（视觉）、HTML/A11y 树（文本）、或多模态融合，高分辨率 GUI 中小文字和密集元素构成特殊挑战；动作空间——输入操作（点击/输入/滑动）、导航操作（页面切换/滚动）、扩展操作（外部工具调用）
- 设计动机：不同平台和任务类型的研究各自为政，需要统一概念框架才能有效对比
基础模型构建路线（§3.1）：
- 功能：梳理领域基础模型的架构和训练策略选择
- 核心思路：架构可选 (a) 直接使用 LLM（处理 HTML）、(b) 使用现有 MLLM（LLaVA/Qwen-VL/InternVL）、(c) 拼接 LLM+视觉编码器、(d) 修改 MLLM（如 CogAgent 加入 1120×1120 高分辨率编码器、Ferret-UI 的 any-resolution 策略）。训练策略覆盖 PT（GUI 定位/屏幕理解/OCR）→ SFT（轨迹+指令合成）→ RL（AutoGLM 自进化在线课程 RL、PPO），25+ 近期模型大多采用"现有 MLLM + SFT"路线
- 设计动机：明确技术选择空间，帮助研究者定位自己的工作
智能体框架（§3.2）：
- 功能：描述基于非微调策略构建的 Agent 系统设计
- 核心思路：感知模块（文本描述 TD / GUI 截图 GS / 语义定位 SG / 双重定位 DG）、规划模块（全局一次性分解 vs 迭代逐步调整）、记忆模块（自动探索 AE / 经验增强 EA / 记忆管理 MA）、动作模块（输入/导航/扩展操作组合）。20+ 近期框架（如 Agent S、OS-Copilot、Cradle），大多采用迭代规划+自动探索
- 设计动机：非微调方法提供灵活性和效率，使 Agent 无需训练即可跨任务泛化

评估体系¶

协议：离线（预记录轨迹评估）vs 在线（实时交互）；步骤级指标（动作准确率）vs 任务级指标（完成率）
基准：Web（MiniWob++/WebArena/Mind2Web）、移动（AndroidWorld/AITZ）、桌面（OSWorld/WindowsAgentArena）、跨平台（CRAB/AgentStudio）

实验关键数据¶

基础模型训练策略统计¶

训练路线	代表模型数	代表模型
仅 SFT	~15	EDGE, Ferret-UI 2, UGround
PT + SFT	~8	OS-Atlas, ShowUI, SeeClick
SFT + RL	~4	AutoWebGLM, WebAI
PT + SFT + RL	1	AutoGLM（最完整路线）

主流基准覆盖¶

平台	代表基准	任务规模	关键指标
Web	WebArena	812 任务	任务成功率
Web	Mind2Web	2K+ 任务	步骤准确率
移动	AndroidWorld	116 任务	任务完成率
桌面	OSWorld	369 任务	任务成功率
跨平台	AgentStudio	200+ 任务	多维指标

关键发现¶

现有模型能力有限：OSWorld 上最好模型成功率仅约 12-15%，远未达实用水平
视觉理解仍是瓶颈：高分辨率 GUI 中小元素定位（grounding）是最核心技术挑战
SFT 是主流路线：绝大多数基础模型采用"现有 MLLM + 领域 SFT"，RL 仍较少使用
跨平台泛化不足：仅在 Web 数据预训练的模型难以泛化到移动和桌面
架构聚焦高分辨率：CogAgent（1120²）、Ferret-UI（any-resolution）等表明标准 224² 视觉编码器不足

亮点与洞察¶

分类体系清晰：将 OS Agent 研究统一到"环境-观测-动作"+ "理解-规划-定位"双层框架中，不同平台和方法的关系一目了然
及时性强：涵盖至 2024 年 10 月最新工作（Computer Use、Apple Intelligence 等），为快速发展的领域提供了有价值的快照
Table 1+2 实用参考：分别总结基础模型和框架的设计选择，为后续研究者提供清晰技术路线参考

局限性¶

9 页精简版，部分内容压缩较多（如评估部分）
对各模型的定量性能比较较少，主要是分类式描述
安全隐私和个性化讨论偏概念性，缺乏具体技术方案
截至 2024 年 10 月，部分 2025 年初更新未覆盖
对真实用户场景的可靠性和用户信任讨论不够深入

评分¶

新颖性: 6/10 — 综述工作，分类体系有贡献但无新方法
技术深度: 7/10 — 对构建方法四条路线分析较深入
实验充分度: 5/10 — 综述无实验，定量对比较少
清晰度: 8/10 — 结构清晰，图表信息密度高
总分: 7/10

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

评估体系¶

实验关键数据¶

基础模型训练策略统计¶

主流基准覆盖¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作¶

评分¶

相关论文¶