MacArena: Benchmarking Computer Use Agents on an Online macOS Environment¶

会议: ICML2026
arXiv: 2606.06560
代码: https://github.com/MacPaw/MacArena
领域: Agent / GUI Agent / 评测基准
关键词: 计算机使用智能体, macOS, GUI Agent, 在线评测, 可验证奖励

一句话总结¶

MacArena 把 OSWorld 移植任务、macOSWorld 任务和 49 个全新 macOS 原生任务（共 421 个、覆盖 50 个应用）统一搬进运行在 Apple Silicon 原生虚拟化框架上的真实 macOS 环境，配上逐任务手写的执行式评测脚本，发现当前 GUI 智能体在 macOS 上普遍比 Linux 掉点、且模型排名在「移植任务」和「macOS 原生任务」之间发生反转——揭示现有 benchmark 的高分更多是「见过这类任务分布」而非真正的跨平台 GUI 能力。

研究背景与动机¶

领域现状：计算机使用智能体（Computer-Use Agent，CUA）直接看屏幕截图、用鼠标键盘操作图形界面（GUI），近两年能力飞涨，很大程度上靠 OSWorld 这类标准化在线评测环境推动——它们既是评测尺，也是强化学习的训练场。OSWorld 覆盖 Linux 和 Windows，已成为桌面 GUI 智能体训练与评测的事实标准。

现有痛点：macOS 在这套体系里几乎是空白。唯一的 macOS benchmark macOSWorld 只覆盖系统自带应用（Finder、Safari、日历等）这一窄切片，任务更简单、歧义更少，第三方软件几乎不涉及——而第三方软件恰恰是真实 macOS 使用的核心。更致命的是它建在 x86 虚拟机上，和 Apple 2020 年起全面转向的 Apple Silicon 整条产品线硬件不兼容；用云端 EC2 Mac 实例虽技术可行，但成本高到大规模评测和 RL 训练管线根本跑不起。

核心矛盾：现有 benchmark 默认「Linux 上 GUI 能力强 = 跨平台 GUI 能力强」，但没人验证过这个假设。macOS 有自己独特的应用约定、复杂的窗口管理、密集的第三方软件，这些 Linux 评测根本没碰过。一个在 OSWorld 上排名靠前的模型，到了陌生的 macOS 原生任务上还行不行，是个开放问题。

本文目标：建一个（1）跑在真实 Apple Silicon macOS 上、（2）覆盖大量第三方应用、（3）全部人工核验、（4）能直接对比「同一批任务在 Linux vs macOS」的在线评测基准。

切入角度：与其重新造任务，不如把已被社区验证的 OSWorld/macOSWorld 任务移植进真实 macOS 环境，再补一批 macOS 原生任务作为「照妖镜」——专门暴露那些只会模式匹配旧任务分布的模型。

核心 idea：用「移植任务测平台漂移、原生任务测真实泛化」的双轨设计，把 GUI 智能体的「平台熟悉度」和「真正的跨平台能力」拆开来量。

方法详解¶

整体框架¶

MacArena 本质是一个评测环境而非一个新模型，它要解决的是「如何在真实 Apple Silicon macOS 上，可复现地、低成本地、覆盖第三方应用地评测 CUA」。整条管线把「智能体决策循环 + 任务定义 + 执行式打分」三件事串起来：智能体在每一步收到当前 macOS 桌面的截图（可选附带无障碍树 accessibility tree），输出一个鼠标/键盘动作，动作在 Apple Silicon 虚拟机里执行、转移环境状态，循环到智能体发出终止动作或步数耗尽；最后由一段确定性的执行式评测脚本检查 macOS 的最终状态（文件内容、应用状态、系统属性、shell 命令输出），给出 \(r\in[0,1]\) 的分数。

整个交互被形式化为部分可观测马尔可夫决策过程（POMDP），元组 \((\mathcal{S},\mathcal{O},\mathcal{A},\mathcal{T},\Omega,r,\gamma,\mu_0,\mathcal{G},p_g,\varphi)\)：\(\mathcal{S}\) 是含后台进程、文件系统等隐藏状态的完整 macOS 状态空间，\(\mathcal{O}\) 是智能体能看到的观测（截图 + 无障碍树），\(\mathcal{A}\) 是鼠标键盘动作空间，奖励 \(r:\mathcal{S}\times\mathcal{A}\times\mathcal{G}\rightarrow[0,1]\) 由任务专属评测脚本在末步给出。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["三源任务<br/>OSWorld移植+macOSWorld+49原生"] --> B["人工核验<br/>可执行/无歧义/规格正确"]
    B --> C["Apple Silicon 原生虚拟化<br/>UTM + copy-on-use 干净初态"]
    C --> D["智能体决策循环<br/>截图(+无障碍树)→鼠标键盘动作"]
    D -->|发出DONE/FAIL 或步数耗尽| E["执行式评测<br/>逐任务脚本查最终状态→r∈[0,1]"]

关键设计¶

1. 三源拼装的 421 任务集：移植测漂移、原生测泛化

单一来源凑不出既「可对比」又「能暴露泛化短板」的任务集，所以 MacArena 把任务分三路拼。第一路是从 OSWorld 精挑细选移植到 macOS 的 221 个任务——它们和原 OSWorld 任务完全相同，唯一变量是操作系统，因此可以直接拿来测「同一批任务从 Linux 搬到 macOS 掉多少分」。第二路是从 macOSWorld 取来的 151 个任务，补齐系统自带应用的覆盖。第三路是作者全新采集的 49 个 macOS 原生任务，分布在 20 个 macOS 应用、5 个类别（文件管理、系统与界面、高级应用、内置应用、生产力），专门针对第三方/非标准应用和 macOS 特有交互模式。这 49 个原生任务是整套设计的「照妖镜」：一个只见过 OSWorld 风格轨迹的模型，在第一路上能靠记忆得分，到第三路就会原形毕露。

2. Apple Silicon 原生虚拟化 + copy-on-use 干净初态

macOSWorld 绑死 x86 虚拟机、和现代 Mac 硬件脱节，是它无法被大规模复用的根因。MacArena 改用 UTM（基于 Apple 原生 Virtualization 框架）在 Apple Silicon 上跑虚拟机，从硬件层面对齐真实使用环境，也让 RL 训练管线的成本可控。它维护两个 VM：一个手工配置好、专门满足 OSWorld/macOSWorld 任务的安装/权限/评测前置条件；另一个完全由自动构建脚本生成、服务于 MacArena 自有任务，便于跨 macOS 版本迁移和加新应用。由于 UTM 不原生支持快照回滚，作者采用 copy-on-use 策略：每个任务回合开始前先把原始 VM 镜像拷贝成一个临时实例，回合结束即丢弃。这样每次评测都从一个干净、可复现的初始状态出发，避免任务之间互相污染。

3. 逐任务手写的执行式评测脚本：一对一对应、查真实结果而非过程

GUI 任务的成功标准千差万别（有的看文件内容、有的看应用状态、有的看系统属性、有的看 shell 输出），用一套通用规则打分必然失真。MacArena 坚持执行式评测：智能体发出终止动作后，对应的评测脚本针对最终 VM 状态运行，返回 \([0,1]\) 的分数。每个任务有三个必填字段——instruction（自然语言目标）、pre_command/config（初始化过程，如下载文件、启动应用、打开文档）、evaluator（确定性的验证函数）。它兼容两种格式：OSWorld 格式用结构化配置文件组合预定义评测函数，macOSWorld 格式用 shell 脚本做初始化和评测（更灵活，适合复杂或平台特定逻辑）。关键是 49 个 MacArena 原生任务各自配一段独立手写的评测脚本，形成 49 个一对一的评测函数——这种一对一对应正反映了 macOS 应用和任务类型在验证需求上的多样性，也是「全部人工核验、保证每个任务可执行/无歧义/规格正确」这一更高质量信号的来源。

损失函数 / 训练策略¶

本文是评测基准，不训练模型。评测协议固定：每个任务限 15 步、每个模型跑 2 次，主指标为成功率 SR（Success Rate，评测脚本返回正结果的任务百分比）。智能体只通过原始鼠标键盘动作与 VM 交互，每步收到当前桌面截图。

实验关键数据¶

主实验¶

作者评测了 4 个基线智能体：UI-TARS-1.5 7B、Qwen3-VL 2B、Qwen3-VL 4B、OpenAI Computer Use Preview（CUA）。下表为三个子集上的整体成功率（%）：

子集	UI-TARS-1.5 7B	Qwen3-VL 2B	Qwen3-VL 4B	OpenAI CUA
OSWorld 子集	21.27	9.95	16.36	16.74
macOSWorld 子集	24.50	15.89	39.74	52.32
MacArena 原生子集	10.20	4.08	12.24	36.73
全基准整体	21.14	11.40	24.23	31.83

OpenAI CUA 以 31.83% 的整体成功率领先，但没有任何模型整体超过约 32%——macOS 对当前 GUI 智能体仍是难啃的骨头。

macOS vs Linux 平台差距¶

把 OSWorld 子集（macOS，15 步）和官方报告的原版 OSWorld 分数（Ubuntu，15 步）对比，任务集完全相同：

模型	Ubuntu	macOS	Δ
UI-TARS-1.5 7B	24.5	21.27	−3.23
OpenAI CUA	26.0	16.74	−9.26
Qwen3-VL 2B	17.0	9.95	−7.05
Qwen3-VL 4B	26.2	16.36	−9.84

同一批任务搬到 macOS 后全部掉点，差距来自 macOS 在应用外观、键盘快捷键、窗口管理、系统行为上的平台差异，而模型主要在 Linux/Windows 轨迹上训练，没适配过——平台 gap 是真实存在的。

关键发现¶

排名反转是最重要的信号：UI-TARS-1.5 7B 在 OSWorld 子集上压过 OpenAI CUA（21.27% vs 16.74%），但在 MacArena 原生子集上完全反转——OpenAI CUA 拿 36.73%，UI-TARS-1.5 7B 只有 10.2%，反向差距超过 26.5 个百分点。这说明 Linux 设计的任务上的强表现不会迁移到全新 macOS 原生任务；UI-TARS 大概率训练时见过 OSWorld 风格轨迹，靠记忆得分，一旦面对真正陌生的 macOS 应用就崩。
多应用任务是公认最难：需要协调 2 个及以上应用的 multi-app 类别在所有模型、所有子集上几乎都接近 0%，跨应用协调对 SOTA 模型仍是开放难题。
步数消耗解释难度：用最强的 OpenAI CUA 统计平均步数，macOSWorld 子集全任务平均 10.92 步、完成任务 8.05 步（最低，说明任务更短更简单，这定量解释了为何模型在 macOSWorld 上分更高）；OSWorld 子集 13.88/11.08 步；MacArena 原生子集最高，13.96/12.69 步。

子集	平均步数（全部）	平均步数（仅完成）
macOSWorld	10.92	8.05
OSWorld	13.88	11.08
MacArena 原生	13.96	12.69

亮点与洞察¶

「同任务跨平台」的对照设计很巧：把 OSWorld 任务原封不动搬到 macOS，唯一变量是 OS，于是「掉 9 个点」这种结论无可辩驳——这是大多数 benchmark 想做却做不到的干净对照。
排名反转直接证伪了「benchmark 高分 = 真能力」：这是全文最有冲击力的洞察。它提醒整个领域：只在现有 benchmark 上刷分的模型，可能只是在模式匹配见过的任务结构，必须用全新环境的原生任务才能照出真实泛化短板。
可迁移的工程思路：copy-on-use 替代不支持的快照回滚、双 VM 分治（一个满足旧 benchmark 前置条件、一个全自动构建）、逐任务一对一手写评测器——这些做法可以直接搬到任何需要「干净初态 + 异构验证」的在线 agent 评测项目。

局限与展望¶

任务全靠人工采集，难扩展：421 个任务全部人工编写核验，费时且限制规模。作者提议用 LLM 合成任务指令（可由应用 schema 或交互日志引导），但生成任务可能歧义、不可行或过于简单，仍需人工校验或自动可行性检查（如验证参考智能体能在限定步数内完成）。
缺人类性能基线：任务虽 100% 人工核验、可完成，但没有人类表现研究，缺一个解读模型结果、衡量剩余提升空间的参照点（OSWorld、macOSWorld 都有）。
自己发现的局限：每模型每任务只跑 2 次、限 15 步，方差和「步数预算是否充足」未充分讨论；4 个基线里只有 2 个有官方 OSWorld 分可对比，平台 gap 的样本偏少；评测脚本逐任务手写虽精准，但也意味着扩展新任务的边际成本始终很高。

评分¶

新颖性: ⭐⭐⭐⭐ 不是新模型/新算法，但「真实 Apple Silicon macOS + 同任务跨平台对照 + 排名反转洞察」组合起来是高价值的空白填补。
实验充分度: ⭐⭐⭐⭐ 4 个基线 × 三子集 × 20 类别覆盖完整，步数分析有说服力；但每任务仅 2 次、可对比官方分的模型偏少。
写作质量: ⭐⭐⭐⭐⭐ 动机清晰、对照设计干净、排名反转的洞察讲得很透。
价值: ⭐⭐⭐⭐⭐ 把 macOS 立为一等评测目标，并给整个 GUI agent 领域敲了「benchmark 高分≠真能力」的警钟。