SCUBA: Salesforce Computer Use Benchmark¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=bkjKnO9s7T
代码: https://github.com/SalesforceAIResearch/SCUBA
领域: Agent / 计算机操作智能体 / Benchmark
关键词: 计算机操作智能体, CRM 工作流, 企业软件, 过程奖励, 演示增强

一句话总结¶

SCUBA 是一个建立在真实 Salesforce sandbox 环境上的计算机操作智能体（computer-use agent）评测基准，含 300 个来自真实用户访谈的 CRM 任务，配套可重置环境、里程碑式细粒度评估和人类演示，揭示了开源/闭源模型、浏览器型/桌面型智能体之间的巨大性能鸿沟（零样本下开源模型成功率 <5%，闭源最高 39%；加演示后可达 50% 并同时降本提速）。

研究背景与动机¶

领域现状：视觉语言模型（VLM）正被改造成能通过图形界面（GUI）自动化复杂工作流的自主智能体。这类智能体以屏幕截图为主要输入，输出点击、输入、代码块等可执行动作，已经在 WebArena、OSWorld 等基准上展现出不错的能力。

现有痛点：现有基准与真实企业软件场景存在系统性脱节。WebArena/OSWorld 评测的是网页导航和通用桌面应用，抓不到企业级平台的复杂度；WorkArena 系列虽然搭在 ServiceNow 平台上，但任务局限于客服场景；CRMArena 系列虽然也搭在 Salesforce 上，却主要面向工具调用（tool-use）智能体，且任务全是信息检索——不写、不改环境里的数据记录和配置。换句话说，没有一个基准能真正考验智能体在企业软件里"动手干活"的能力。

核心矛盾：真实企业部署里，"能不能完成任务"只是其中一维，延迟和成本同样是决定性因素；而现有评测既不覆盖读写型任务，又只给 0/1 成功信号，无法定位智能体到底卡在哪一步，也无法衡量它的效率代价。

本文目标：构建一个既真实、又可解释、还高效的企业级 CRM 工作流评测基准，覆盖 UI 导航、数据操作、工作流自动化、信息检索、故障排查五类企业关键能力，并把延迟、成本、里程碑进度都纳入度量。

切入角度：作者直接采用 Salesforce 官方提供的 sandbox developer org——它的 UI 与生产环境完全一致，免费档功能足以支撑全部任务，从而保证"真实性"；同时用快照+差异回滚的方式解决企业环境难以重置的问题。

核心 idea：用真实访谈驱动的读写型任务 + 规则化里程碑评估器 + 人类演示，搭一个"既像真业务、又能细粒度诊断、还跑得快"的计算机操作智能体竞技场。

方法详解¶

整体框架¶

SCUBA 本质是"环境 + 任务 + 评估"三件套，外加一条把用户访谈变成可评测任务的构建流水线。环境是一个可并行、可按任务级重置的 Salesforce sandbox；任务是 300 个分布在管理员（admin，57%）、销售（sales，25%）、客服（service，18%）三类人物画像上的实例，每个任务都配一份初始化脚本和一套规则化评估器；评估器不仅给二元成功分，还给里程碑过程分（process reward）和延迟/成本度量。任务本身由一条四阶段流水线产出：从访谈抽模板 → 填值生成查询 → 准备初始化与评估器 → 人工标注质检。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实用户访谈<br/>admin / sales / service"] --> B["环境与重置机制<br/>Salesforce sandbox<br/>快照+差异回滚"]
    A --> C["四阶段任务构建<br/>模板→填值→初始化→标注"]
    C --> D["多维评估 harness<br/>里程碑过程分+延迟/成本"]
    B --> D
    D --> E["人类演示增强<br/>零样本 vs 演示增强对比"]
    E --> F["智能体诊断<br/>规划/grounding 失败定位"]

关键设计¶

1. 环境与重置机制：用快照+差异回滚把企业 sandbox 变成可大规模评测的环境

真实性要求逼着作者放弃合成网站、改用 Salesforce sandbox developer org，但这带来一个棘手问题：像 WebArena/OSWorld 那样靠重启 Docker 容器来重置环境的办法在这里行不通——把一个 Salesforce org 重置回初始状态等价于重新创建一个 org，代价高到无法支撑大规模评测。作者的解法是给 org 的初始状态拍快照（下载一组配置文件），智能体跑完一轮后，把修改后的状态与初始状态做差异比对，只回滚被改动的那部分配置文件。由于每个任务预期会改动哪些配置是已知的，所以重置可以做到任务级精度，而不必整体重建。配合可并行的基础设施（按需起多个 headless 浏览器会话或多个 Docker 桌面容器），大量智能体可以被分配到各自专属环境里异步评测，全量评估能在 90 分钟内跑完。环境同时支持截图、可访问性树（accessibility tree）、扁平化 DOM 字符串三种观测，以及 Playwright 和 PyAutoGUI 的全部原子动作。

2. 四阶段任务构建：让访谈里的真实工作流变成可复现、可评测、难度可控的任务

任务不是凭空编的，而是从对真实 Salesforce 用户（方案工程师、org 管理员、销售代表、客户经理等）的访谈里提炼出来，再经四阶段流水线落地。阶段一（模板创建）：每个工作流抽象成一个带占位符的任务模板（如"为 {object name} 对象配置组织级默认可见性……"），每个模板挂一篇 Trailhead 知识文章，并按 UI 操作复杂度和所需独特能力打上 easy/medium/hard 难度标签。阶段二（查询生成）：每个模板填入不同取值生成 5 条查询，刻意让同模板的查询在难度上有差异（比如一条需要额外滚动或按字母检索定位目标，另一条需要记住更多已取消勾选的复选框），再用 GPT-5 改写以贴近真实人类措辞、增加语言多样性，最后两位作者人工校验。阶段三（初始化与评估）：多数任务有前置条件（合成上传依赖数据、开启 org 设置授予权限等），作者用 Salesforce 的 Metadata API、Tooling API 为每个查询手工编写评估方法。阶段四（人工标注）：所有实例送内部标注团队，既做质量控制（确保人类能完成、评估器结果与人类预期一致），又顺带产出可用于提升智能体表现的标注轨迹。最终得到 300 个实例（60 个模板）。

3. 多维评估 harness：用里程碑过程分把"失败"拆成"哪一步失败"

企业场景下只给 0/1 成功分远远不够——一个任务可能完成了 80% 却仍判 0 分，看不出问题在哪。SCUBA 的每个任务都配一个规则化评估器，除了二元成功分外，还给出里程碑分（milestone score，即过程奖励 process reward）：把任务拆成若干带权重的里程碑（rubric），逐项判定是否达成。例如一个"建队列并加成员"的任务拆成"建出正确名称的队列（权重 0.3）/ 队列绑定正确对象类型（0.2）/ 发出邮件通知（0.25）/ 加入指定成员（0.25）"四个里程碑，若智能体完成前三项但漏了成员，则里程碑分为 0.75 且明确指出失败原因。这套机制让评估器不仅判成败，还能定位智能体具体卡在任务的哪个环节。此外评估器还同步给出延迟（time）、步数（steps）、token 消耗、成本（cost）等效率度量，呼应了"企业部署里延迟和成本同样决定性"的诉求。

4. 人类演示增强：把 Trailhead 式教程当"岗前培训"喂给智能体

作者观察到智能体在企业平台上失败，很大程度源于缺乏对 Salesforce UI 设计和功能的领域知识——就像真人也需要培训才会用。于是 SCUBA 随基准附带知识文章和人类演示轨迹，构造出演示增强（demonstration-augmented）设置：把任务查询与同类/同一任务的人类演示拼在一起喂给智能体，与只给查询的零样本（zero-shot）设置对照。这套演示对多数智能体能同时提升成功率、降低耗时/步数/token/成本，是论文最重要的实证发现之一；但也存在例外（如 UI-TARS-1.5-7B、OpenCUA-7B 无法有效利用演示，成功率涨了但其他指标也涨）。

实验关键数据¶

测试覆盖两类智能体共 9~11 个：浏览器型（Browser-Use） 用 SOM（Set-of-Mark，给截图上交互元素打数字框）+ DOM 文本作观测、19 个动作，backbone 为 GPT-5/o3/Claude-4-sonnet/Gemini-2.5-pro；桌面型（Computer-Use） 仅用整屏截图、15 个动作，含 UI-TARS-1.5-7B、OpenCUA-7B、GUI-Owl-7B、OpenAI-CUA、Claude-4-sonnet(computer)、Agent-S2.5、MobileAgentV3。最大步数 50、单任务最长 90 分钟、分辨率 1920×1080、温度 1.0。

主实验（零样本设置）¶

智能体	类型	里程碑分 ↑	成功率 ↑	时间(min) ↓	成本($) ↓
GPT-5	Browser-Use	0.73	51.33%	19.31	0.55
o3	Browser-Use	0.65	45.67%	21.37	0.56
Agent-S2.5 (w/GPT-5)	桌面型框架	0.58	39.00%	25.13	1.17
Claude-4-sonnet	Browser-Use	0.56	34.67%	11.25	1.16
Gemini-2.5-Pro	Browser-Use	0.47	31.00%	7.27	0.24
Claude-4-sonnet(computer)	Computer-Use	0.48	27.00%	8.02	1.44
OpenAI-CUA	Computer-Use	0.29	16.00%	5.80	0.59
MobileAgentV3	Computer-Use	0.11	3.10%	21.47	1.17
UI-TARS-1.5-7B	Computer-Use	0.10	2.67%	6.14	-
GUI-Owl-7B	Computer-Use	0.05	1.00%	12.96	-
OpenCUA-7B	Computer-Use	0.05	0.67%	20.48	-

可以看到：在 OSWorld 上表现不错的开源桌面型智能体（UI-TARS、OpenCUA、GUI-Owl）在 SCUBA 上成功率几乎归零（<5%），而闭源 backbone 的方法最高能到 39%（Agent-S2.5）甚至 51%（浏览器型 GPT-5）。

演示增强 vs 零样本（成功率对比）¶

智能体	零样本成功率	演示增强成功率	时间变化
GPT-5 (BU)	51.33%	53.85%	19.31 → 17.76
o3 (BU)	45.67%	50.00%	21.37 → 17.05
Gemini-2.5-Pro (BU)	31.00%	46.15%	7.27 → 10.02
Claude-4-sonnet(computer)	27.00%	47.69%	8.02 → 7.33
OpenAI-CUA	16.00%	28.85%	5.80 → 5.29
UI-TARS-1.5-7B	2.67%	9.16%	6.14 → 6.52

摘要中"成功率可提升到 50%、同时降本 16%/提速 13%"即来自此设置：演示几乎全面提升成功率并普遍降低耗时与成本。

关键发现¶

观测/动作空间设计 > 专用训练：浏览器型智能体（SOM+DOM）凭借更丰富的观测、更高效的动作空间，加上 foundation VLM 更强的规划能力，整体超过专门训练的桌面型智能体——但代价是浏览器型需要对 Salesforce 平台做大量 DOM parser 定制（原生 parser 会漏检元素，导致许多任务直接不可行）。
泛化是桌面型的硬伤：从 OSWorld 迁到 SCUBA（无演示）时，桌面型智能体成功率断崖式下跌——OpenCUA-7B 跌 97.6%、GUI-Owl-7B 跌 96.9%、UI-TARS 跌 90.1%、Agent-S2.5 跌 27.8%。失败主因是规划（planning）和 grounding（坐标定位）：规划问题可部分靠演示缓解（这也是成功率提升的主要来源），但 grounding 问题（预测错交互元素坐标）依然顽固，作者建议用多次预测+多数投票来改善。
没有免费午餐：Gemini-2.5-pro（演示增强）在成功率、延迟、成本三者间取得最佳平衡；闭源/开源模型之间存在实质性鸿沟。

亮点与洞察¶

任务级差异回滚是真正落地企业 sandbox 评测的关键工程巧思：不靠重建环境、而是"快照→比对→只回滚改动项"，把不可承受的重置成本压到可大规模并行的程度，这个思路可迁移到任何"重置代价高、但改动范围可知"的有状态环境评测。
里程碑过程分把黑盒成败变成可诊断的进度条，让基准从"打分"升级为"体检"——能告诉你智能体在 31 步、跨 8 个页面的长任务里到底哪一环掉链子，这对企业部署的可信度评估极有价值。
演示=岗前培训的类比很自然地把"非结构化教程/文档如何提升智能体"这个开放问题摆上台面：当结构化人类演示不总是可得时，如何更高效利用 Trailhead 这类教程是后续方向。

局限与展望¶

评估器只查终态、不查过程安全：和 OSWorld 一样只比对环境最终状态是否匹配，无法检测智能体是否"偷偷"修改/删除了任务无关的数据。理想做法是比对运行前后完整环境状态，但 Salesforce 状态文件巨大、下载会耗尽每日 API 配额，不可行；作者只能靠标注员抽查+任务级特定检查打补丁，承认这既不可扩展也不全面。
只覆盖企业工作流的子集：真实企业流程常跨多平台（如 HubSpot 找线索 → LinkedIn Sales Navigator 确认决策人 → Salesforce 管理线索），即便只在 Salesforce 内部，线索评分、AI 洞察等任务也因属付费功能或无免费 sandbox 而被排除。
自己的观察：300 实例来自 60 个模板（每模板 5 条查询），同模板查询共享结构，模板级多样性其实有限；且评估高度依赖手工编写的规则评估器，扩展到新任务/新平台的人力成本不低。

评分¶

新颖性: ⭐⭐⭐⭐ 首个面向 Salesforce 读写型 CRM 工作流的计算机操作智能体基准，任务级差异回滚和里程碑评估是实打实的工程创新。
实验充分度: ⭐⭐⭐⭐⭐ 9~11 个智能体 × 两种设置全面对比，含 OSWorld→SCUBA 泛化掉点、成本/延迟权衡等多维分析。
写作质量: ⭐⭐⭐⭐ 动机清晰、表 1 定位精准，工程细节（重置/并行/评估）交代充分。
价值: ⭐⭐⭐⭐⭐ 直指企业软件自动化落地的真实痛点，可解释评估与演示增强对工业界很有参考价值。