跳转至

ProSoftArena: Benchmarking Hierarchical Capabilities of Multi-modal Agents in Professional Software Environments

会议: CVPR 2026
论文: CVF Open Access
代码: https://prosoftarena.github.io (项目主页)
领域: 多模态VLM / Agent
关键词: 多模态智能体, 专业软件, 能力分级基准, 真实虚拟机环境, 人机协作评测

一句话总结

ProSoftArena 是首个面向专业软件(CAD、ChemDraw、ArcGIS、Photoshop 等 13 款)的多模态智能体基准,它把智能体能力划成 L1–L5 五级,在真实 Windows 虚拟机里用执行结果自动判分,并独创"人在回路"评测,结果显示最强智能体在软件级任务(L2)成功率仅 20.6%、跨软件工作流(L3)几乎全军覆没。

研究背景与动机

领域现状:多模态大模型驱动的"计算机使用智能体"(computer-use agent)进展飞快,已能在网页导航、文件管理这类通用软件上完成不少日常任务。现有基准(GAIA、OSWorld、WindowsAgentArena、TheAgentCompany、ScienceBoard)也主要围绕浏览器和基础桌面应用展开。

现有痛点:真实科研与工业实践里,专家依赖的是 SolidWorks(工程设计)、ChemDraw(分子建模)、Adobe 套件(数字创作)这类专业软件——它们界面密集复杂、需要深厚领域知识。现有基准几乎不碰这类软件,导致评测出来的"智能体能力"与真实生产力严重脱节。

核心矛盾:专业软件相比通用桌面应用是复杂度的一次跃迁(GUI 极密、功能深、要懂专业术语),而当前的评测既缺乏对这种复杂度的覆盖,也缺乏对"能力层次"的刻画——一个智能体能点按钮,不代表它会组织出完整的软件级工作流,更不代表它能跨软件协同。

本文目标:构建一个能系统性探测智能体在专业软件上能力边界的基准,要求做到 (1) 能力分层、(2) 覆盖多学科、(3) 可复现的真实环境、(4) 客观的执行式判分、(5) 量化人机协作效率。

切入角度:作者认为衡量专业软件能力不能只看"自主成功率"这一个数,而应建立一个由易到难、层层递进的能力阶梯,并把"人能否低成本介入纠错"也纳入评测——因为现实里专业工具往往是人机协作场景。

核心 idea:用"五级能力分层 + 真实虚拟机执行环境 + 执行式自动判分 + 人在回路评测"四件套,把专业软件智能体的能力第一次系统量化出来。

方法详解

整体框架

ProSoftArena 不是一个模型,而是一套基准与评测平台。它的骨架由四部分组成:① 一套从 L1 到 L5 的能力分级体系,把"原子 GUI 操作 → 软件级任务 → 跨软件流水线 → 开放式创作 → 项目级编排"逐级排开;② 一个跑在 Docker 容器里的 Windows 11 真实虚拟机环境,预装 13 款专业软件,靠快照保证每个任务从干净状态起跑;③ 一套执行式自动评测框架,每个任务用定制脚本检查最终系统状态与产物,返回 1.0/0.0;④ 一套人在回路评测范式,包含"人主动接管"和"智能体主动求助"两种模式,用来量化协作效率。

整个评测流程是:任务初始化脚本把虚拟机恢复到指定上下文(下载文件、启动软件、调好面板)→ 智能体在"截图 + 系统状态信号"的观测下,用键鼠动作与环境交互(被形式化为一个 POMDP,MLLM 当策略模型逐步预测动作)→ 智能体输出 DONE/FAIL 或达到步数上限后,后处理脚本提取产物并运行评测函数判分。

这是一个纯基准/平台型工作,流程主要是数据构建与评测协议,故不画 pipeline 框架图,用文字与下文的关键设计讲清即可。

关键设计

1. 五级能力分层体系:把"会操作"和"会工作"拆开

现有基准只给一个笼统成功率,掩盖了"能点按钮"与"能完成专业任务"之间的巨大鸿沟。ProSoftArena 首次为专业软件建立能力阶梯,每一级都包含前一级的能力:L1 操作级——执行单个原子 GUI 操作完成一个核心功能(如在 Photoshop 调亮度);L2 软件级——在单个软件内规划并执行一串操作完成完整专业任务(如在 AutoCAD 画一个标准室外羽毛球场),需要序列决策与领域知识;L3 流水线级——跨多个软件协同的工作流(如在 ArcGIS 聚合街区人口、再到 Excel 做分布统计),考验长程规划与跨应用的上下文/数据传递;L4 创作级——开放式创作(如给儿童牙科诊所设计含太阳和笑脸元素的卡通 logo);L5 项目级——端到端真实工业/科研项目(数周乃至数月、多角色协同)。本文当前评测到 L4,L5 留作未来工作。这套分层既能系统探测能力前沿,又给后续研究画了路线图。

2. 真实虚拟机执行环境:让评测可复现且不破坏宿主

专业软件高度依赖系统集成、且多数在 Windows 上才稳定,光靠 API 模拟无法真实评测。作者在 Docker 容器里托管一个完整的 Windows 11 虚拟机,预装 13 款固定版本的专业软件(Illustrator、Photoshop、ImageJ、ChemDraw、RGui、Excel、VSCode、NVIVO、ArcGIS、ANSYS、MultiSim、AutoCAD、SolidWorks)。虚拟机的隔离性保证智能体不会对宿主造成不可逆破坏,而快照机制让每个任务前都能确定性地重置到干净初始态,从而保证一致的初始条件与可复现性。智能体通过屏幕截图与系统状态信号感知环境,用键鼠控制交互——这与人类操作专业软件的方式一致。

3. 执行式自动评测框架:用最终状态而非过程判分

专业任务正确与否难以靠中间步骤判断,必须看最终产物。框架为每个任务定制评测函数,直接核验最终系统状态与输出文件:例如 Photoshop 图像编辑任务用均方误差(MSE)阈值比对最终图与期望图,VSCode 配置任务则解析用户级配置文件确认主题、自动保存等设置是否生效。评测脚本依次做 (i) 后处理(激活目标窗口、保存当前文件)、(ii) 从虚拟机取回产物或应用状态、(iii) 运行评测函数返回 1.0(成功)或 0.0(失败)。整个判分自动执行,保证一致性与可复现,避免了主观或基于轨迹相似度的脆弱判定。

4. 人在回路评测范式:量化协作效率而非只看自主成功率

现实里专业软件常是人机协作场景,因此作者引入两种互补模式:模式一·人主动接管(HIT)——人类专家实时监控,当检测到严重错误、轨迹偏离或可能不可逆的危险操作时立即接管纠正,再把控制权交还智能体;模式二·智能体主动求助(AIA)——给智能体加一个 ASK ACTION 工具,当它对下一步不确定时可主动求助并说明理由,由人类代为执行后让它从更新状态继续。这套设计能衡量智能体的真实实用价值,并暴露当前模型"不会主动求助"的短板——这是单纯自主成功率指标完全看不到的维度。

一个例子:一个 L3 跨软件任务怎么被评测

以"在 ArcGIS 里聚合街区人口、再到 Excel 做分布统计"为例:初始化脚本先把虚拟机恢复到干净快照、下载地理数据、启动 ArcGIS 并加载图层;智能体在截图观测下逐步操作 ArcGIS 完成聚合,再切到 Excel 做统计——整个过程平均需 ~87 步、~507 秒(人类基准)。完成后评测脚本取回 Excel 产物、运行评测函数核对统计结果是否达标。这类 L3 任务对所有被测智能体的成功率均为 0.0%,直观说明跨软件长程工作流仍远超当前能力。

实验关键数据

被测智能体分三类:闭源 MLLM(GPT-4o、GPT-5、o3)、开源 MLLM(Qwen2.5-VL-72B-Instruct、GLM-4.5V)、专用计算机使用智能体(Agent-S、UI-TARS-1.5-7B、Claude 4 Computer Use)。MLLM 类对比三种观测:纯截图(Screenshot)、截图+无障碍树(A11y tree)、Set-of-Marks(SoM,给可交互元素打标)。L1–L3 用成功率(SR)为主指标,每个实验跑 3 次取均值±标准误;L4 由人工对比产物主观评测。

主实验(Table 3,Overall 列,截图+A11y 观测)

模型 类型 L1 SR(%) L2 SR(%) L3 SR(%)
GLM-4.5V 开源 MLLM 6.0 0.8 0.0
Qwen2.5-VL 开源 MLLM 16.5 4.3 0.0
GPT-4o 闭源 MLLM 17.5 1.8 0.0
o3 闭源 MLLM 32.2 8.7 0.0
GPT-5 闭源 MLLM 42.5 11.8 0.0
UI-TARS-1.5-7B 专用 agent 10.0 1.2 0.0
Agent-S 专用 agent 48.6 17.1 0.0
Claude 4 Computer Use 专用 agent 45.1 20.6 0.0

注:专用智能体 Agent-S 用其默认观测,Claude 4 直接获得环境控制权自主决定何时观测;故同表不同行的观测设置略有差异。

关键结论:① L1 仍有大量提升空间——最强模型也未过 50%;② L2 是主要瓶颈——从 L1 到 L2 成功率断崖式下跌,说明"能做原子操作"≠"能把它们组成参数化的、完成软件级任务的连贯序列";③ L3 几乎全为 0——跨软件长程规划、状态一致性追踪、跨应用语义对齐仍遥不可及;④ 专用计算机使用智能体(Agent-S、Claude 4)整体最强,说明显式注入 UI 操作惯例与工具使用先验最契合专业软件;⑤ 更强的骨干(GPT-5)从额外文本信息(A11y 树)中获益更大,反映其多模态融合推理更强。

统计与领域分布(Table 2)

能力级 任务数(占比) 人均步数 人均耗时(s)
L1 操作级 252 (55.3%) 5.1 14.8
L2 软件级 164 (35.9%) 20.4 83.1
L3 流水线级 20 (4.4%) 86.9 506.8
L4 创作级 20 (4.4%)
总计 456 12.9 52.6

随能力级升高,人类执行步数与耗时显著增长(L1 的 5.1 步/14.8 秒 → L3 的 86.9 步/506.8 秒),说明 ProSoftArena 在 L2/L3 上的任务复杂度与时长远超既有基准。领域上,Business(核心软件 R 界面简单、可脚本完成)成功率偏高;Social Sciences(NVIVO 大量跨文件操作)表现最差。

消融实验

视觉定位输入(Table 4,Illustrator + Qwen2.5-VL)

观测配置 L1 SR(%) L2 SR(%) L1 耗时(s) L1 成本(tokens)
SoM from A11y 0.0 0.0 1146.3 308.2k
SoM from A11y+Omni 10.5 0.0 1761.2 414.1k
SoM+Screenshot 21.1 6.7 1553.8 416.2k
SoM+Screen+A11y 5.3 0.0 1458.9 616.1k

更丰富的输入能提升定位,但成本随之上升、且非单调——在 SoM 上同时叠加截图与完整 A11y 树反而明显掉点,说明信息过载会超出模型有效处理容量、引入冲突线索。SoM+Screenshot 在 L1 上取得 21.1% 的最佳折中,但 L2 上成本远超收益、不划算。

关键发现

  • L2 是分水岭:能否把原子操作组合成参数化的软件级序列,是当前智能体最大的能力断层;L3 跨软件工作流则对所有模型都是 0%。
  • 观测方式无万能解:A11y 树适合控件密集/坐标缺失的场景(避免 SoM 标注遮挡、保留候选坐标点击),SoM 适合图标密集少文字、控件间距充足的场景(把识别与定位合并为一次决策)。
  • 领域先验有效但模型差异大:在 ChemDraw 上预置"知识卡片"(分子式、结构约束)能稳定提升、L2 提升更明显,其中 Claude 获益最大、Qwen 提升有限(说明 Qwen 的瓶颈在多模态交互而非知识理解)。
  • 动作历史长度边际递减:给 GPT-5 提供 0/1/3/5 步历史,文本型任务(R)受益明显但超过 3 步即饱和;几何中心的 CAD(SolidWorks)提升有限,因坐标与工具模式很快过时。
  • 人主动接管(HIT)价值巨大(Table 5):Qwen2.5-VL 在 VSCode 的 L2 任务上,HIT 把成功率从 6.7% 拉到 66.7%、平均步数从 44.6 降到 12.5;而智能体主动求助(AIA)收益甚微——因为模型很少主动求助,暴露其缺乏校准的自我评估能力。

亮点与洞察

  • 把"能力"从一个标量升级成一条阶梯:L1–L5 分层让"智能体到底卡在哪一层"一目了然,比单一成功率信息量大得多,也给后续研究画了清晰路线图。
  • 真·虚拟机执行 + 快照重置:用 Docker 托管 Windows 11、固定软件版本、每任务快照回滚,把"专业软件评测不可复现"这个老大难问题工程化解决了,这套基础设施本身就可复用。
  • 人在回路是点睛之笔:HIT/AIA 两模式不仅量化协作效率,还顺手测出了一个被自主成功率掩盖的短板——当前模型"不知道自己不知道",几乎不会主动求助。这个洞察对设计可信赖的 AI 助手很有指导价值。
  • 可迁移的评测思路:执行式判分(核对最终系统状态/产物而非轨迹相似度)+ 能力分层,可直接迁移到机器人、办公自动化等其他"过程难判、结果可核"的智能体任务。

局限与展望

  • L5 尚未评测:项目级编排(跨周/月、多角色、需求动态变化)只定义未落地,当前评测止步 L4。
  • 任务规模在高层偏小:L3、L4 各仅 20 题(合计占 8.8%),高难度区间的统计可靠性有限,结论需谨慎外推。
  • 平台绑定 Windows:因专业软件多在 Windows 上最稳定,环境锁定 Windows 11,跨 OS 的专业工具(如部分 Linux 科研软件)暂未覆盖。
  • 人在回路成本高:HIT/AIA 需真人专家实时介入,难以大规模自动化扩展;如何用更廉价的代理(如更弱的"教练模型")近似人类干预值得探索。
  • 改进方向:作者指出未来应聚焦复杂视觉定位、长程动作规划、领域知识注入,以及培养智能体校准的自我评估与主动协作能力。

相关工作与启发

  • vs OSWorld / WindowsAgentArena:它们覆盖通用桌面日常任务(OSWorld 多 OS、WindowsAgentArena 专攻 Windows),无能力分层、无多学科专业软件、无人在回路;ProSoftArena 首次聚焦 13 款专业软件、建立能力阶梯并加入协作评测。
  • vs ScienceBoard:ScienceBoard 评测科研工作流(6 款应用、自托管环境),但不分层、不做人在回路、学科覆盖窄;ProSoftArena 在任务数(456 vs 169)、应用数(13 vs 6)、评测维度(分层+人在回路)上都更全面。
  • vs TheAgentCompany / GAIA:前者评知识工作者长程项目(4 款应用)、后者是日常通用任务(无自托管环境);二者均不针对专业软件,也无能力分层。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个专业软件智能体基准 + 首个能力分层 + 独创人在回路评测,三处都是开拓性的。
  • 实验充分度: ⭐⭐⭐⭐⭐ 8 个智能体 × 3 种观测 × 多学科,外加 3 组消融与人在回路评测,覆盖全面。
  • 写作质量: ⭐⭐⭐⭐ 结构清晰、洞察扎实;但 L3/L4 规模偏小、部分图表细节需查附录。
  • 价值: ⭐⭐⭐⭐⭐ 暴露当前智能体在专业软件上的真实差距(L2 仅 20.6%、L3 为 0),并给出可复现平台与设计原则,对领域推进价值很高。