ProSoftArena: Benchmarking Hierarchical Capabilities of Multi-modal Agents in Professional Software Environments¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://prosoftarena.github.io （项目主页）
领域: 多模态VLM / Agent
关键词: 多模态智能体, 专业软件, 能力分级基准, 真实虚拟机环境, 人机协作评测

一句话总结¶

ProSoftArena 是首个面向专业软件（CAD、ChemDraw、ArcGIS、Photoshop 等 13 款）的多模态智能体基准，它把智能体能力划成 L1–L5 五级，在真实 Windows 虚拟机里用执行结果自动判分，并独创"人在回路"评测，结果显示最强智能体在软件级任务（L2）成功率仅 20.6%、跨软件工作流（L3）几乎全军覆没。

研究背景与动机¶

领域现状：多模态大模型驱动的"计算机使用智能体"（computer-use agent）进展飞快，已能在网页导航、文件管理这类通用软件上完成不少日常任务。现有基准（GAIA、OSWorld、WindowsAgentArena、TheAgentCompany、ScienceBoard）也主要围绕浏览器和基础桌面应用展开。

现有痛点：真实科研与工业实践里，专家依赖的是 SolidWorks（工程设计）、ChemDraw（分子建模）、Adobe 套件（数字创作）这类专业软件——它们界面密集复杂、需要深厚领域知识。现有基准几乎不碰这类软件，导致评测出来的"智能体能力"与真实生产力严重脱节。

核心矛盾：专业软件相比通用桌面应用是复杂度的一次跃迁（GUI 极密、功能深、要懂专业术语），而当前的评测既缺乏对这种复杂度的覆盖，也缺乏对"能力层次"的刻画——一个智能体能点按钮，不代表它会组织出完整的软件级工作流，更不代表它能跨软件协同。

本文目标：构建一个能系统性探测智能体在专业软件上能力边界的基准，要求做到 (1) 能力分层、(2) 覆盖多学科、(3) 可复现的真实环境、(4) 客观的执行式判分、(5) 量化人机协作效率。

切入角度：作者认为衡量专业软件能力不能只看"自主成功率"这一个数，而应建立一个由易到难、层层递进的能力阶梯，并把"人能否低成本介入纠错"也纳入评测——因为现实里专业工具往往是人机协作场景。

核心 idea：用"五级能力分层 + 真实虚拟机执行环境 + 执行式自动判分 + 人在回路评测"四件套，把专业软件智能体的能力第一次系统量化出来。

方法详解¶

整体框架¶

ProSoftArena 不是一个模型，而是一套基准与评测平台。它的骨架由四部分组成：① 一套从 L1 到 L5 的能力分级体系，把"原子 GUI 操作 → 软件级任务 → 跨软件流水线 → 开放式创作 → 项目级编排"逐级排开；② 一个跑在 Docker 容器里的 Windows 11 真实虚拟机环境，预装 13 款专业软件，靠快照保证每个任务从干净状态起跑；③ 一套执行式自动评测框架，每个任务用定制脚本检查最终系统状态与产物，返回 1.0/0.0；④ 一套人在回路评测范式，包含"人主动接管"和"智能体主动求助"两种模式，用来量化协作效率。

整个评测流程是：任务初始化脚本把虚拟机恢复到指定上下文（下载文件、启动软件、调好面板）→ 智能体在"截图 + 系统状态信号"的观测下，用键鼠动作与环境交互（被形式化为一个 POMDP，MLLM 当策略模型逐步预测动作）→ 智能体输出 DONE/FAIL 或达到步数上限后，后处理脚本提取产物并运行评测函数判分。

这是一个纯基准/平台型工作，流程主要是数据构建与评测协议，故不画 pipeline 框架图，用文字与下文的关键设计讲清即可。

关键设计¶

1. 五级能力分层体系：把"会操作"和"会工作"拆开

现有基准只给一个笼统成功率，掩盖了"能点按钮"与"能完成专业任务"之间的巨大鸿沟。ProSoftArena 首次为专业软件建立能力阶梯，每一级都包含前一级的能力：L1 操作级——执行单个原子 GUI 操作完成一个核心功能（如在 Photoshop 调亮度）；L2 软件级——在单个软件内规划并执行一串操作完成完整专业任务（如在 AutoCAD 画一个标准室外羽毛球场），需要序列决策与领域知识；L3 流水线级——跨多个软件协同的工作流（如在 ArcGIS 聚合街区人口、再到 Excel 做分布统计），考验长程规划与跨应用的上下文/数据传递；L4 创作级——开放式创作（如给儿童牙科诊所设计含太阳和笑脸元素的卡通 logo）；L5 项目级——端到端真实工业/科研项目（数周乃至数月、多角色协同）。本文当前评测到 L4，L5 留作未来工作。这套分层既能系统探测能力前沿，又给后续研究画了路线图。

2. 真实虚拟机执行环境：让评测可复现且不破坏宿主

专业软件高度依赖系统集成、且多数在 Windows 上才稳定，光靠 API 模拟无法真实评测。作者在 Docker 容器里托管一个完整的 Windows 11 虚拟机，预装 13 款固定版本的专业软件（Illustrator、Photoshop、ImageJ、ChemDraw、RGui、Excel、VSCode、NVIVO、ArcGIS、ANSYS、MultiSim、AutoCAD、SolidWorks）。虚拟机的隔离性保证智能体不会对宿主造成不可逆破坏，而快照机制让每个任务前都能确定性地重置到干净初始态，从而保证一致的初始条件与可复现性。智能体通过屏幕截图与系统状态信号感知环境，用键鼠控制交互——这与人类操作专业软件的方式一致。

3. 执行式自动评测框架：用最终状态而非过程判分

专业任务正确与否难以靠中间步骤判断，必须看最终产物。框架为每个任务定制评测函数，直接核验最终系统状态与输出文件：例如 Photoshop 图像编辑任务用均方误差（MSE）阈值比对最终图与期望图，VSCode 配置任务则解析用户级配置文件确认主题、自动保存等设置是否生效。评测脚本依次做 (i) 后处理（激活目标窗口、保存当前文件）、(ii) 从虚拟机取回产物或应用状态、(iii) 运行评测函数返回 1.0（成功）或 0.0（失败）。整个判分自动执行，保证一致性与可复现，避免了主观或基于轨迹相似度的脆弱判定。

4. 人在回路评测范式：量化协作效率而非只看自主成功率

现实里专业软件常是人机协作场景，因此作者引入两种互补模式：模式一·人主动接管（HIT）——人类专家实时监控，当检测到严重错误、轨迹偏离或可能不可逆的危险操作时立即接管纠正，再把控制权交还智能体；模式二·智能体主动求助（AIA）——给智能体加一个 ASK ACTION 工具，当它对下一步不确定时可主动求助并说明理由，由人类代为执行后让它从更新状态继续。这套设计能衡量智能体的真实实用价值，并暴露当前模型"不会主动求助"的短板——这是单纯自主成功率指标完全看不到的维度。

一个例子：一个 L3 跨软件任务怎么被评测¶

以"在 ArcGIS 里聚合街区人口、再到 Excel 做分布统计"为例：初始化脚本先把虚拟机恢复到干净快照、下载地理数据、启动 ArcGIS 并加载图层；智能体在截图观测下逐步操作 ArcGIS 完成聚合，再切到 Excel 做统计——整个过程平均需 ~87 步、~507 秒（人类基准）。完成后评测脚本取回 Excel 产物、运行评测函数核对统计结果是否达标。这类 L3 任务对所有被测智能体的成功率均为 0.0%，直观说明跨软件长程工作流仍远超当前能力。

实验关键数据¶

被测智能体分三类：闭源 MLLM（GPT-4o、GPT-5、o3）、开源 MLLM（Qwen2.5-VL-72B-Instruct、GLM-4.5V）、专用计算机使用智能体（Agent-S、UI-TARS-1.5-7B、Claude 4 Computer Use）。MLLM 类对比三种观测：纯截图（Screenshot）、截图+无障碍树（A11y tree）、Set-of-Marks（SoM，给可交互元素打标）。L1–L3 用成功率（SR）为主指标，每个实验跑 3 次取均值±标准误；L4 由人工对比产物主观评测。

模型	类型	L1 SR(%)	L2 SR(%)
GLM-4.5V	开源 MLLM	6.0	0.8
Qwen2.5-VL	开源 MLLM	16.5	4.3
GPT-4o	闭源 MLLM	17.5	1.8
o3	闭源 MLLM	32.2	8.7
GPT-5	闭源 MLLM	42.5	11.8
UI-TARS-1.5-7B	专用 agent	10.0	1.2
Agent-S	专用 agent	48.6	17.1
Claude 4 Computer Use	专用 agent	45.1	20.6

注：专用智能体 Agent-S 用其默认观测，Claude 4 直接获得环境控制权自主决定何时观测；故同表不同行的观测设置略有差异。

关键结论：① L1 仍有大量提升空间——最强模型也未过 50%；② L2 是主要瓶颈——从 L1 到 L2 成功率断崖式下跌，说明"能做原子操作"≠"能把它们组成参数化的、完成软件级任务的连贯序列"；③ L3 几乎全为 0——跨软件长程规划、状态一致性追踪、跨应用语义对齐仍遥不可及；④ 专用计算机使用智能体（Agent-S、Claude 4）整体最强，说明显式注入 UI 操作惯例与工具使用先验最契合专业软件；⑤ 更强的骨干（GPT-5）从额外文本信息（A11y 树）中获益更大，反映其多模态融合推理更强。

统计与领域分布（Table 2）¶

能力级	任务数（占比）	人均步数	人均耗时(s)
L1 操作级	252 (55.3%)	5.1	14.8
L2 软件级	164 (35.9%)	20.4	83.1
L3 流水线级	20 (4.4%)	86.9	506.8
L4 创作级	20 (4.4%)	—	—
总计	456	12.9	52.6

随能力级升高，人类执行步数与耗时显著增长（L1 的 5.1 步/14.8 秒 → L3 的 86.9 步/506.8 秒），说明 ProSoftArena 在 L2/L3 上的任务复杂度与时长远超既有基准。领域上，Business（核心软件 R 界面简单、可脚本完成）成功率偏高；Social Sciences（NVIVO 大量跨文件操作）表现最差。

消融实验¶

视觉定位输入（Table 4，Illustrator + Qwen2.5-VL）：

观测配置	L1 SR(%)	L2 SR(%)	L1 耗时(s)	L1 成本(tokens)
SoM from A11y	0.0	0.0	1146.3	308.2k
SoM from A11y+Omni	10.5	0.0	1761.2	414.1k
SoM+Screenshot	21.1	6.7	1553.8	416.2k
SoM+Screen+A11y	5.3	0.0	1458.9	616.1k

更丰富的输入能提升定位，但成本随之上升、且非单调——在 SoM 上同时叠加截图与完整 A11y 树反而明显掉点，说明信息过载会超出模型有效处理容量、引入冲突线索。SoM+Screenshot 在 L1 上取得 21.1% 的最佳折中，但 L2 上成本远超收益、不划算。

关键发现¶

L2 是分水岭：能否把原子操作组合成参数化的软件级序列，是当前智能体最大的能力断层；L3 跨软件工作流则对所有模型都是 0%。
观测方式无万能解：A11y 树适合控件密集/坐标缺失的场景（避免 SoM 标注遮挡、保留候选坐标点击），SoM 适合图标密集少文字、控件间距充足的场景（把识别与定位合并为一次决策）。
领域先验有效但模型差异大：在 ChemDraw 上预置"知识卡片"（分子式、结构约束）能稳定提升、L2 提升更明显，其中 Claude 获益最大、Qwen 提升有限（说明 Qwen 的瓶颈在多模态交互而非知识理解）。
动作历史长度边际递减：给 GPT-5 提供 0/1/3/5 步历史，文本型任务（R）受益明显但超过 3 步即饱和；几何中心的 CAD（SolidWorks）提升有限，因坐标与工具模式很快过时。
人主动接管（HIT）价值巨大（Table 5）：Qwen2.5-VL 在 VSCode 的 L2 任务上，HIT 把成功率从 6.7% 拉到 66.7%、平均步数从 44.6 降到 12.5；而智能体主动求助（AIA）收益甚微——因为模型很少主动求助，暴露其缺乏校准的自我评估能力。

亮点与洞察¶

把"能力"从一个标量升级成一条阶梯：L1–L5 分层让"智能体到底卡在哪一层"一目了然，比单一成功率信息量大得多，也给后续研究画了清晰路线图。
真·虚拟机执行 + 快照重置：用 Docker 托管 Windows 11、固定软件版本、每任务快照回滚，把"专业软件评测不可复现"这个老大难问题工程化解决了，这套基础设施本身就可复用。
人在回路是点睛之笔：HIT/AIA 两模式不仅量化协作效率，还顺手测出了一个被自主成功率掩盖的短板——当前模型"不知道自己不知道"，几乎不会主动求助。这个洞察对设计可信赖的 AI 助手很有指导价值。
可迁移的评测思路：执行式判分（核对最终系统状态/产物而非轨迹相似度）+ 能力分层，可直接迁移到机器人、办公自动化等其他"过程难判、结果可核"的智能体任务。

局限与展望¶

L5 尚未评测：项目级编排（跨周/月、多角色、需求动态变化）只定义未落地，当前评测止步 L4。
任务规模在高层偏小：L3、L4 各仅 20 题（合计占 8.8%），高难度区间的统计可靠性有限，结论需谨慎外推。
平台绑定 Windows：因专业软件多在 Windows 上最稳定，环境锁定 Windows 11，跨 OS 的专业工具（如部分 Linux 科研软件）暂未覆盖。
人在回路成本高：HIT/AIA 需真人专家实时介入，难以大规模自动化扩展；如何用更廉价的代理（如更弱的"教练模型"）近似人类干预值得探索。
改进方向：作者指出未来应聚焦复杂视觉定位、长程动作规划、领域知识注入，以及培养智能体校准的自我评估与主动协作能力。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个专业软件智能体基准 + 首个能力分层 + 独创人在回路评测，三处都是开拓性的。
实验充分度: ⭐⭐⭐⭐⭐ 8 个智能体 × 3 种观测 × 多学科，外加 3 组消融与人在回路评测，覆盖全面。
写作质量: ⭐⭐⭐⭐ 结构清晰、洞察扎实；但 L3/L4 规模偏小、部分图表细节需查附录。
价值: ⭐⭐⭐⭐⭐ 暴露当前智能体在专业软件上的真实差距（L2 仅 20.6%、L3 为 0），并给出可复现平台与设计原则，对领域推进价值很高。