ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/xiaomi-research/proactive-mobile
领域: Agent / 多模态VLM
关键词: 主动智能、移动 GUI 智能体、Benchmark、函数调用、意图推断

一句话总结¶

针对当前移动智能体只会"被动执行命令"的局限，本文提出 ProactiveMobile——一个把"主动智能"形式化为「从四维设备上下文推断潜在用户意图并生成可执行函数序列」的大规模基准（3,660 条多意图样本 / 14 个场景 / 63 个 API），并配套可客观评测的 SR/FTR 指标，证明主动性是当前 MLLM 普遍缺失但可学习的能力（微调后的 Qwen2.5-VL-7B 达 20.82% 成功率，反超 o1 的 17.02%）。

研究背景与动机¶

领域现状：在 MLLM 推动下，移动 GUI 智能体已能理解界面、对话交互、做多步任务规划。但它们都停在"反应式（reactive）"范式里——本质是直接命令的被动执行器，用户必须自己完成"识别需求 → 表达目标"的全部认知负担，智能体只是个高级工具。

现有痛点：下一步是"主动智能（proactive intelligence）"——智能体自己预判需求、主动发起动作。但这个方向被基准的缺失卡住了。已有的主动智能体基准（ProactiveAgent、FingerTip-20K）有三处硬伤：① 任务过度简化——用抽象化的上下文，并强行假设每个场景只有"唯一正确动作"，无视用户偏好天然的一对多特性；② 评测太粗——要么用二值奖励模型（无法区分"部分对"和"完全错"），要么用余弦相似度（只测语义相关、不测功能正确性和可执行性）；③ 输出不可执行——产出自然语言建议，从"建议任务"到"真正在设备上执行"之间存在断裂。

核心矛盾：主动建议本质是一对多映射（同一上下文可对应多个合理动作），而旧基准把它压成一对一；同时自然语言建议主观、不可执行，导致评测既不客观也无法落地。

本文目标：构建一个能反映真实复杂度、且支持客观可执行评测的主动智能基准，把"建议"和"执行"打通。

核心 idea：把主动智能任务重新形式化为「四维设备上下文 → 可执行函数序列」，用 63 个 API 的统一函数池把模糊的自然语言意图锚定成结构化的、可客观判分的函数调用，并用一对多多标注承认主动性的主观多样性。

方法详解¶

ProactiveMobile 不是一个模型，而是一套基准 + 任务定义 + 数据生产管线 + 评测协议。整体要解决的是：怎么把"主动给用户推荐有用动作"这件事，变成一个有真实复杂度、又能被机器客观打分的可学习任务。下面先讲任务怎么形式化，再讲 3,660 条数据怎么造出来、怎么保证质量，最后讲怎么评。

整体框架¶

输入是某个"决策时刻"的四维设备上下文——用户画像（\(U\)）、设备状态（\(D\)）、世界信息（\(W\)）、行为轨迹（\(B\)）；模型要输出一个「意图 + 函数序列」对 \((\hat{I}, \hat{F})\)，其中 \(\hat{F}\) 是从预定义函数池 \(F\) 中选出的可执行函数序列。任务形式化为：

\[T = \{(I_k, F_k)\}_{k=1}^{a} = \text{Predict}(U, D, W, B)\]

关键在于 ground-truth 是一个集合 \(T\)（每条样本标注 1–3 个有效意图-函数对），只要模型输出 \((\hat{I}, \hat{F})\) 命中集合中任意一个就算对。这一对多设计是整个基准区别于前作的根。当上下文不需要任何动作时，\(\hat{F}=\varnothing\)（no-recommendation 逻辑）。

数据生产是一条清晰的多阶段管线：先采集真实行为轨迹打底，再用多个闭源大模型协同生成上下文/意图、注入干扰噪声、映射成函数序列，最后过三级审核。下图是数据生成管线（对应 Figure 2）：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实行为轨迹<br/>(多模态截图 / 文本日志)"] --> B["1. 生成上下文<br/>画像+设备+世界信息<br/>o1 做合理性校验"]
    B --> C["2. 生成候选意图<br/>6 个闭源 MLLM 各出<br/>聚类取 Top-3"]
    C --> D["3. 注入干扰噪声<br/>无关但自洽文本<br/>(5-20× 有效信息)"]
    D --> E["4. 映射函数序列<br/>从 63-API 池选函数<br/>(可为零函数)"]
    E --> F["5. 三级审核<br/>规则→Agent→30 专家"]
    F --> G["ProactiveMobile<br/>3,660 条 / 14 场景"]

关键设计¶

1. 四维上下文 + 一对多函数序列的任务形式化：把"主动"变成可判分的任务

这一设计直接打中前作"过度简化 + 不可执行"的痛点。作者把"决策时刻"的输入拆成四个维度的设备信号：用户画像（基础信息、长期习惯、个人偏好）、设备状态（硬件、电量、网络、定位、通知）、世界信息（天气、时段、节假日）、行为轨迹（用户-设备交互的时序序列，可以是文本描述或 GUI 截图序列）。前三者用自然语言表达，行为轨迹则可用截图序列承载多模态信号。

模型的输出被严格约束成 \((\hat{I}, \hat{F})\)，其中 \(\hat{F}\) 只有当 \(\hat{I}\) 可执行且能映射到函数池中至少一个函数时才非空：\(\hat{F} \subseteq F\)，否则 \(\hat{F}=\varnothing\)。判对条件是 \((\hat{I}, \hat{F}) \in T\)。这样做的价值在于：自然语言建议的主观性被"必须落成函数调用"这一约束消解，评测从"主观文本匹配"变成"客观结构化匹配"；而 ground-truth 用集合而非单点，承认了主动推荐天然的一对多，避免了把功能正确但表述不同的预测误判为错。

2. 多模型协同的数据生产管线 + 干扰噪声注入：在真实轨迹上批量造高复杂度样本

行为轨迹是意图预测的地基。作者从公开/自建数据中取真实交互轨迹：多模态轨迹来自 GUI-Odyssey、AITZ、CAGUI 以及自采的 MobileAgentBench 等数据集的截图序列+命令；文本轨迹则对 GUI traces 去重后用 Claude-Sonnet-4 做基于 prompt 的扩展生成。

在轨迹之上跑五步生成（见上图）：① 用 Claude-Sonnet-4 / Gemini-2.5-Pro / GPT-5 随机生成画像/设备/世界三类上下文，并用 o1 做合理性校验，不通过就丢弃重生成；② 用 6 个 SOTA 闭源 MLLM 各自模拟潜在意图，再用 Gemini-2.5-Flash 把 30 个候选语义聚类、按跨模型支持度抽出 Top-3 代表性意图（聚类中心）；③ 干扰信息注入——往上下文里塞任务无关但语义自洽的噪声，平均量是有效信息的 5–20 倍，逼模型学会从噪声中抓显著、任务相关的信号（这是提升鲁棒性的关键设计，也是真实设备上下文"信息过载"的拟真）；④ 用 Claude-Sonnet-4 把意图映射成函数序列，零函数序列即触发"无需动作"逻辑；⑤ 交给三级审核。这条管线的价值是：既保留了真实轨迹的复杂度，又能用多模型多样性 + 噪声注入把样本难度和真实感拉满。

3. 三级审核 + 三档难度分级：用 30 人专家团把质量和区分度同时焊死

光靠模型生成的数据不可信，作者用三级审核兜底：规则过滤自动剔除格式/一致性不达标的条目；Agent 评估用 Gemini-2.5-Pro 检查文本信息的真实性/自然度、轨迹的真实性/时序连贯、推荐的上下文契合度与可执行性；专家复核由 30 名受过标注训练、有人机交互背景的标注员核验事实准确性、逻辑可行性、动作可行性。每条数据由 3 人独立标注，至少 2 人一致才入库——这套清洗投入了 4 个月、约 21 万美元。

同时为了让基准有区分度，作者用 5 个强模型（Claude-Sonnet-4/3.7、GPT-4o、Gemini-2.5-Pro/Flash）的正确数把每条样本分三档难度：L1 易（5 个里 4–5 个做对）、L2 中（2–3 个）、L3 难（0–1 个）。5 名博士研究员对分层抽样的人工评估与模型自动分级的一致性 >95%，验证了这套自动分级的可靠性。函数池本身也是 14 个场景手工归类 + LLM 生成函数后合并裁剪 + 5 名 AI Agent 方向博士交叉核验定义而成。

4. SR / FTR 双指标 + Best-Match 选择协议：为一对多场景定制的客观评测

一对多让评测变棘手：太严会惩罚"功能对但形式不同"的预测，太松又失去意义。作者定义两个核心指标：成功率 SR（越高越好）不做字符串比较，而是用 Gemini-2.5-Pro 当 LLM 裁判判定预测是否与某个 ground-truth 在功能上等价，等价则记 1（与人类专家一致性达 98%）；误触率 FTR（越低越好）衡量"本该无动作时模型却错误触发"的比例：

\[\text{FTR} = \frac{N_{ft}}{N_{no\text{-}action}}\]

其中 \(N_{no\text{-}action}\) 是 ground-truth 为空（\(G=\varnothing\)）的样本数，\(N_{ft}\) 是其中被错误触发非空预测的数量。为了在一对多下公平选出"对照哪个 ground-truth"，作者设计了两阶段 Best-Match Selection Protocol：阶段一优先找完美功能等价——只要预测与任一 ground-truth 序列被裁判判为等价，该样本 SR 立即记 1 并随机选其一作最佳匹配；阶段二若无完美匹配则 SR 记 0，再退化为 F1 兜底——把预测和 ground-truth 都当作无序的函数名集合（忽略参数和顺序），选 F1 最大的那个 ground-truth 作为最佳匹配，供后续分析。这套协议把"完美功能正确"立为成功的金标准，又给失败案例一个一致、公平的分析基准。

实验关键数据¶

评测在 ProactiveMobile 测试集上对比一众闭源 SOTA MLLM（GPT-5、GPT-4o、o1、Gemini-2.5-Pro）与微调模型。微调用 8,876 条训练样本，对 Qwen2.5-VL-7B-Instruct 与 MiMo-VL-7B-SFT-2508 做全参数 SFT，输出格式为"自然语言推荐指令 + 可执行函数序列"。所有 baseline 零样本评测，用统一 prompt 给同样的多维上下文和 API 列表。

主实验（测试集 Avg，单位 %）¶

模型	SR↑	FTR↓	说明
GPT-4o	6.60	65.32	闭源，误触率极高
Gemini-2.5-Pro	9.62	74.98	闭源
GPT-5	11.37	39.20	闭源最强之一
o1	17.02	14.09	闭源最强，FTR 也低
Qwen2.5-VL-7B-Instruct（原始）	1.61	67.62	微调前基座
MiMo-VL-7B-SFT-2508（原始）	1.31	79.57	微调前基座
Qwen2.5-VL-7B + Proactive	20.82	13.76	微调后，全场最佳，反超 o1
MiMo-VL-7B-SFT + Proactive	13.47	46.91	微调后

核心结论：在本基准上微调能稳定解锁 SOTA——Qwen 从 1.61% → 20.82%，MiMo 从 1.31% → 13.47%；微调后的 Qwen 显著超过最强闭源 o1（17.02%）。这说明主动性是一种需要领域专门训练的专用能力，再强的通用模型也无法开箱即用。

消融实验（输出格式，All split，单位 %）¶

训练策略	SR↑	FTR↓	说明
仅 Func.（只输出函数）	9.18	93.16	FTR 爆炸，几乎全在乱触发
Rec.+Func.（本文）	20.82	13.76	推荐文本 + 函数，SR 最高
Think+Func.（加推理）	6.36	93.06	加 think 反而更差
Think+Rec.+Func.	8.02	2.06	FTR 极低但 SR 大跌（过度保守、不敢触发）

关键发现¶

输出格式是决定性变量：先生成自然语言推荐再落函数（Rec.+Func.）的 SR 远高于只输出函数或额外加 Think 步骤——自然语言推荐像是给函数生成提供了"意图锚点"，去掉它 FTR 直接飙到 93%。
多模态是核心瓶颈：最优模型在文本任务上 SR 26.04%，远高于多模态任务的 15.61%；部分多模态场景甚至在缺失视觉信息时表现更好，说明把抽象意图锚定到嘈杂的真实 GUI 截图里引入了显著复杂度，鲁棒的视觉理解仍是设备端主动智能的关键短板。
OOD 泛化有限但合理（Table 4，64 条来自训练完全不见的"物流配送""智能家居"两场景）：微调 Qwen 仍以 20.31% SR 领先，但绝对值不高，说明主动性可学但跨场景迁移仍难。
主动性可学但远未达部署门槛：即便最好的微调模型也只有 ~21% SR，离设备端实际部署要求还很远，这反而凸显了该问题的挑战性和基准的价值。

亮点与洞察¶

把"主观的主动建议"工程化成"客观可判分的函数调用"：用 63-API 函数池 + 功能等价 LLM 裁判，绕开了自然语言评测的主观性陷阱，这套"意图→函数序列"的锚定思路可迁移到任何需要评测开放式建议的 agent 任务。
一对多多标注 + Best-Match 协议是诚实面对"用户偏好多样性"的范式，比强行假设唯一答案更贴近真实，且两阶段协议（完美匹配优先 / F1 兜底）在严格与公平间取得了实用的平衡。
干扰噪声注入（5–20× 有效信息）把"真实设备上下文信息过载"显式建模进数据，是个朴素但有效的鲁棒性 trick，可直接借用到其他上下文密集型 agent 训练。
"Rec.+Func. 优于纯 Func."这一消融给主动 agent 的输出设计提供了直接证据：让模型先用自然语言把意图说清，再落成可执行动作，比直接吐函数更稳。

局限与展望¶

数据生成重度依赖闭源大模型（Claude/Gemini/GPT/o1 协同生成上下文、意图、噪声、函数映射），基准的分布会继承这些模型的偏好与盲点；难度分级也由 5 个模型的正确率定义，与"人类认知难度"未必完全对齐（尽管有 >95% 人工一致性背书）。
绝对成功率偏低（最优 ~21%），离设备端部署门槛尚远，主动智能仍是开放难题。
⚠️ 论文正文给出的训练样本量在不同处略有出入（摘要级 3,660 总量 vs. 训练 split 表格里的 multimodal+text 各 4,438、微调用 8,876），具体口径以原文 Table 2 与 Appendix 为准。
多模态瓶颈未解：视觉信息有时反而拖累表现，如何让模型在嘈杂 GUI 截图里稳健 grounding 是后续关键方向。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把移动端主动智能形式化为"四维上下文→可执行函数序列"的一对多任务，并配套客观可执行评测，定义清晰且填补空白
实验充分度: ⭐⭐⭐⭐ 覆盖多档难度/模态/OOD 与输出格式消融，证据链完整；但主要靠 SFT baseline，缺少对噪声量、上下文维度等数据侧因素的消融
写作质量: ⭐⭐⭐⭐ 任务定义、管线、协议讲得严谨，公式与协议清楚；数据量口径在正文不同处略有出入
价值: ⭐⭐⭐⭐⭐ 开源数据+权重，给"主动移动智能体"提供了急需的训练与评测底座，且证明主动性可学，方向意义明确