Adaptive Vision-Language Model Routing for Computer Use Agents¶
会议: CVPR 2026
arXiv: 2603.12823
代码: GitHub
领域: 多模态VLM / GUI智能体 / 模型路由
关键词: VLM路由, CUA, 置信度探测, 记忆增强, 成本优化
一句话总结¶
提出 Adaptive VLM Routing (AVR) 框架,在 CUA 编排器和 VLM 模型池之间插入轻量语义路由层,通过多模态难度分类、logprob 置信度探测和历史记忆注入三种机制动态选择最经济的模型,推理成本降低最高 78% 且精度仅下降 2 个百分点以内。
研究背景与动机¶
领域现状:Computer Use Agents (CUA) 通过 VLM 解读截图并执行 GUI 操作(点击、输入、滚动),已有 OpenAI CUA、Claude Computer Use、UFO2 等系统。当前系统对所有操作使用单一固定 VLM,一个 20 步任务累积约 400K input tokens,成本 $0.10-$0.40。
现有痛点:ScreenSpot-Pro 数据显示 GPT-4o (约 1.8T 参数) 在 GUI 定位上仅 0.8% 准确率,而 7B 的 OS-Atlas 达 18.9%;Qwen2.5-VL 从 3B→72B (24×参数) 精度仅从 24.2%→43.6% (1.8×)。模型大小不是定位精度的可靠预测因子。
核心矛盾:CUA 操作难度差异巨大——点击大按钮是简单操作,而在密集 IDE 工具栏定位小图标极具挑战;但当前系统对所有操作使用同一模型,简单操作浪费算力,困难操作可能失败。应用间精度方差(>35% VS Code vs <15% Premiere Pro)远大于模型间方差。
本文目标 将 CUA 推理重构为动态模型路由问题,为每个操作选择最经济且足够可靠的 VLM。
切入角度:将路由形式化为成本-精度约束优化 \(\min_\pi \sum c_{\pi(i)}\) s.t. accuracy \(\geq \tau_{acc}\),引入潜在难度变量和阈值策略。
核心 idea:通过难度估计+置信度探测+记忆注入三步路由,把 CUA 的大部分操作分给小模型,仅对困难/高风险操作升级到大模型。
方法详解¶
整体框架¶
AVR 作为透明代理层拦截每个工具调用,依次执行:安全检查(Visual Confused Deputy 护栏)→难度分类(多模态嵌入)→小模型置信度探测(logprob)→路由决策。形成三层策略:低难度+高置信→小模型(约 78% 流量);高难度或低置信→大模型(约 17%);高风险→大模型+护栏验证(约 5%)。
关键设计¶
-
多模态难度分类器:
- 功能:估计每个 GUI 操作的难度分数 \(d(t_i) = \max(d_{vis}, d_{sem})\)
- 核心思路:裁剪预测坐标周围 100×100 像素区域,用 120M 参数模型(SigLIP+MiniLM-L6-v2)编码到 384 维共享空间。视觉嵌入与难度知识库(源自 ScreenSpot-Pro 的 easy/hard UI 元素原型)做最近邻余弦相似度匹配,文本描述同理匹配,取两者最大值作为保守估计
- 设计动机:轻量级(120M)预筛选,明显简单的操作可跳过探测直接走小模型,明显困难的直接走大模型
-
Logprob 置信度探测与自适应阈值:
- 功能:用小 VLM 非流式推理获取输出 token 的对数概率,计算标准化置信度 \(\text{conf}(t_i) = (\bar{\ell}(t_i) + |\ell_{min}|) / |\ell_{min}|\)
- 核心思路:结合难度自适应阈值做路由决策——简单操作(\(\hat{d}<0.3\))用低阈值 \(\tau_{easy}=0.80\),困难操作(\(\hat{d}>0.7\))用高阈值 \(\tau_{hard}=0.92\),中间线性插值。超过阈值留在小模型,否则升级
- 设计动机:固定阈值要么对困难操作漏判(阈值过低)要么对简单操作过度升级(阈值过高),自适应阈值匹配动作难度画像
-
记忆补偿路由(暖启动):
- 功能:为已有交互历史的暖启动代理注入相关记忆(UI 元素位置、导航路径、工具栏布局)到小 VLM 探测提示中
- 核心思路:记忆注入对小模型效果远大于大模型(\(\Delta\text{conf}_S(\mathcal{M}) \gg \Delta\text{conf}_L(\mathcal{M})\))。OpenClaw 实验中小模型置信度从 0.83→0.96,全部操作留在小模型
- 设计动机:大模型内部知识足够,记忆仅提供边际增益;小模型缺乏领域知识,显式上下文弥补了能力差距,形成"越用越便宜"的良性循环
损失函数 / 训练策略¶
无需端到端训练。路由为基于阈值的策略推导。成本模型:\(E[c] = (1-\alpha) c_S + \alpha (c_S^{probe} + c_L)\),当小模型 10 倍便宜(\(c_S/c_L=0.1\))且仅 20% 操作升级时,可实现 70% 成本节省。
实验关键数据¶
主实验¶
| 路由场景 | 升级率α | 有效精度 | 每调用成本 | 节省 |
|---|---|---|---|---|
| 全用72B(基线) | 1.0 | 43.6% | $0.27 | — |
| 冷启动AVR | 0.35 | 42.1% | $0.13 | 52% |
| 暖启动AVR | 0.15 | 41.3% | $0.08 | 70% |
| 暖启动+难度分类 | 0.10 | 42.8% | $0.06 | 78% |
注:以上为基于 ScreenSpot-Pro 精度数据和 OpenClaw 置信分布的分析推算,非端到端实测。
消融实验¶
| 分析维度 | 关键指标 | 说明 |
|---|---|---|
| 记忆注入效果 | 7B 置信度 0.83→0.96 | 创造双峰分布,冷态低于阈值/暖态远超阈值 |
| OpenClaw成本 | 暖启动86%节省 | 100%操作留在7B,与139B质量相当 |
| 应用预热曲线 | 前5-10次交互获最大增益 | 对数形态,收益递减 |
| 阈值影响 | 默认0.93→调优0.85 | 代理工作负载置信度压缩到窄频段,需降低阈值 |
关键发现¶
- 模型大小是 GUI 定位精度的弱预测因子:GPT-4o (1.8T) 仅 0.8%,OS-Atlas-7B 达 18.9%
- 记忆注入有非对称效应——对小模型效果远大于大模型,使记忆成为"模型尺寸均衡器"
- 安全/成本/精度三目标可统一在同一路由层,Visual Confused Deputy 护栏 F1=0.915 且复用同一多模态编码器零额外开销
亮点与洞察¶
- 将 CUA 推理从"固定成本"重新定义为"自适应资源分配",思路新颖
- "记忆作为模型尺寸均衡器"(Memory Equalization Hypothesis)是有理论深度的发现
- 分析诚实:明确标注哪些数据是实测 vs 推算,不过度声称
- 三目标统一(成本+精度+安全)的路由框架设计优雅
局限与展望¶
- 核心 CUA grounding 成本节省是从 OpenClaw 文本任务推算的,缺乏端到端 CUA 验证
- 极短任务(2-3 步)的探测开销可能抵消路由收益
- 难度知识库需覆盖目标应用,新应用冷启动时路由效果不确定
- 记忆对不同 UI 复杂度的应用效果可能差异较大,缺乏应用类别级别的分析
相关工作与启发¶
- vs FrugalGPT: 文本级联路由,AVR 扩展到多模态 CUA 场景,额外考虑视觉定位不确定性和操作风险
- vs HybridLLM: 训练路由器预测难度后分发,AVR 额外引入记忆补偿和安全覆盖机制
- vs Visual Confused Deputy: 纯安全后置过滤器,AVR 将安全信号融入路由前置决策
- vs ScreenSpot-Pro: 提供了模型定位能力数据,但未给出路由框架,AVR 利用其数据构建路由策略
评分¶
- 新颖性: ⭐⭐⭐⭐ 将路由/记忆/安全三者统一的框架设计有新意,Memory Equalization 概念有理论深度
- 实验充分度: ⭐⭐⭐ 分析详尽但核心 CUA 成本节省基于推算而非端到端实测,OpenClaw 是文本任务
- 写作质量: ⭐⭐⭐⭐ 问题建模清晰,公式推导完整,局限性坦诚透明
- 价值: ⭐⭐⭐ 对规模化 CUA 部署有实用意义,路由框架可泛化到其他多模型调度场景