Adaptive Vision-Language Model Routing for Computer Use Agents¶

会议: CVPR 2026
arXiv: 2603.12823
代码: GitHub
领域: 多模态VLM / GUI智能体 / 模型路由
关键词: VLM路由, CUA, 置信度探测, 记忆增强, 成本优化

一句话总结¶

提出 Adaptive VLM Routing (AVR) 框架，在 CUA 编排器和 VLM 模型池之间插入轻量语义路由层，通过多模态难度分类、logprob 置信度探测和历史记忆注入三种机制动态选择最经济的模型，推理成本降低最高 78% 且精度仅下降 2 个百分点以内。

研究背景与动机¶

领域现状：Computer Use Agents (CUA) 通过 VLM 解读截图并执行 GUI 操作（点击、输入、滚动），已有 OpenAI CUA、Claude Computer Use、UFO2 等系统。当前系统对所有操作使用单一固定 VLM，一个 20 步任务累积约 400K input tokens，成本 $0.10-$0.40。

现有痛点：ScreenSpot-Pro 数据显示 GPT-4o (约 1.8T 参数) 在 GUI 定位上仅 0.8% 准确率，而 7B 的 OS-Atlas 达 18.9%；Qwen2.5-VL 从 3B→72B (24×参数) 精度仅从 24.2%→43.6% (1.8×)。模型大小不是定位精度的可靠预测因子。

核心矛盾：CUA 操作难度差异巨大——点击大按钮是简单操作，而在密集 IDE 工具栏定位小图标极具挑战；但当前系统对所有操作使用同一模型，简单操作浪费算力,困难操作可能失败。应用间精度方差(>35% VS Code vs <15% Premiere Pro)远大于模型间方差。

本文目标 将 CUA 推理重构为动态模型路由问题，为每个操作选择最经济且足够可靠的 VLM。

切入角度：将路由形式化为成本-精度约束优化 $\min_\pi \sum c_{\pi(i)}$ s.t. accuracy $\geq \tau_{acc}$，引入潜在难度变量和阈值策略。

核心 idea：通过难度估计+置信度探测+记忆注入三步路由，把 CUA 的大部分操作分给小模型，仅对困难/高风险操作升级到大模型。

方法详解¶

整体框架¶

AVR 作为透明代理层拦截每个工具调用，依次执行：安全检查(Visual Confused Deputy 护栏)→难度分类(多模态嵌入)→小模型置信度探测(logprob)→路由决策。形成三层策略：低难度+高置信→小模型(约 78% 流量)；高难度或低置信→大模型(约 17%)；高风险→大模型+护栏验证(约 5%)。

关键设计¶

多模态难度分类器:
- 功能：估计每个 GUI 操作的难度分数 $d(t_i) = \max(d_{vis}, d_{sem})$
- 核心思路：裁剪预测坐标周围 100×100 像素区域，用 120M 参数模型(SigLIP+MiniLM-L6-v2)编码到 384 维共享空间。视觉嵌入与难度知识库(源自 ScreenSpot-Pro 的 easy/hard UI 元素原型)做最近邻余弦相似度匹配，文本描述同理匹配，取两者最大值作为保守估计
- 设计动机：轻量级(120M)预筛选，明显简单的操作可跳过探测直接走小模型，明显困难的直接走大模型
Logprob 置信度探测与自适应阈值:
- 功能：用小 VLM 非流式推理获取输出 token 的对数概率，计算标准化置信度 $\text{conf}(t_i) = (\bar{\ell}(t_i) + |\ell_{min}|) / |\ell_{min}|$
- 核心思路：结合难度自适应阈值做路由决策——简单操作($\hat{d}<0.3$)用低阈值 $\tau_{easy}=0.80$，困难操作($\hat{d}>0.7$)用高阈值 $\tau_{hard}=0.92$，中间线性插值。超过阈值留在小模型，否则升级
- 设计动机：固定阈值要么对困难操作漏判(阈值过低)要么对简单操作过度升级(阈值过高)，自适应阈值匹配动作难度画像
记忆补偿路由(暖启动):
- 功能：为已有交互历史的暖启动代理注入相关记忆(UI 元素位置、导航路径、工具栏布局)到小 VLM 探测提示中
- 核心思路：记忆注入对小模型效果远大于大模型($\Delta\text{conf}_S(\mathcal{M}) \gg \Delta\text{conf}_L(\mathcal{M})$)。OpenClaw 实验中小模型置信度从 0.83→0.96，全部操作留在小模型
- 设计动机：大模型内部知识足够，记忆仅提供边际增益；小模型缺乏领域知识，显式上下文弥补了能力差距，形成"越用越便宜"的良性循环

损失函数 / 训练策略¶

无需端到端训练。路由为基于阈值的策略推导。成本模型：$E[c] = (1-\alpha) c_S + \alpha (c_S^{probe} + c_L)$，当小模型 10 倍便宜($c_S/c_L=0.1$)且仅 20% 操作升级时，可实现 70% 成本节省。

实验关键数据¶

主实验¶

路由场景	升级率α	有效精度	每调用成本	节省
全用72B(基线)	1.0	43.6%	$0.27	—
冷启动AVR	0.35	42.1%	$0.13	52%
暖启动AVR	0.15	41.3%	$0.08	70%
暖启动+难度分类	0.10	42.8%	$0.06	78%

注：以上为基于 ScreenSpot-Pro 精度数据和 OpenClaw 置信分布的分析推算，非端到端实测。

消融实验¶

分析维度	关键指标	说明
记忆注入效果	7B 置信度 0.83→0.96	创造双峰分布，冷态低于阈值/暖态远超阈值
OpenClaw成本	暖启动86%节省	100%操作留在7B，与139B质量相当
应用预热曲线	前5-10次交互获最大增益	对数形态，收益递减
阈值影响	默认0.93→调优0.85	代理工作负载置信度压缩到窄频段，需降低阈值

关键发现¶

模型大小是 GUI 定位精度的弱预测因子：GPT-4o (1.8T) 仅 0.8%，OS-Atlas-7B 达 18.9%
记忆注入有非对称效应——对小模型效果远大于大模型，使记忆成为"模型尺寸均衡器"
安全/成本/精度三目标可统一在同一路由层，Visual Confused Deputy 护栏 F1=0.915 且复用同一多模态编码器零额外开销

亮点与洞察¶

将 CUA 推理从"固定成本"重新定义为"自适应资源分配"，思路新颖
"记忆作为模型尺寸均衡器"(Memory Equalization Hypothesis)是有理论深度的发现
分析诚实：明确标注哪些数据是实测 vs 推算，不过度声称
三目标统一(成本+精度+安全)的路由框架设计优雅

局限与展望¶

核心 CUA grounding 成本节省是从 OpenClaw 文本任务推算的，缺乏端到端 CUA 验证
极短任务(2-3 步)的探测开销可能抵消路由收益
难度知识库需覆盖目标应用，新应用冷启动时路由效果不确定
记忆对不同 UI 复杂度的应用效果可能差异较大，缺乏应用类别级别的分析

评分¶

新颖性: ⭐⭐⭐⭐ 将路由/记忆/安全三者统一的框架设计有新意，Memory Equalization 概念有理论深度
实验充分度: ⭐⭐⭐ 分析详尽但核心 CUA 成本节省基于推算而非端到端实测，OpenClaw 是文本任务
写作质量: ⭐⭐⭐⭐ 问题建模清晰，公式推导完整，局限性坦诚透明
价值: ⭐⭐⭐ 对规模化 CUA 部署有实用意义，路由框架可泛化到其他多模型调度场景