AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention¶

会议: CVPR 2026
arXiv: 2511.18960
代码: 项目页面
领域: 多模态VLM
关键词: VLA模型, 主动视觉注意力, POMDP, 循环状态, 视觉token调制

一句话总结¶

从POMDP视角重新审视VLA模型的视觉处理，提出AVA-VLA框架通过循环状态和主动视觉注意力模块，根据历史上下文动态调制当前帧的视觉token重要性，在LIBERO和CALVIN等基准上达到SOTA。

视觉-语言-动作（VLA）模型在机器人操作任务中展现了显著进展，但大多数方法在每个时间步独立处理视觉观测，隐式地将机器人操作建模为马尔可夫决策过程（MDP）。这种无历史设计存在根本缺陷：

例如，在"打开炉灶并把摩卡壶放上去"的任务中，vanilla OpenVLA-OFT无法定位任务关键的"炉灶开关"，而AVA-VLA通过利用历史上下文可以稳定聚焦。

当前观测 + 上一步循环状态 → AVA模块计算视觉token软权重 → 调制LLM骨干各层注意力矩阵 → 循环状态初始化动作placeholder → 并行解码动作块 → 输出动作 + 更新循环状态。

循环状态（Recurrent State）:
- 功能：作为POMDP中信念状态的神经近似，编码历史上下文
- 核心思路：从前一时间步LLM最后一层的动作相关隐藏状态通过MLP投影得到，同时用于初始化当前步的动作placeholder
- 设计动机：直接计算理论信念状态不可行，用循环结构的压缩表示近似
主动视觉注意力（AVA）模块:
- 功能：根据历史信息动态调制视觉token的重要性
- 核心思路：先用FiLM将语言指令特征条件化视觉特征，再以视觉token为Query、循环状态为Key/Value做交叉注意力+自注意力，最终输出每个视觉token的软权重（增强/削弱二分类后的加权分数）
- 设计动机：使视觉系统从"被动看到什么处理什么"转变为"根据历史经验主动聚焦关键区域"
软注意力矩阵调制:
- 功能：将AVA输出的软权重应用到LLM骨干各层的注意力计算中
- 核心思路：构建软注意力矩阵U，对视觉token位置施加权重，在Softmax之前乘以注意力分数
- 设计动机：层共享权重确保一致的视觉聚焦，且不改变LLM骨干的基本结构

基准	指标	AVA-VLA	OpenVLA-OFT	提升
LIBERO (全部4套)	平均SR	98.0%	96.8%	+1.2%
LIBERO-Long	SR	97.6%	95.3%	+2.3%
CALVIN ABC→D	平均长度	4.65	4.28	+0.37
真实机器人	平均SR	最高	次高	多任务提升