MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation¶

会议: ICLR 2026
arXiv: 2508.19236
代码: 项目页面
领域: 机器人/VLA
关键词: VLA, 记忆机制, 长时序操作, 扩散策略, 认知科学

一句话总结¶

受认知科学双重记忆系统启发，提出MemoryVLA框架，在VLA模型中引入感知-认知记忆库（PCMB），通过记忆检索、门控融合和整合机制捕捉长时序依赖，在SimplerEnv/LIBERO/真实世界150+任务上全面超越CogACT和π₀。

研究背景与动机¶

领域现状：VLA模型（OpenVLA、π₀、CogACT）在机器人操作中取得显著进展，但主流方法仅依赖当前观测，忽略时序依赖——在长时序任务上表现差。如Push Buttons任务中，按压前后视觉几乎无差异，无法判断动作是否完成。

现有痛点：(1) 拼接多帧→自注意力二次复杂度+与单帧预训练分布不匹配；(2) RoboFlamingo用LSTM压缩→丢失细粒度信息；(3) TraceVLA画轨迹→丢失语义细节；(4) UniVLA加过去动作→只是CoT不是真正的记忆利用。

核心矛盾：机器人操作本质是非马尔可夫的（过去动作影响未来决策），但当前VLA模型是马尔可夫的（只看当前帧）。

切入角度：认知科学中人类通过工作记忆（短期）+情景记忆（长期，含verbatim细节和gist语义）来处理操作任务。据此设计PCMB存储感知细节和认知语义两个层次的记忆。

方法详解¶

整体框架¶

MemoryVLA 要解决的是「VLA 只看当前帧、做不好长时序任务」这一短板，它的设计直接对应认知科学里人脑的双重记忆系统——用工作记忆做即时控制、用海马体式的情景记忆保存历史。整体是一条「认知-记忆-动作（Cognition-Memory-Action）」流水线，每来一帧都走三段：先用一个 7B 视觉-语言认知模块把当前 RGB + 语言指令编码成两类工作记忆——保留视觉细节的感知 tokens \(p\) 和压缩高层语义的认知 token \(c\)；接着这份工作记忆去查一个持续累积的感知-认知记忆库（PCMB），检索相关历史、与当前信息门控融合，并把融合结果写回库里、容量满时做整合；最后把记忆增强后的 tokens 作为条件喂给一个扩散动作专家，生成未来 N 步的 7DoF 动作序列。整条链路端到端训练，关键在于中间这块 PCMB——它让模型从「马尔可夫地只看当前」变成「非马尔可夫地参考历史」。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IN["当前 RGB 观测<br/>+ 语言指令"] --> COG["视觉-语言认知模块<br/>DINOv2+SigLIP→感知 tokens p (256个)<br/>LLaMA-7B EOS→认知 token c"]
    COG -->|"工作记忆 p, c"| PCMB
    subgraph PCMB["感知-认知记忆库 PCMB"]
        direction TB
        RET["记忆检索<br/>带时间编码 query<br/>cross-attn 取相关历史"] --> FUSE["门控融合<br/>门 g 自适应混合<br/>历史 H 与当前 x"]
        FUSE --> CONS["记忆整合<br/>容量满时合并<br/>最相似相邻条目"]
    end
    BANK[("记忆库条目<br/>感知流 / 认知流")]
    BANK -.检索.-> RET
    CONS -.写回.-> BANK
    PCMB -->|"记忆增强 tokens"| ACT["记忆条件化扩散动作专家<br/>扩散 Transformer 去噪"]
    ACT --> OUT["未来 N 步<br/>7DoF 动作序列"]

关键设计¶

1. 视觉-语言认知模块：把当前帧拆成「细节」和「语义」两套表示

记忆要存什么、检索什么，前提是先把当前观测编码成合适的粒度。这里并行用 DINOv2 + SigLIP 做视觉编码、把两者特征拼成原始视觉 tokens，再经一个 SE 瓶颈（squeeze-and-excitation）压缩成 256 个感知 tokens \(p\)，保留细粒度的空间视觉信息；同时把视觉特征和语言指令一起送进 LLaMA-7B，取句末 EOS 位置的输出作为单个认知 token \(c\)，编码任务级的高层语义理解。\(p\) 和 \(c\) 合起来就是当前帧的工作记忆。之所以分两套，是因为长时序任务对历史的需求是分层的——有时需要回看像素级细节（物体到底动没动），有时只需要回看语义状态（这一步该不该算完成），后续的记忆库正是按这两个流分别存取。

2. 感知-认知记忆库（PCMB）：用检索-融合-整合三步实现真正的时序记忆

这是全文的核心，针对的痛点是前人那些「拼多帧 / LSTM 压缩 / 画轨迹」要么算力炸、要么丢信息、要么不是真正的记忆利用。PCMB 把工作记忆按时间不断写入一个有限容量的库，并通过检索、融合、整合三步让当前决策真正用上历史。检索阶段把当前 tokens 加上时间位置编码作为 query，对 PCMB 做 cross-attention，取出与当前决策相关的历史感知/认知信息 \(H^p, H^c\)——不是平均所有历史，而是按需取相关的那部分。检索到的历史不能无脑覆盖当前，于是融合阶段用一个学到的门控自适应混合：

\[\tilde{x} = g^x \odot H^x + (1-g^x) \odot x, \qquad g^x = \sigma(\text{MLP}(\text{concat}[x, H^x]))\]

门 \(g^x\) 由当前信息 \(x\) 和检索历史 \(H^x\) 共同决定，因此简单任务时 \(g\) 偏小、主要用当前观测，复杂的长时序任务时 \(g\) 偏大、更多依赖历史。融合后的 tokens 写回库里；当库容量满时，整合阶段不简单丢弃最旧的（FIFO 会误删关键帧），而是计算相邻条目的相似度、把最相似的一对合并——相邻且相似往往意味着冗余，合并它们能在控制库大小的同时保住关键的非冗余历史。

3. 记忆条件化扩散动作专家：让动作生成同时感知历史

有了记忆增强的感知 + 认知 tokens，最后一步是把它们作为条件，用扩散 Transformer 去噪生成未来 N 步的 7DoF 动作（认知 token 做主条件，感知 tokens 补充细粒度细节）。选扩散而非回归，是因为机器人动作分布天然多模态（同一状态可有多条合理轨迹）；而把记忆融合后的 tokens 作为条件，等于让原本只看当前的动作头也获得了时序感知——这正是它在 Push Buttons 这类「按压前后画面几乎无差异」的任务上能判断动作是否完成的关键。

损失函数 / 训练策略¶

整套框架端到端训练：7B VLM 先在 OXE 数据集上预训练；扩散动作专家用标准 DDPM 目标训练；感知侧用 SE-bottleneck 做压缩，认知侧取 EOS token 作为语义摘要。

实验关键数据¶

仿真主实验¶

基准	MemoryVLA	CogACT	π₀	提升
SimplerEnv-Bridge	71.9%	57.3%	低于	+14.6
SimplerEnv-Fractal	72.7%	68.1%	低于	+4.6
LIBERO-5	96.5%	次优	次优	超越两者
Mikasa-Robo	41.2%	—	29.4%	+11.8

真实世界实验（12任务）¶

任务类型	MemoryVLA	CogACT	π₀
通用技能(6任务)	85%	76%	低
长时序依赖(6任务)	83%	57%	低→+26

关键发现¶

长时序任务提升最显著(+26 vs CogACT)→证明记忆机制对时序依赖至关重要
门控融合中 \(g\) 的值随任务需要动态变化——简单任务主要用当前信息，复杂任务更多依赖历史
记忆整合通过合并相似邻居控制大小，比固定窗口或FIFO更高效
在OOD条件（不同背景/干扰物/光照/遮挡）下展现强鲁棒性

亮点与洞察¶

认知科学驱动的设计：工作记忆+情景记忆的双重系统映射到感知tokens+认知token+PCMB。不是简单堆叠帧或LSTM，而是有认知理论支撑的记忆架构。
感知vs认知的分离：感知tokens(256个)保留空间细节，认知token(1个)压缩高层语义。PCMB分两个流存储和检索→不同任务需要不同层次的历史信息。
+26在长时序任务上：这个提升量说明记忆不是锦上添花而是必要条件——没有记忆的VLA在需要时序理解的任务上根本做不好。

局限与展望¶

7B VLM推理开销大——实时性受限
PCMB容量L需要手动设置——自适应容量管理值得探索
余弦相似度做整合可能不够精细——更复杂的记忆选择策略可能更好
仅用第三人称RGB——多视角+触觉等多模态记忆未探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 认知科学启发的双流记忆架构在VLA中首次出现
实验充分度: ⭐⭐⭐⭐⭐ 3个机器人、150+任务(仿真+真实)、多baseline、OOD测试
写作质量: ⭐⭐⭐⭐ 认知科学动机清晰，架构图直观
价值: ⭐⭐⭐⭐⭐ 解决了VLA领域的关键缺失（时序记忆），实验效果convincing