Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2510.19732
代码: GitHub
领域: 强化学习
关键词: 记忆增强, Transformer, 上下文压缩, 长期规划, 具身智能

一句话总结¶

提出 Memo，一种基于 Transformer 的记忆增强框架，通过周期性生成摘要 token（summary tokens）压缩历史上下文，在保持甚至超越全上下文 Transformer 性能的同时，将推理时 KV 缓存缩小 8-10 倍，并展现出更好的长上下文泛化和流式推理鲁棒性。

研究背景与动机¶

具身智能体在长时间任务中需要利用历史经验进行决策，但现有方法面临根本性矛盾：

Transformer 的二次注意力瓶颈：全上下文 Transformer 在每步都需关注所有历史时间步，注意力复杂度为 \(O(n^2)\)，处理长序列时计算和存储成本极高。训练时梯度需传播过大量序列，推理时 KV 缓存不断增长。

循环模型的固定记忆限制：RNN 等循环模型虽然记忆高效，但固定大小的隐状态无法充分保留长时间依赖的信息，且梯度在长序列上容易消失或爆炸。

已有压缩方法的不足：语言模型领域的 Recurrent Memory Transformer (RMT) 使用固定大小记忆，而 Autocompressors (AC) 在微调时截断梯度传播，两者都无法在 RL 的长期信用分配场景中有效学习。

核心动机：能否让 Transformer 学会"摘要"过去的经验，既保持表达力又实现记忆高效？

方法详解¶

整体框架¶

Memo 在标准 Transformer 策略中引入上下文摘要机制。在训练过程中，将输入序列分割为等长的片段（segment），每个片段末尾由可学习的摘要嵌入（summary embeddings）触发 Transformer 生成摘要 token，这些摘要 token 被存入专用记忆缓冲区，后续时间步通过注意力机制访问这些压缩的历史表示，而非维护完整的原始上下文。

关键设计¶

上下文摘要机制：将长序列分割为长度 \(l_{seg}\) 的片段，在每个片段末尾生成 \(l_{sum}\) 个摘要 token。关键创新是摘要累积（summary accumulation）——不同于 RMT 仅保留最新摘要，Memo 保留所有历史摘要 token，使任意历史信息都能通过注意力直接影响当前决策。在时间步 \(t\)，模型的输入上下文由 \(n \times l_{sum}\) 个摘要 token（\(n = \lfloor t/l_{seg} \rfloor\)）加上当前片段的观测组成。这创造了一种类似残差的梯度快捷路径，每个摘要向量都直接参与后续损失函数的优化。
注意力掩码与位置编码：使用因果掩码，当前时间步可关注所有历史摘要 token和当前片段内的观测，但不能关注产生最近摘要之前的原始观测。这形成信息瓶颈——历史信息必须通过摘要 token 传递。位置编码分两段：摘要 token 的位置索引从 0 到 \(n \times l_{sum} - 1\)，当前片段观测从 \(n \times l_{sum}\) 开始递增，保持相对位置感知。
片段长度随机化：训练时对片段长度在 \(\pm 20\%\) 范围内均匀采样（固定 \(l_{seg}=256\) 时范围为 [205, 307]），而数据收集和评估使用固定长度。这不仅防止对固定边界的过拟合，还形成课程学习效果——短片段是简单压缩任务，长片段是困难压缩任务。
KV 缓存一致性维护：在 on-policy RL 中，模型更新后 KV 缓存因权重变化而过时。借鉴 ReLIC 的做法，每次策略更新后刷新整个 KV 缓存，并同步重新计算所有摘要向量，确保缓存表示与当前策略一致。

训练策略¶

Memo 通过 RL 目标端到端训练，摘要生成作为学习的子任务融入整体优化。支持两种 RL 范式： - On-policy：集成到 ReLIC（DD-PPO 的改进版），利用 rollout 中的频繁更新帮助 Transformer 策略学习 - Off-policy：集成到 AMAGO，使用共享 Transformer 骨干和统一 actor-critic 损失

实验关键数据¶

主实验¶

ExtObjNav 任务（32k 步评估，10 种子）

方法	成功率 (SR)	SPL	上下文 token 数	KV 缓存比
FCT (全上下文)	~52%	~22%	4096	1×
Memo	~60%	~24.5%	~512	1/8×
RMT-32	~55%	~22%	固定	-
RMT-64	~56%	~22%	固定	-
no-IEA	~35%	~15%	-	-
AC (TBTT)	~45%	~18%	~512	1/8×

Dark-Key-To-Door 任务（Off-policy AMAGO，3 种子）

方法	平均回报	收敛速度	稳定性
FCT	~95	35M 步	35-40M 步出现性能下降
Memo	~95	25M 步	收敛后稳定无下降
RMT	~90	35M 步	较稳定

消融实验¶

配置	SR@10k	SR@32k	说明
Memo (\(l_{sum}=32\))	~60%	~55%	最佳压缩比 8×
Memo (\(l_{sum}=16\))	~55%	~50%	压缩比 16×，信息损失
Memo (\(l_{sum}=64\))	~52%	~42%	压缩比 4×，位置编码外推差
Memo 无片段随机化	~48%	~40%	训练和评估均显著变差
Streaming Memo	~60%	~58%	截断后性能甚至略有提升
Streaming FCT	~52%	~35%	6k 步后性能急剧下降

关键发现¶

摘要压缩优于全上下文：Memo 用 1/8 的 token 实现了比 FCT 高 7.5% 的成功率和 2.5% 的 SPL。这反直觉地说明信息瓶颈迫使模型学习更好的任务相关压缩。
累积摘要优于固定记忆：Memo 比 RMT 快约 10M 步收敛（Dark-Key-To-Door），体现了摘要累积提供的残差梯度快捷路径的优势。
长程梯度传播至关重要：AC 的截断梯度（TBTT）在长时间任务中性能显著更差，说明 RL 中的信用分配需要梯度穿过所有摘要步骤。
流式推理鲁棒性：Streaming Memo 在超过 6k 步后仍维持甚至提升性能，而 Streaming FCT 出现急剧下降。

亮点与洞察¶

反直觉的核心发现：信息瓶颈不是限制而是优势——强迫模型通过摘要传递信息实际上提升了任务相关信息的提取。
摘要累积的设计非常精巧：它兼顾了 Transformer 的表达力（每个历史摘要都可直接被注意力访问）和循环模型的效率（不需保留原始观测），并通过残差式梯度路径解决了梯度消失问题。
片段长度随机化作为隐式课程学习的发现值得在其他场景复用。

局限与展望¶

未探索记忆整合（memory consolidation）机制，即逐步压缩旧摘要以进一步节省存储。
长上下文泛化仍受限：Memo 训练 4k 泛化到 ~10k，训练 16k 泛化到 ~24k，外推能力有限。
未研究语义泛化——导航到全新物体类别（而非固定环境中已见物体的新位置）。
摘要 token 数对性能非常敏感（\(l_{sum}=64\) 远差于 \(l_{sum}=32\)），最优值可能因任务而异但缺乏自适应选择机制。

评分¶

新颖性: ⭐⭐⭐⭐ 将语言模型上下文压缩思路适配 RL，并发现 RL 需要完整梯度传播的关键差异
实验充分度: ⭐⭐⭐⭐ Grid-world 和 3D 导航两个层面验证，10 种子统计，消融完善
写作质量: ⭐⭐⭐⭐ 结构清晰，图示直观，发现表述准确
价值: ⭐⭐⭐⭐ 为具身智能的长期记忆问题提供实用方案