Memento: Toward an All-Day Proactive Assistant for Ultra-Long Streaming Video¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=FtdbdoGbk3
代码: 待确认
领域: 视频理解 / 在线流式视频 / 多模态大模型
关键词: 流式视频, 主动交互, 动态记忆, 长时记忆, 视觉语言模型

一句话总结¶

Memento 用"动态记忆 + 查询相关记忆选择 + 步感知记忆注意力"把在线视频 LLM 从"token 越积越多、几十分钟就 OOM"的困境里解放出来，做到了在长达 7 小时的超长视频流上有界显存、主动提醒用户的全天候助手能力。

研究背景与动机¶

领域现状：多模态大模型在离线视频理解上已经很强，近期的在线视频 LLM（如 VideoLLM-online）引入了"主动交互"——模型可以在不被显式提问时自己决定该不该开口。这是从"被动应答"走向"主动助手"的关键一步。

现有痛点：现有在线模型几乎都是 token-based 架构——每来一帧就把视觉 token 拼进上下文。后果是显存随时间线性膨胀，VideoLLM-online 在约 25 分钟时就撞上 80.5 GB 显存上限直接 OOM，之后完全失忆。即便后续工作用 MoE token 路由（VideoLLM-MoD、LION-FS）或 patch 丢弃（TimeChat-online）把时长撑到几十分钟，本质上帧 token 仍在累积。固定长度记忆库（MovieChat、MA-LMM）虽然显存有界，但记忆容量写死、无法主动交互，也不适合全天候场景。

核心矛盾：要做"全天候主动助手"，必须同时满足两件互相拉扯的事——既要主动交互（在线、不等提问就响应），又要超长时记忆（记住几小时前发生过什么）。token-based 路线满足前者却扛不住时长，固定记忆库满足显存约束却记不住长程关键信息且不主动。两条已有路线各占一半，没人两头都占。

本文目标：构建首个面向超长视频流的主动视觉语言框架，让模型能像电影《Memento》里需要外部记忆的主角那样——记住"用户几小时前是否已经打过一针胰岛素"这类需要长程行为监控的事，并在恰当时刻主动提醒。

核心 idea：[抛弃 token 累积，改用动态记忆表示] 不再把每帧特征拼成 token 序列喂给 LLM，而是维护一组随时间演化、容量随内容增长而非随时间增长的记忆槽，配合查询相关的稀疏检索和专门设计的训练注意力掩码，实现"有界显存 + 长程主动理解"。

方法详解¶

整体框架¶

给定流式视频 $V=\{f_1,\dots,f_T\}$，Memento 先用 ViT 编码每帧得到含 [CLS] 与空间 token 的特征 $v_t$。关键改动是：不直接把 $v_t$ 投影进语言空间，而是先送入动态记忆（DM），按"记住-遗忘"策略把 $v_t$ 与历史记忆 $M_{t-1}$ 融合成 $M_t$；再用查询相关记忆选择（QMS）根据历史用户提问筛出最相关的子集 $M'_t$ 喂给 LLM 生成回复；训练时用步感知记忆注意力（SAMA）把注意力限制在每个时间步真正可见的记忆上，从而让 token-based 时代的监督目标可以直接复用。

flowchart LR
    A[流式视频帧 f_t] --> B[ViT 编码 v_t]
    B --> C[动态记忆 DM<br/>Remember-and-Forget]
    H[历史记忆 M_t-1] --> C
    C --> D[R&F 记忆 M_t]
    D --> E[查询相关记忆选择 QMS<br/>Top-k 门控]
    Q[历史用户提问 q] --> E
    E --> F[精选记忆 M'_t]
    F --> G[LLM 生成<br/>主动/被动回复]
    G -. SAMA 掩码训练 .-> F

关键设计¶

1. 动态记忆（Dynamic Memory）：用相似度门控决定记住还是融合。 这是整个框架摆脱 token 累积的根基。对每个新帧，DM 同时算两个相关性分数：一个短期分数 $\delta$，是当前帧 $v_t$ 与最后一个记忆槽 $m_{t-1}$ 的余弦相似度，用来抓"相邻帧几乎没变"的短时冗余；一个长期分数 $\sigma$，由 $v_t$ 对所有历史记忆做交叉注意力后求和过 sigmoid 得到 $\sigma=\psi\big((\mathrm{Attn}(v_t,M_{t-1})\cdot(M_{t-1}W_v))W_o\big)$，用来抓"几小时前出现过的重复场景/动作"这类长时冗余。一个固定阈值 $\epsilon$ 把帧分成三种命运：若 $\delta>\epsilon$，判为局部冗余，按 $\tilde m_{t-1}=m_{t-1}\cdot(1-\mathrm{sum}(w))+w^\top v_t$ 软融合进最后一个记忆槽；若 $\delta\le\epsilon$ 但 $\sigma>\epsilon$，判为与长程记忆语义对齐，把 $M_{t-1}$ 当 query、$v_t$ 当 key/value 做同样的软更新铺到所有相关槽上；若两者都 $\le\epsilon$，判为全新内容，直接 $M_t=\mathrm{Concat}(M_{t-1},v_t)$ 追加一个新槽。这样记忆只在"出现新东西"时才增长，对冗余则原地融合——既避免了 token 路线的无界膨胀，又比固定记忆库能为新内容动态扩容。

2. 查询相关记忆选择（QMS）：只把和当下提问相关的记忆喂进 LLM。 DM 控制了记忆"存多少"，QMS 控制每次生成"用多少"。把 $M_t$ 展平后，以历史用户 token $Q$ 作为 key/value 做交叉注意力，给每个记忆帧打一个相关性分 $R\in\mathbb R^{N_t}$，再用 top-k 门控选出 $k=r_{qms}\cdot N_t$ 个最相关的记忆 $M'_t=\mathrm{TopK}(M_t,R,k)$ 送进 LLM。好处是生成时只对"与当前问题相关"的稀疏记忆做全注意力，把超长序列上的全记忆注意力开销砍下来，时长越长收益越大。实验里 $r_{qms}=50\%$ 在召回与显存间取得最佳折中。

3. 步感知记忆注意力（SAMA）：给"没有逐帧对齐"的记忆补上时序监督。 这是把 DM 训起来的关键，也是论文最 subtle 的贡献。token-based 模型天然按帧累积，可以用因果注意力逐位置监督；但 Memento 的记忆是动态融合的，没有"第几帧对应第几个 token"的对齐关系，直接套因果注意力会让某个 token 注意到当时根本还不该可见的"过期记忆"，导致输入错位、训练无效。SAMA 用一个二值掩码 $A\in\{0,1\}^{L\times L}$ 把可见性钉死：token $x_i$ 只能注意到在它被加入序列那一步 $s=\mathrm{step}(x_i)$ 时确实有效的记忆/提问/历史文本（且 $i\ge j$、$x_j\ne$[EOS]），[EOS] 只注意自己。同时重排各 token 的 position id，让同一帧内的 token 共享基准偏移，使位置编码与掩码定义的可见性一致。靠这层对齐，VideoLLM-online 的训练目标可以原样搬过来： $$L=\frac1N\sum_{j=1}^N\Big(\underbrace{-\log l_{j+1}P^{[\mathrm{Txt}_{j+1}]}_j}_{\text{LM Loss}}\underbrace{-\log f_j P^{[\mathrm{EOS}]}_j}_{\text{Streaming Loss}}\Big)$$ 其中 LM Loss 监督语言回复 token，Streaming Loss 通过 $f_j$（判断是否该在此处保持沉默/触发响应）教会模型"何时该开口"。推理时沿用同一掩码结构，只把对话 token 存进 KV cache，实现高效流式解码。

实验关键数据¶

实现上用 SigLIP-ViT-L/384（2 FPS、$h_p=w_p=3$）+ LLaMA-3.1-8B-Instruct，LoRA 微调，4×A100(80G) 训 1 epoch；默认 $\epsilon=0.7$、$u=0.2$、$r_{qms}=50\%$。

主实验¶

在自建 MementoBench 上对比 VideoLLM-online（VideoLLM-online* 为用 Memento-54k 同等训练后的版本）：

方法	Sp. Recall↑	Temp. Recall↑	Long(>25min)↑	Avg. Recall↑	Score↑	Redund.↓
VideoLLM-online	6.1%	11.8%	0.1%	8.1%	1.40	56.4%
VideoLLM-online*	7.9%	11.6%	0.3%	8.9%	5.32	21.3%
Memento*	45.9%	51.3%	35.2%	47.5%	4.22	64.5%

显存方面（Figure 5）：VideoLLM-online 约 25 分钟即 OOM（峰值 80.5 GB），Memento 在整个 4 小时流上稳定 ≤45.3 GB。VideoLLM-online* 看似 Redundancy 低（21.3%）、Score 高（5.32），实则因为它几乎不开口、该响应时一直沉默，导致召回趋零，并不实用。

消融实验¶

记忆机制（Table 4，固定库 vs 动态记忆）：

方案	Avg. Recall↑	Temp. Recall↑	Redund.↓
Fixed Len=8	16.9%	22.1%	55.5%
Fixed Len=128	29.0%	31.2%	52.7%
Dynamic ϵ=0.7	40.4%	46.7%	56.2%
Dynamic ϵ=0.8	44.7%	46.6%	61.4%

动态记忆在需长程记忆的 Temporal 任务上从固定库的 31.2% 提到 46.7%；$\epsilon=0.8$ 比 0.7 显存大近 10× 而指标提升微弱，故选默认 $\epsilon=0.7$。

帧 token 配置（Table 5）：$1+3\times3$ 取得最高召回 68.9%（Score 3.78），优于 $1+2\times2$ 的 40.4% 和 $1+4\times4$ 的 60.9%（后者只增冗余不增召回）。

QMS top-k 比例（Table 6）：$r_{qms}=50\%$ 召回 56.1%、显存 45.19 GB，是召回与显存的最佳折中；100% 反而召回掉到 40.4%、显存升到 55.44 GB。

关键发现¶

动态记忆相比固定记忆库不仅显存有界，还能随视频时长自然扩容（Figure 6），是长程召回大幅领先的根源。
Memento 的高 Redundancy（64.5%）是其"宁可多提醒也不漏"策略的代价；作者认为在超长在线场景下，确保及时一致响应比压低冗余更重要。

亮点与洞察¶

范式转换而非缝补：直面在线视频 LLM 的根本病灶（token 随时间无界累积），用动态记忆从架构层根除，而不是像 MoE 路由/patch 丢弃那样治标延寿。
SAMA 抓住了真问题：动态记忆没有逐帧 token 对齐，是它能省显存的代价，也是它训不动的根因。SAMA 用掩码 + position id 重排把可见性对齐回来，让成熟的流式监督目标得以直接复用，是"让新架构能训"的精巧一笔。
数据-基准配套：Memento-54K（基于 Ego4D，5 分钟–7 小时，9 类时空任务）和 MementoBench（TimeRecall/Score/Redundancy 三指标，支持自由文本输出、真正考察"是否在对的时间主动说对的话"）填补了长程主动交互的训练与评测空白。

局限与展望¶

冗余偏高：64.5% 的 Redundancy 意味着大量响应落在时间窗外，作为"全天候助手"会比较聒噪，实际部署需要更好的"何时沉默"控制。
评测规模有限：测试集仅 40 段视频（虽含 13k+ 响应），且数据全部来自 Ego4D 第一视角，跨域（监控、车载、桌面等）泛化未验证。
打分依赖闭源模型：Score 用 GPT-3.5-turbo 评、QA 用 GPT-4o 生成，评测一致性与可复现性受外部 API 影响。
仅与 VideoLLM-online 主对比：因其是唯一开源在线推理代码的基线，主表对比面偏窄，与固定记忆库类方法只在消融里间接比。

评分¶

新颖性: ⭐⭐⭐⭐ 首个超长流式视频主动框架，动态记忆 + SAMA 的组合是真正的架构级创新，而非增量缝补。
实验充分度: ⭐⭐⭐ 消融完整（记忆机制/帧 token/QMS 比例三轴），但主对比基线偏少、测试视频仅 40 段、域单一（Ego4D）。
写作质量: ⭐⭐⭐⭐ 动机讲得清楚（电影《Memento》类比贴切），三个模块各自解决一个明确问题，逻辑链完整。
价值: ⭐⭐⭐⭐ 指向"全天候主动 AI 助手"这一有现实意义的方向，配套数据集+基准对社区推动力强。