跳转至

LiveStar: Live Streaming Assistant for Real-World Online Video Understanding

会议: NEURIPS2025
arXiv: 2511.05299
代码: yzy-bupt/LiveStar
领域: 视频理解
关键词: online video understanding, streaming decoding, video-language alignment, live streaming, response timing

一句话总结

提出 LiveStar,一个始终在线的直播流视频理解助手,通过 Streaming Causal Attention Masks (SCAM) 训练策略和 Streaming Verification Decoding (SVeD) 推理框架,实现自适应响应时机判断,在 OmniStar 基准上语义正确性提升 19.5%,时间偏差降低 18.1%。

背景与动机

现有在线 Video-LLM(如 VideoLLM-online、VideoLLM-MoD)依赖 EOS token 来标记"静默"时段,存在四个关键问题:

  1. 响应-静默不平衡:需要输出 EOS 的帧远多于需要正常响应的帧(例如 1 分钟 3FPS 视频中,响应与静默帧比约 1:35)
  2. 连续帧不一致:视觉上相似的相邻帧可能产生矛盾输出——一帧生成完整叙述而下一帧仅输出 EOS
  3. 预训练不对齐:预训练对齐的是 image-text pair,但静默状态强制将帧映射到 EOS token,违背视觉-语言对应的训练目标
  4. 词表混淆:EOS 作为常规 token 嵌入词表,频繁出现污染语义连贯性

此外,现有训练数据和评估范围有限(多数仅关注 Ego4D 第一人称视频),缺乏对多样化真实场景和多任务的覆盖。

核心问题

  1. 如何建立有效的响应-静默训练与推理框架,同时不损害基础视频理解能力?
  2. 如何构建涵盖多样真实场景和任务的综合数据集与基准?

方法详解

1. Streaming Causal Attention Masks (SCAM) 训练策略

流式视频-语言对齐:将标准的 image/video-text pair 对齐目标改造为逐帧多轮指令微调目标:

\[\max P([Txt^k] \mid [Ctx^{<t_i}], [Frm^{t_i}]), \forall t_i \in C_k\]

其中 \(C_k = \{t_i\}_{i=m}^n\) 是共享语义文本 \([Txt^k]\) 的语义片段。同一语义片段内的连续帧共享相同语义的 caption,但通过从大小为 \(M\) 的改写池中随机采样来避免过拟合。

交错帧-字幕序列:采用类对话格式,每轮包含一帧 \([Frm^{t_i}]\) 和对应的 caption \([Cap^k]\),实现增量式视觉输入同时保持时间感知。

流式因果注意力掩码:设计专用掩码矩阵替代标准因果注意力,解决三个挑战: - 防止当前语义片段内已生成 caption 的泄露(避免简单复制) - 维持当前 caption 生成时对已预测 token 的可见性 - 让每个语义片段的最后一个 caption 跨后续帧持续存在,以标记语义边界

2. Streaming Verification Decoding (SVeD) 推理框架

SVeD 通过单次前向传播验证来确定最佳响应时机:

  • 在每个触发解码步 \(t_i\),计算生成 caption 的困惑度 \(\text{PPL}^{t_i}([Dec])\)
  • 对每个新帧 \([Frm^{t_j}]\),重新计算 \(\text{PPL}^{t_j}([Dec])\)
  • \(\text{PPL}^{t_j}([Dec]) > \alpha \cdot \text{PPL}^{t_i}([Dec])\)\(\alpha\) 为可调缩放因子,默认 1.03),则激活解码生成新 caption
  • 否则保持静默,将当前 caption 移至上下文末尾

相比预测 EOS token 来指示静默,SVeD 在相同模型架构下推理更快。

3. Peak-End 记忆压缩

受认知心理学 Peak-End 规则启发,对超过窗口 \(W\)(默认 40 帧)的旧帧进行概率性剪枝: - 利用已计算的 PPL 值识别关键帧(低 PPL = 高语义重要性) - 保留每个语义片段最后一帧的 caption 作为事件摘要 - 删除概率与语义片段内相对 PPL 和已过时间成正比

4. 流式 KV Cache

双层缓存架构:对话内 KV cache 用于帧级处理,跨对话流式 cache 保持长上下文。在 5 分钟视频推理中实现 1.53× 加速。

5. OmniStar 数据集

涵盖 15 类真实场景(46 个细分类别),20,137 个视频,5 项在线评估任务: - RNG:实时叙述生成 - OTG:在线时间定位 - FDQ:帧级密集 QA - COQ:上下文在线 QA - MIQ:多轮交互 QA

采用半自动化、时间密集标注管线,caption 构成叙事一致的故事线。

实验关键数据

模型 RNG SemCor↑ RNG TimDiff↓ FDQ SemCor↑ FPS↑
VideoLLM-online 1.68 2.67 2.35 3.37
VideoLLM-MoD 1.66 2.54 2.11 3.41
MMDuet 1.63 2.32 4.78 0.91
LiveStar 3.19 1.91 6.44 3.82
Human 6.09 1.08 9.12 -
  • 五项 OmniStar 任务平均:SemCor 提升 19.5%,TimDiff 降低 18.1%,FPS 提升 12.0%
  • Ego4D 离线基准:TokAcc 达 61.1%,比次优 LION-FS 高 8.7%
  • 消融实验:Peak-End 压缩优于 Uniform Dropout 和 FIFO Forgetting;KV cache 实现 1.53× 加速且性能损失可忽略

亮点

  1. 范式革新:用 SCAM + SVeD 替代 EOS 机制,从根本上解决响应-静默不平衡问题,同时不破坏预训练的视觉-语言对齐
  2. 高效推理:SVeD 仅需单次前向传播验证(而非完整解码),配合 Peak-End 记忆压缩支持 10+ 分钟视频流
  3. OmniStar 基准:首个涵盖 15 种真实场景 × 5 项在线任务的综合数据集,填补了在线视频理解评估的空白
  4. 显著领先:在所有 5 项任务上全面超越现有在线 Video-LLM,且推理速度最快

局限与展望

  1. 每帧压缩为 16 个 visual token,牺牲了细粒度视觉细节,不利于微妙运动变化或复杂场景
  2. 仅支持视觉-文本模态,未整合音频信息,限制了多模态推理能力
  3. 在线评估依赖 GPT-4o 打分(SemCor、SumFluen),可能引入评估偏差
  4. 与人类表现仍有较大差距(SemCor 3.19 vs 6.09)

与相关工作的对比

维度 VideoLLM-online MMDuet LiveStar
响应时机 EOS token 预测 EOS token 预测 SVeD 困惑度验证
训练策略 标准微调 标准微调 SCAM 流式对齐
输出模式 几乎每帧都输出 输出稀疏 自适应平衡
长视频支持 有限 有限 Peak-End 压缩 + KV cache
数据多样性 Ego4D 为主 有限场景 15 类场景 20K 视频

启发与关联

  • SVeD 的困惑度验证机制可推广到其他流式生成任务(如实时翻译、直播评论)中做输出时机判断
  • SCAM 的交错帧-字幕训练策略为流式多模态对齐提供了新思路,可能适用于音频流、传感器流等连续信号
  • Peak-End 记忆压缩借鉴认知科学,是将认知心理学原理应用于 LLM 推理优化的有趣尝试
  • OmniStar 的多场景多任务设计为后续在线视频理解研究提供了标准基准

评分

  • 新颖性: 8/10 — SCAM + SVeD 范式替代 EOS 机制有创新性
  • 实验充分度: 9/10 — 三个基准 + 五项任务 + 充分消融
  • 写作质量: 8/10 — 问题动机清晰,框架完整
  • 价值: 8/10 — 方法和数据集均有较高实用价值