LiveStar: Live Streaming Assistant for Real-World Online Video Understanding¶

会议: NEURIPS2025
arXiv: 2511.05299
代码: yzy-bupt/LiveStar
领域: 视频理解
关键词: online video understanding, streaming decoding, video-language alignment, live streaming, response timing

一句话总结¶

提出 LiveStar，一个始终在线的直播流视频理解助手，通过 Streaming Causal Attention Masks (SCAM) 训练策略和 Streaming Verification Decoding (SVeD) 推理框架，实现自适应响应时机判断，在 OmniStar 基准上语义正确性提升 19.5%，时间偏差降低 18.1%。

背景与动机¶

现有在线 Video-LLM（如 VideoLLM-online、VideoLLM-MoD）依赖 EOS token 来标记"静默"时段，存在四个关键问题：

响应-静默不平衡：需要输出 EOS 的帧远多于需要正常响应的帧（例如 1 分钟 3FPS 视频中，响应与静默帧比约 1:35）
连续帧不一致：视觉上相似的相邻帧可能产生矛盾输出——一帧生成完整叙述而下一帧仅输出 EOS
预训练不对齐：预训练对齐的是 image-text pair，但静默状态强制将帧映射到 EOS token，违背视觉-语言对应的训练目标
词表混淆：EOS 作为常规 token 嵌入词表，频繁出现污染语义连贯性

此外，现有训练数据和评估范围有限（多数仅关注 Ego4D 第一人称视频），缺乏对多样化真实场景和多任务的覆盖。

核心问题¶

如何建立有效的响应-静默训练与推理框架，同时不损害基础视频理解能力？
如何构建涵盖多样真实场景和任务的综合数据集与基准？

方法详解¶

1. Streaming Causal Attention Masks (SCAM) 训练策略¶

流式视频-语言对齐：将标准的 image/video-text pair 对齐目标改造为逐帧多轮指令微调目标：

\[\max P([Txt^k] \mid [Ctx^{<t_i}], [Frm^{t_i}]), \forall t_i \in C_k\]

其中 \(C_k = \{t_i\}_{i=m}^n\) 是共享语义文本 \([Txt^k]\) 的语义片段。同一语义片段内的连续帧共享相同语义的 caption，但通过从大小为 \(M\) 的改写池中随机采样来避免过拟合。

交错帧-字幕序列：采用类对话格式，每轮包含一帧 \([Frm^{t_i}]\) 和对应的 caption \([Cap^k]\)，实现增量式视觉输入同时保持时间感知。

流式因果注意力掩码：设计专用掩码矩阵替代标准因果注意力，解决三个挑战： - 防止当前语义片段内已生成 caption 的泄露（避免简单复制） - 维持当前 caption 生成时对已预测 token 的可见性 - 让每个语义片段的最后一个 caption 跨后续帧持续存在，以标记语义边界

2. Streaming Verification Decoding (SVeD) 推理框架¶

SVeD 通过单次前向传播验证来确定最佳响应时机：

在每个触发解码步 \(t_i\)，计算生成 caption 的困惑度 \(\text{PPL}^{t_i}([Dec])\)
对每个新帧 \([Frm^{t_j}]\)，重新计算 \(\text{PPL}^{t_j}([Dec])\)
若 \(\text{PPL}^{t_j}([Dec]) > \alpha \cdot \text{PPL}^{t_i}([Dec])\)（\(\alpha\) 为可调缩放因子，默认 1.03），则激活解码生成新 caption
否则保持静默，将当前 caption 移至上下文末尾

相比预测 EOS token 来指示静默，SVeD 在相同模型架构下推理更快。

3. Peak-End 记忆压缩¶

受认知心理学 Peak-End 规则启发，对超过窗口 \(W\)（默认 40 帧）的旧帧进行概率性剪枝： - 利用已计算的 PPL 值识别关键帧（低 PPL = 高语义重要性） - 保留每个语义片段最后一帧的 caption 作为事件摘要 - 删除概率与语义片段内相对 PPL 和已过时间成正比

4. 流式 KV Cache¶

双层缓存架构：对话内 KV cache 用于帧级处理，跨对话流式 cache 保持长上下文。在 5 分钟视频推理中实现 1.53× 加速。

5. OmniStar 数据集¶

涵盖 15 类真实场景（46 个细分类别），20,137 个视频，5 项在线评估任务： - RNG：实时叙述生成 - OTG：在线时间定位 - FDQ：帧级密集 QA - COQ：上下文在线 QA - MIQ：多轮交互 QA

采用半自动化、时间密集标注管线，caption 构成叙事一致的故事线。

实验关键数据¶

模型	RNG SemCor↑	RNG TimDiff↓	FDQ SemCor↑	FPS↑
VideoLLM-online	1.68	2.67	2.35	3.37
VideoLLM-MoD	1.66	2.54	2.11	3.41
MMDuet	1.63	2.32	4.78	0.91
LiveStar	3.19	1.91	6.44	3.82
Human	6.09	1.08	9.12	-

五项 OmniStar 任务平均：SemCor 提升 19.5%，TimDiff 降低 18.1%，FPS 提升 12.0%
Ego4D 离线基准：TokAcc 达 61.1%，比次优 LION-FS 高 8.7%
消融实验：Peak-End 压缩优于 Uniform Dropout 和 FIFO Forgetting；KV cache 实现 1.53× 加速且性能损失可忽略

亮点¶

范式革新：用 SCAM + SVeD 替代 EOS 机制，从根本上解决响应-静默不平衡问题，同时不破坏预训练的视觉-语言对齐
高效推理：SVeD 仅需单次前向传播验证（而非完整解码），配合 Peak-End 记忆压缩支持 10+ 分钟视频流
OmniStar 基准：首个涵盖 15 种真实场景 × 5 项在线任务的综合数据集，填补了在线视频理解评估的空白
显著领先：在所有 5 项任务上全面超越现有在线 Video-LLM，且推理速度最快

局限与展望¶

每帧压缩为 16 个 visual token，牺牲了细粒度视觉细节，不利于微妙运动变化或复杂场景
仅支持视觉-文本模态，未整合音频信息，限制了多模态推理能力
在线评估依赖 GPT-4o 打分（SemCor、SumFluen），可能引入评估偏差
与人类表现仍有较大差距（SemCor 3.19 vs 6.09）

与相关工作的对比¶

维度	VideoLLM-online	MMDuet	LiveStar
响应时机	EOS token 预测	EOS token 预测	SVeD 困惑度验证
训练策略	标准微调	标准微调	SCAM 流式对齐
输出模式	几乎每帧都输出	输出稀疏	自适应平衡
长视频支持	有限	有限	Peak-End 压缩 + KV cache
数据多样性	Ego4D 为主	有限场景	15 类场景 20K 视频

启发与关联¶

SVeD 的困惑度验证机制可推广到其他流式生成任务（如实时翻译、直播评论）中做输出时机判断
SCAM 的交错帧-字幕训练策略为流式多模态对齐提供了新思路，可能适用于音频流、传感器流等连续信号
Peak-End 记忆压缩借鉴认知科学，是将认知心理学原理应用于 LLM 推理优化的有趣尝试
OmniStar 的多场景多任务设计为后续在线视频理解研究提供了标准基准

评分¶

新颖性: 8/10 — SCAM + SVeD 范式替代 EOS 机制有创新性
实验充分度: 9/10 — 三个基准 + 五项任务 + 充分消融
写作质量: 8/10 — 问题动机清晰，框架完整
价值: 8/10 — 方法和数据集均有较高实用价值