跳转至

Aha: Predicting What Matters Next — Online Highlight Detection Without Looking Ahead

会议: NeurIPS 2025
arXiv: 2509.16421
代码: GitHub
领域: 自动驾驶 / 视频理解
关键词: 在线高亮检测, 流式视频, 自回归, 视频语言模型, 不确定性建模

一句话总结

Aha提出首个面向在线高亮检测(OHD)的自回归框架,通过解耦的多目标预测头(相关性/信息量/不确定性)和新颖的Dynamic SinkCache内存机制,在严格不使用未来帧的约束下,于TVSum和Mr.Hisum基准上分别以+5.9%和+8.3% mAP超越此前离线方法。

研究背景与动机

领域现状 高亮检测(HD)旨在从视频中识别关键片段。现代基于Transformer的HD方法几乎全部依赖离线全序列访问。流式视频语言模型(Video-LLMs)虽可处理流式视频,但HD作为辅助功能效果有限。

现有痛点 (1) 离线方法需要完整视频,无法用于实时决策(自动驾驶/监控/搜救);(2) 现有的Video-LLMs做HD时需修改基准或使用违反在线约束的后处理平滑;(3) 缺乏专门为OHD设计的鲁棒方法。

核心矛盾 有效的HD需要理解时序上下文,但在线约束要求只能使用过去和当前信息——如何在严格因果约束下实现高精度帧级评分?

本文目标 设计用于实时、任务条件化的在线高亮检测框架,不使用未来帧也不修改标准基准。

切入角度 建立自回归评分框架,用多目标解耦头捕捉"是否重要、是否新颖、是否确定"三个互补维度,并设计任务感知的内存机制实现无限长流式推理。

核心 idea 将在线HD形式化为自回归多目标评分问题,并用Dynamic SinkCache保持恒定内存开销的无限长推理。

方法详解

整体框架

Aha包含四个组件:(1) 冻结的SigLIP视觉编码器提取帧特征;(2) 单层线性投影映射到LLM空间;(3) 基于Qwen2的自回归解码器处理交叉文本+视觉token序列;(4) 三个多目标预测头+辅助LM头。

关键设计

  1. 多目标解耦预测头:

    • 功能:从解码器隐状态 \(h_t\) 预测三个互补信号——相关性、信息量和不确定性
    • 核心思路:相关性头 \(\hat{r}_t = W_r h_t\) 用Smooth L1 + TV正则化监督(\(\mathcal{L}_{rel-total} = \mathcal{L}_{rel} + \lambda_{TV}\mathcal{L}_{TV}\));信息量头预测帧是否引入新信息(BCE监督);不确定性头预测高斯方差(NLL + 方差多样性惩罚防止模式坍缩)
    • 设计动机:HD不仅需要"与任务相关",还需要"信息新颖"且"预测可靠"。解耦设计允许各头独立优化互补目标
  2. Dynamic SinkCache:

    • 功能:实现恒定内存开销的无限长流式推理
    • 核心思路:改进SinkCache,将sink区域专门用于任务描述文本token(~45 tokens),滑动窗口(2048 tokens)用于近期视觉上下文。形式化为 \(\mathcal{K}_t = \{\mathcal{Q}, k_{t-n:t}\}\),仅需标准缓存17%的内存
    • 设计动机:标准KV缓存随序列线性增长会导致OOM;静态SinkCache用通用初始token作sink缺乏针对性;Dynamic SinkCache保留任务目标实现长程语义对齐
  3. 不确定性感知融合评分:

    • 功能:将三个头的输出融合为最终高亮分数
    • 核心思路:分段线性函数 \(\hat{y}_t = \alpha\hat{i}_t + \beta\hat{r}_t - \epsilon(\hat{u}_t - \tau_u)\mathbf{1}[\hat{u}_t > \tau_u]\),低不确定性时直接加权融合,高不确定性时抑制分数
    • 设计动机:不确定性高意味着模型对当前帧判断不可靠,应降低其影响

损失函数 / 训练策略

总损失 \(\mathcal{L}_{total} = \lambda_r\mathcal{L}_{rel-total} + \lambda_i\mathcal{L}_{info} + \lambda_u\mathcal{L}_{unc} + \lambda_{LM}\mathcal{L}_{LM}\),使用固定权重确保训练稳定性。训练数据包含22,463个视频的HIHD数据集(基于Mr.Hisum的YouTube参与度信号)和Shot2Story/COIN用于信息量头监督。

实验关键数据

主实验——TVSum高亮检测

模型 是否调参 mAP Kendall τ Spearman ρ
TR-DETR(离线, SOTA) Y 87.1 - -
LLMVS N - 0.211 0.275
Aha(零样本) N 91.6 0.304 0.433
Aha(域适应) N 93.0 0.285 0.406

主实验——Mr.Hisum

模型 mAP@50 mAP@15
PGL-SUM 55.89 27.45
Aha 64.19 32.66

消融实验

配置 mAP 说明
完整Aha 93.0 基准
去掉相关性头 77.3 -15.7,最关键组件
去掉信息量头 83.2 -9.8,贡献显著
去掉语言条件 81.2 -11.8,任务文本至关重要
Dynamic SinkCache 93.0 优于无界缓存和标准SinkCache

关键发现

  • 纯在线模型在零样本下即超越所有调参的离线方法(91.6 vs 87.1 mAP)
  • Dynamic SinkCache以17%标准缓存内存即可支持127K+ token的长视频推理
  • 语言条件对任务导向HD至关重要(去掉后降11.8 mAP)

亮点与洞察

  • 首次证明在线因果约束下可超越离线全上下文方法,颠覆了"必须看完整视频才能做好HD"的直觉
  • Dynamic SinkCache将任务语义锚定为长期记忆是极巧妙的设计
  • 三头解耦设计赋予了可解释性——可分别分析帧的相关性、新颖性和预测可靠度

局限与展望

  • 参与度信号作为高亮代理可能引入偏差(如点击诱导内容)
  • 目前仅支持帧级评分,缺乏片段级输出和结构化总结能力
  • HIHD基于YouTube数据,可能在安全关键领域(如医疗、军事)缺乏泛化

相关工作与启发

  • vs TR-DETR: 离线双向注意力方法,Aha以纯因果方式超越它6个mAP点
  • vs MMDuet: 流式Video-LLM, HD是辅助功能,Aha专门针对HD优化
  • vs StreamingLLM: Aha的Dynamic SinkCache是StreamingLLM SinkCache的任务感知扩展

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个严格在线HD框架,超越离线方法的结果令人振奋
  • 实验充分度: ⭐⭐⭐⭐ TVSum+Mr.Hisum+消融+机器人视频,多维度验证
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述详尽
  • 价值: ⭐⭐⭐⭐⭐ 对实时视频理解系统有直接应用价值