跳转至

HiVid: LLM-Guided Video Saliency For Content-Aware VOD And Live Streaming

会议: ICLR 2026
arXiv: 2602.14214
代码: 待确认
领域: 时间序列
关键词: video saliency, LLM-as-judge, content-aware streaming, time series forecasting, adaptive bitrate

一句话总结

提出 HiVid 框架,首次利用 LLM 作为人类代理为视频块生成内容重要性权重,通过感知模块(滑动窗口评分)、排序模块(LLM 引导归并排序去除评分偏差)和预测模块(多模态时间序列预测自适应延迟)实现内容感知流媒体传输, VOD PLCC 提升 11.5%,直播预测提升 26%,真人 MOS 相关性提升 14.7%。

研究背景与动机

领域现状: 内容感知视频流媒体通过 \(QoE = \sum_i w_i \cdot q_i\) 为更重要的块分配更高码率。当前方法有 CV 高亮检测模型(DETR、VASNet 等)和人工众包标注(SENSEI)。

现有痛点: CV 模型语义理解不足、泛化差;视频理解大模型(VideoLLaMA3, VILA)在主观评分任务上幻觉严重;人工标注成本极高(78分钟/100美元每视频),直播场景不可行。

核心矛盾: 需要兼具准确性(语义理解)和效率(实时+低成本)的权重生成方案。

本文目标: 三个挑战:(1) LLM 无法直接处理视频且 token 有限;(2) 滑动窗口内局部评分不一致;(3) 直播需实时推理但 LLM 延迟不确定。

切入角度: 用 LLM 作为"人类代理"进行零样本主观推理,通过窗口化+上下文摘要绕过 token 限制。

核心 idea: LLM 感知 + 归并排序去偏 + 多模态预测自适应延迟 = 端到端内容感知流媒体。

方法详解

整体框架

HiVid 包含三个模块:Perception (基础) → Ranking (VOD) / Prediction (直播),最终输出块权重 \(w_i\) 融入 QoE 模型。

关键设计

  1. Perception 模块: 每 \(m\) 帧通过滑动窗口输入 LLM(默认 GPT-4o),prompt 要求评分并更新摘要: \(R_{(k-1)m+1}^{km}, S_{km} = LLM(F_{(k-1)m+1}^{km}, S_{(k-1)m})\) 仅需 \(\lceil D/m \rceil\) 次 LLM 调用即可处理任意长视频,摘要 \(S\) 作为压缩历史上下文。

  2. Ranking 模块 (VOD): 用 LLM 引导的归并排序消除窗口间评分偏差。每次合并两个排序组时,取各 \(m/2\) 帧组成新列表让 LLM 排序,总体复杂度 \(O(k \log k)\)\(k = \lceil D/m \rceil\))。排序后归一化到 \([0,1]\) 并施加高斯平滑 \(w_i = GS(s, \sigma, w_i)\)

  3. Prediction 模块 (直播): 多模态时间序列预测模型,包含:

    • CLIP 对齐: 冻结 CLIP 编码历史帧和文本摘要
    • Content-Aware Attention: 时序特征作 Q,拼接的图像+文本特征作 K/V: \(Attn(F(x_w), F(x_{cat}), F(x_{cat})) = softmax\left(\frac{Q_w K_{cat}^T}{\sqrt{d}}\right) \cdot V_{cat}\)
    • 自适应预测维度: 根据 LLM 延迟 \(\Delta t\) 和预测延迟 \(\delta\) 动态调整输出长度: \(L_{out} = \lceil(\Delta t + \delta)/d\rceil + m + N\)
    • 相关性损失: \(loss = MSE(x, x_{gt}) + \lambda(1 - \text{Pearson}(x, x_{gt}))\)

损失函数 / 训练策略

  • Perception/Ranking 模块无需训练(基于 LLM 零样本推理)
  • 预测模块训练多个不同 \(L_{out}\) 的模型,推理时选最小满足需求的模型

实验关键数据

主实验

三个数据集的显著性评分(PLCC/mAP50):

方法 Youtube-8M PLCC TVSum PLCC SumMe PLCC
DETR 0.57 0.42 0.38
SL-module 0.59 0.43 0.39
VideoLLaMA3 0.54 0.41 0.35
HiVid 0.66 0.50 0.47

消融实验

窗口参数 \(m\) 对开销和准确率的影响(201s视频):

m 总 API 调用 总成本 总时间/h
2 1458 $8.12 1.26
6 384 $2.41 0.67
10 202 $1.35 0.54

\(m=10\) 在准确率-成本之间最优。

关键发现

  • HiVid 在平均 PLCC 上比第二名 SL-module 高 11.5%,mAP50 高 6%
  • 直播场景 HiVid 多模态预测比最强时序基线 iTransformer 提升 26%
  • 真人 MOS 相关性提升 14.7%,验证了实际流媒体 QoE 的改善
  • 视频理解模型(VILA、Flamingo)在主观评分任务上不如 CV 基线

亮点与洞察

  • 首个系统化利用 LLM 进行视频级内容感知流媒体的框架: 将 LLM-as-judge 思路从文本扩展到视频流媒体
  • LLM 归并排序: 用 LLM 作为比较函数的排序算法设计巧妙,\(O(k \log k)\) 开销可控
  • 自适应预测维度: 针对异步 LLM 推理延迟的动态调整,是实际部署的关键设计
  • 端到端验证: 从评分准确率到实际流媒体 QoE 的完整验证链
  • 多模态融合的 Content-Aware Attention: CLIP 对齐图像+文本再结合时序的新颖注意力设计

局限与展望

  • 依赖 GPT-4o 闭源 API,成本仍较高($1.35/视频),难以大规模部署
  • Perception 模块仅看首帧锚点,可能遗漏帧内动态变化(如快速动作)
  • 直播场景初始 \(\lceil(\Delta t + \delta)/d\rceil + m\) 个块没有 LLM 评分,用默认权重1填充
  • 排序模块对极长视频开销仍显著,\(O(k \log k)\) 的 LLM 调用实际费用不低
  • 仅评估了 GPT-4o,未探索开源 LLM 替代方案(如 Llama/Qwen 等)
  • 评分质量强依赖 LLM 的主观判断能力,不同 LLM 可能产生不同偏差
  • 未考虑视频内容的动态变化(如场景切换、镜头运动等时序特征)
  • 未探索对不同视频类别(体育、新闻、教育等)的分类化策略

相关工作与启发

  • SENSEI 用人工众包获取精确权重但成本极高,HiVid 用 LLM 实现了准确-效率平衡
  • 与 DETR/SL-module 等 attention-based 高亮检测对比,LLM 在语义内容理解上的优势明显
  • 与 VideoLLaMA3/VILA 对比:视频理解模型在主观评分任务上幻觉严重,不如 LLM 视觉+文本的策略
  • 对网络系统+AI 交叉领域有借鉴意义:将 LLM 推理引入在线系统的异步设计模式
  • 启发:多模态时序预测中 CLIP 对齐的图像+文本特征可作为有效的上下文信号

评分

  • 新颖性: ⭐⭐⭐⭐ LLM-as-judge 用于视频流媒体是新颖组合,但各模块技术偏工程集成
  • 实验充分度: ⭐⭐⭐⭐⭐ 3数据集+17基线+消融+真人用户研究,非常充分
  • 写作质量: ⭐⭐⭐⭐ 问题驱动的三挑战三模块结构,叙述严谨
  • 价值: ⭐⭐⭐⭐ 对内容感知流媒体有实际意义,但对学术社区的泛化启发略有限