跳转至

HiVid: LLM-Guided Video Saliency For Content-Aware VOD And Live Streaming

会议: ICLR 2026
arXiv: 2602.14214
代码: 待确认
领域: 时间序列
关键词: video saliency, LLM-as-judge, content-aware streaming, time series forecasting, adaptive bitrate

一句话总结

提出 HiVid 框架,首次利用 LLM 作为人类代理为视频块生成内容重要性权重,通过感知模块(滑动窗口评分)、排序模块(LLM 引导归并排序去除评分偏差)和预测模块(多模态时间序列预测自适应延迟)实现内容感知流媒体传输, VOD PLCC 提升 11.5%,直播预测提升 26%,真人 MOS 相关性提升 14.7%。

研究背景与动机

领域现状: 内容感知视频流媒体通过 \(QoE = \sum_i w_i \cdot q_i\) 为更重要的块分配更高码率。当前方法有 CV 高亮检测模型(DETR、VASNet 等)和人工众包标注(SENSEI)。

现有痛点: CV 模型语义理解不足、泛化差;视频理解大模型(VideoLLaMA3, VILA)在主观评分任务上幻觉严重;人工标注成本极高(78分钟/100美元每视频),直播场景不可行。

核心矛盾: 需要兼具准确性(语义理解)和效率(实时+低成本)的权重生成方案。

本文目标: 三个挑战:(1) LLM 无法直接处理视频且 token 有限;(2) 滑动窗口内局部评分不一致;(3) 直播需实时推理但 LLM 延迟不确定。

切入角度: 用 LLM 作为"人类代理"进行零样本主观推理,通过窗口化+上下文摘要绕过 token 限制。

核心 idea: LLM 感知 + 归并排序去偏 + 多模态预测自适应延迟 = 端到端内容感知流媒体。

方法详解

整体框架

HiVid 把 LLM 当作"人类代理"来给视频块打主观重要性权重 \(w_i\),再把权重喂回 \(QoE = \sum_i w_i \cdot q_i\) 指导码率分配。一个 Perception 模块负责把任意长的视频切成滑动窗口逐段评分,是所有场景的公共底座;点播(VOD)路径在其后接 Ranking 模块用排序去掉窗口间的评分偏差,直播路径则与 Perception 并行地接 Prediction 模块,用多模态时间序列预测来掩盖 LLM 的推理延迟。两条路径最终都把块权重 \(w_i\) 送进 QoE 模型供自适应码率(ABR)算法分配码率。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    IN["视频块 + 可选文本描述"] --> P["Perception 模块<br/>滑动窗口逐段评分<br/>+ 滚动摘要 S"]
    P -->|"VOD:拿得到完整视频"| R["Ranking 模块<br/>LLM 引导归并排序去偏<br/>+ 高斯平滑"]
    P -->|"直播:无未来帧 + 低延迟"| PR["Prediction 模块<br/>多模态时序预测未来权重<br/>+ 自适应预测维度"]
    R --> W["块重要性权重 w_i"]
    PR --> W
    W --> QOE["QoE = Σ w_i·q_i<br/>ABR 算法分配码率"]

关键设计

1. Perception 模块:用滑动窗口加摘要绕过 LLM 的 token 上限

整体框架里的"公共底座"要解决的是:LLM 既不直接吃视频、token 又有限,没法把整段视频塞进去。HiVid 把每个视频块的首帧采样成锚点帧,再按每 \(m\) 帧切成一个窗口逐个送进 LLM(默认 GPT-4o),每个窗口的 prompt 同时要求两件事——给这 \(m\) 帧打分、并把这段内容压缩进一段文本摘要带给下一个窗口,即 \(R_{(k-1)m+1}^{km}, S_{km} = LLM(F_{(k-1)m+1}^{km}, S_{(k-1)m})\)。摘要 \(S\) 充当被压缩的历史上下文(初始 \(S_0\) 用视频标题和背景),让后面的窗口能在"知道前情"的前提下评分,于是处理任意时长 \(D\) 的视频只需 \(\lceil D/m \rceil\) 次调用,把成本压成线性。

2. Ranking 模块:用 LLM 引导的归并排序抹平窗口间偏差

这一步对应框架图里 VOD 分支:不同窗口是独立打分的,绝对分数会系统性漂移——论文里同样精彩的镜头在两个窗口分别只拿 65-70 和 75-85。点播场景能拿到完整视频,于是 HiVid 改用相对排序而非绝对分。它套用归并排序的框架,但把"比较两个元素"换成"让 LLM 排序":每次合并两个已排好的组时,各抽 \(m/2\) 帧拼成长度 \(m\) 的新列表交给 LLM 重新定序,取出前 \(m/2\)、其余放回原组,单次比较即可对 \(m\) 帧排序、复杂度 \(O(m)\),整组排序为 \(O(k \log k)\)\(k = \lceil D/m \rceil\))。排好的序按下标归一化到 \([0,1]\) 作为权重,再施加高斯平滑 \(w_i = GS(s, \sigma, w_i)\)(核大小 \(s=D\))让相邻块权重过渡平滑。因为只比较相对优先级、不依赖绝对分,窗口间的偏差被自然消掉。

3. Prediction 模块:用多模态预测掩盖直播中不确定的 LLM 延迟

这一步对应框架图里与 Perception 并行的直播分支:直播没有未来帧、又要求实时出权重,而 LLM 推理延迟 \(\Delta t\) 随输入 token 抖动很大,等它算完早就错过传输窗口了。HiVid 因此训一个多模态时间序列模型来"预报"未来块的权重:先用冻结的 CLIP 把历史帧和文本摘要编码对齐,再做内容感知注意力(content-aware attention)——以时序特征作 Q、拼接后的图文特征作 K/V,\(Attn(F(x_w), F(x_{cat}), F(x_{cat})) = softmax\left(\frac{Q_w K_{cat}^T}{\sqrt{d}}\right) \cdot V_{cat}\),让历史数值序列去查询语义内容。关键的"自适应预测维度"按当前 LLM 延迟 \(\Delta t\) 和预测延迟 \(\delta\) 动态决定要往前预报多远,输出维度需同时覆盖尚未评分的 \(n-m\) 块和未来 \(N\) 块,刚好填上等待 LLM 的那段空窗。训练用相关性损失 \(loss = MSE(x, x_{gt}) + \lambda(1 - \text{Pearson}(x, x_{gt}))\),在拟合数值之外额外逼模型保住权重序列的整体走势。

损失函数 / 训练策略

Perception 与 Ranking 模块完全靠 LLM 零样本推理、无需训练;只有 Prediction 模块需要训练,且会预训练多个对应不同 \(L_{out}\) 的模型,推理时根据实测延迟挑最小但够用的那个,在预测跨度和精度间取平衡。

实验关键数据

主实验

三个数据集的显著性评分(PLCC/mAP50):

方法 Youtube-8M PLCC TVSum PLCC SumMe PLCC
DETR 0.57 0.42 0.38
SL-module 0.59 0.43 0.39
VideoLLaMA3 0.54 0.41 0.35
HiVid 0.66 0.50 0.47

消融实验

窗口参数 \(m\) 对开销和准确率的影响(201s视频):

m 总 API 调用 总成本 总时间/h
2 1458 $8.12 1.26
6 384 $2.41 0.67
10 202 $1.35 0.54

\(m=10\) 在准确率-成本之间最优。

关键发现

  • HiVid 在平均 PLCC 上比第二名 SL-module 高 11.5%,mAP50 高 6%
  • 直播场景 HiVid 多模态预测比最强时序基线 iTransformer 提升 26%
  • 真人 MOS 相关性提升 14.7%,验证了实际流媒体 QoE 的改善
  • 视频理解模型(VILA、Flamingo)在主观评分任务上不如 CV 基线

亮点与洞察

  • 首个系统化利用 LLM 进行视频级内容感知流媒体的框架: 将 LLM-as-judge 思路从文本扩展到视频流媒体
  • LLM 归并排序: 用 LLM 作为比较函数的排序算法设计巧妙,\(O(k \log k)\) 开销可控
  • 自适应预测维度: 针对异步 LLM 推理延迟的动态调整,是实际部署的关键设计
  • 端到端验证: 从评分准确率到实际流媒体 QoE 的完整验证链
  • 多模态融合的 Content-Aware Attention: CLIP 对齐图像+文本再结合时序的新颖注意力设计

局限与展望

  • 依赖 GPT-4o 闭源 API,成本仍较高($1.35/视频),难以大规模部署
  • Perception 模块仅看首帧锚点,可能遗漏帧内动态变化(如快速动作)
  • 直播场景初始 \(\lceil(\Delta t + \delta)/d\rceil + m\) 个块没有 LLM 评分,用默认权重1填充
  • 排序模块对极长视频开销仍显著,\(O(k \log k)\) 的 LLM 调用实际费用不低
  • 仅评估了 GPT-4o,未探索开源 LLM 替代方案(如 Llama/Qwen 等)
  • 评分质量强依赖 LLM 的主观判断能力,不同 LLM 可能产生不同偏差
  • 未考虑视频内容的动态变化(如场景切换、镜头运动等时序特征)
  • 未探索对不同视频类别(体育、新闻、教育等)的分类化策略

相关工作与启发

  • SENSEI 用人工众包获取精确权重但成本极高,HiVid 用 LLM 实现了准确-效率平衡
  • 与 DETR/SL-module 等 attention-based 高亮检测对比,LLM 在语义内容理解上的优势明显
  • 与 VideoLLaMA3/VILA 对比:视频理解模型在主观评分任务上幻觉严重,不如 LLM 视觉+文本的策略
  • 对网络系统+AI 交叉领域有借鉴意义:将 LLM 推理引入在线系统的异步设计模式
  • 启发:多模态时序预测中 CLIP 对齐的图像+文本特征可作为有效的上下文信号

评分

  • 新颖性: ⭐⭐⭐⭐ LLM-as-judge 用于视频流媒体是新颖组合,但各模块技术偏工程集成
  • 实验充分度: ⭐⭐⭐⭐⭐ 3数据集+17基线+消融+真人用户研究,非常充分
  • 写作质量: ⭐⭐⭐⭐ 问题驱动的三挑战三模块结构,叙述严谨
  • 价值: ⭐⭐⭐⭐ 对内容感知流媒体有实际意义,但对学术社区的泛化启发略有限