HiVid: LLM-Guided Video Saliency For Content-Aware VOD And Live Streaming¶
会议: ICLR 2026
arXiv: 2602.14214
代码: 待确认
领域: 时间序列
关键词: video saliency, LLM-as-judge, content-aware streaming, time series forecasting, adaptive bitrate
一句话总结¶
提出 HiVid 框架,首次利用 LLM 作为人类代理为视频块生成内容重要性权重,通过感知模块(滑动窗口评分)、排序模块(LLM 引导归并排序去除评分偏差)和预测模块(多模态时间序列预测自适应延迟)实现内容感知流媒体传输, VOD PLCC 提升 11.5%,直播预测提升 26%,真人 MOS 相关性提升 14.7%。
研究背景与动机¶
领域现状: 内容感知视频流媒体通过 \(QoE = \sum_i w_i \cdot q_i\) 为更重要的块分配更高码率。当前方法有 CV 高亮检测模型(DETR、VASNet 等)和人工众包标注(SENSEI)。
现有痛点: CV 模型语义理解不足、泛化差;视频理解大模型(VideoLLaMA3, VILA)在主观评分任务上幻觉严重;人工标注成本极高(78分钟/100美元每视频),直播场景不可行。
核心矛盾: 需要兼具准确性(语义理解)和效率(实时+低成本)的权重生成方案。
本文目标: 三个挑战:(1) LLM 无法直接处理视频且 token 有限;(2) 滑动窗口内局部评分不一致;(3) 直播需实时推理但 LLM 延迟不确定。
切入角度: 用 LLM 作为"人类代理"进行零样本主观推理,通过窗口化+上下文摘要绕过 token 限制。
核心 idea: LLM 感知 + 归并排序去偏 + 多模态预测自适应延迟 = 端到端内容感知流媒体。
方法详解¶
整体框架¶
HiVid 包含三个模块:Perception (基础) → Ranking (VOD) / Prediction (直播),最终输出块权重 \(w_i\) 融入 QoE 模型。
关键设计¶
-
Perception 模块: 每 \(m\) 帧通过滑动窗口输入 LLM(默认 GPT-4o),prompt 要求评分并更新摘要: \(R_{(k-1)m+1}^{km}, S_{km} = LLM(F_{(k-1)m+1}^{km}, S_{(k-1)m})\) 仅需 \(\lceil D/m \rceil\) 次 LLM 调用即可处理任意长视频,摘要 \(S\) 作为压缩历史上下文。
-
Ranking 模块 (VOD): 用 LLM 引导的归并排序消除窗口间评分偏差。每次合并两个排序组时,取各 \(m/2\) 帧组成新列表让 LLM 排序,总体复杂度 \(O(k \log k)\)(\(k = \lceil D/m \rceil\))。排序后归一化到 \([0,1]\) 并施加高斯平滑 \(w_i = GS(s, \sigma, w_i)\)。
-
Prediction 模块 (直播): 多模态时间序列预测模型,包含:
- CLIP 对齐: 冻结 CLIP 编码历史帧和文本摘要
- Content-Aware Attention: 时序特征作 Q,拼接的图像+文本特征作 K/V: \(Attn(F(x_w), F(x_{cat}), F(x_{cat})) = softmax\left(\frac{Q_w K_{cat}^T}{\sqrt{d}}\right) \cdot V_{cat}\)
- 自适应预测维度: 根据 LLM 延迟 \(\Delta t\) 和预测延迟 \(\delta\) 动态调整输出长度: \(L_{out} = \lceil(\Delta t + \delta)/d\rceil + m + N\)
- 相关性损失: \(loss = MSE(x, x_{gt}) + \lambda(1 - \text{Pearson}(x, x_{gt}))\)
损失函数 / 训练策略¶
- Perception/Ranking 模块无需训练(基于 LLM 零样本推理)
- 预测模块训练多个不同 \(L_{out}\) 的模型,推理时选最小满足需求的模型
实验关键数据¶
主实验¶
三个数据集的显著性评分(PLCC/mAP50):
| 方法 | Youtube-8M PLCC | TVSum PLCC | SumMe PLCC |
|---|---|---|---|
| DETR | 0.57 | 0.42 | 0.38 |
| SL-module | 0.59 | 0.43 | 0.39 |
| VideoLLaMA3 | 0.54 | 0.41 | 0.35 |
| HiVid | 0.66 | 0.50 | 0.47 |
消融实验¶
窗口参数 \(m\) 对开销和准确率的影响(201s视频):
| m | 总 API 调用 | 总成本 | 总时间/h |
|---|---|---|---|
| 2 | 1458 | $8.12 | 1.26 |
| 6 | 384 | $2.41 | 0.67 |
| 10 | 202 | $1.35 | 0.54 |
\(m=10\) 在准确率-成本之间最优。
关键发现¶
- HiVid 在平均 PLCC 上比第二名 SL-module 高 11.5%,mAP50 高 6%
- 直播场景 HiVid 多模态预测比最强时序基线 iTransformer 提升 26%
- 真人 MOS 相关性提升 14.7%,验证了实际流媒体 QoE 的改善
- 视频理解模型(VILA、Flamingo)在主观评分任务上不如 CV 基线
亮点与洞察¶
- 首个系统化利用 LLM 进行视频级内容感知流媒体的框架: 将 LLM-as-judge 思路从文本扩展到视频流媒体
- LLM 归并排序: 用 LLM 作为比较函数的排序算法设计巧妙,\(O(k \log k)\) 开销可控
- 自适应预测维度: 针对异步 LLM 推理延迟的动态调整,是实际部署的关键设计
- 端到端验证: 从评分准确率到实际流媒体 QoE 的完整验证链
- 多模态融合的 Content-Aware Attention: CLIP 对齐图像+文本再结合时序的新颖注意力设计
局限与展望¶
- 依赖 GPT-4o 闭源 API,成本仍较高($1.35/视频),难以大规模部署
- Perception 模块仅看首帧锚点,可能遗漏帧内动态变化(如快速动作)
- 直播场景初始 \(\lceil(\Delta t + \delta)/d\rceil + m\) 个块没有 LLM 评分,用默认权重1填充
- 排序模块对极长视频开销仍显著,\(O(k \log k)\) 的 LLM 调用实际费用不低
- 仅评估了 GPT-4o,未探索开源 LLM 替代方案(如 Llama/Qwen 等)
- 评分质量强依赖 LLM 的主观判断能力,不同 LLM 可能产生不同偏差
- 未考虑视频内容的动态变化(如场景切换、镜头运动等时序特征)
- 未探索对不同视频类别(体育、新闻、教育等)的分类化策略
相关工作与启发¶
- SENSEI 用人工众包获取精确权重但成本极高,HiVid 用 LLM 实现了准确-效率平衡
- 与 DETR/SL-module 等 attention-based 高亮检测对比,LLM 在语义内容理解上的优势明显
- 与 VideoLLaMA3/VILA 对比:视频理解模型在主观评分任务上幻觉严重,不如 LLM 视觉+文本的策略
- 对网络系统+AI 交叉领域有借鉴意义:将 LLM 推理引入在线系统的异步设计模式
- 启发:多模态时序预测中 CLIP 对齐的图像+文本特征可作为有效的上下文信号
评分¶
- 新颖性: ⭐⭐⭐⭐ LLM-as-judge 用于视频流媒体是新颖组合,但各模块技术偏工程集成
- 实验充分度: ⭐⭐⭐⭐⭐ 3数据集+17基线+消融+真人用户研究,非常充分
- 写作质量: ⭐⭐⭐⭐ 问题驱动的三挑战三模块结构,叙述严谨
- 价值: ⭐⭐⭐⭐ 对内容感知流媒体有实际意义,但对学术社区的泛化启发略有限