HiVid: LLM-Guided Video Saliency For Content-Aware VOD And Live Streaming¶

会议: ICLR 2026
arXiv: 2602.14214
代码: 待确认
领域: 时间序列
关键词: video saliency, LLM-as-judge, content-aware streaming, time series forecasting, adaptive bitrate

一句话总结¶

提出 HiVid 框架，首次利用 LLM 作为人类代理为视频块生成内容重要性权重，通过感知模块（滑动窗口评分）、排序模块（LLM 引导归并排序去除评分偏差）和预测模块（多模态时间序列预测自适应延迟）实现内容感知流媒体传输， VOD PLCC 提升 11.5%，直播预测提升 26%，真人 MOS 相关性提升 14.7%。

研究背景与动机¶

领域现状: 内容感知视频流媒体通过 $QoE = \sum_i w_i \cdot q_i$ 为更重要的块分配更高码率。当前方法有 CV 高亮检测模型（DETR、VASNet 等）和人工众包标注（SENSEI）。

现有痛点: CV 模型语义理解不足、泛化差；视频理解大模型（VideoLLaMA3, VILA）在主观评分任务上幻觉严重；人工标注成本极高（78分钟/100美元每视频），直播场景不可行。

核心矛盾: 需要兼具准确性（语义理解）和效率（实时+低成本）的权重生成方案。

本文目标: 三个挑战：(1) LLM 无法直接处理视频且 token 有限；(2) 滑动窗口内局部评分不一致；(3) 直播需实时推理但 LLM 延迟不确定。

切入角度: 用 LLM 作为"人类代理"进行零样本主观推理，通过窗口化+上下文摘要绕过 token 限制。

核心 idea: LLM 感知 + 归并排序去偏 + 多模态预测自适应延迟 = 端到端内容感知流媒体。

方法详解¶

整体框架¶

HiVid 包含三个模块：Perception (基础) → Ranking (VOD) / Prediction (直播)，最终输出块权重 $w_i$ 融入 QoE 模型。

关键设计¶

Perception 模块: 每 $m$ 帧通过滑动窗口输入 LLM（默认 GPT-4o），prompt 要求评分并更新摘要： $R_{(k-1)m+1}^{km}, S_{km} = LLM(F_{(k-1)m+1}^{km}, S_{(k-1)m})$ 仅需 $\lceil D/m \rceil$ 次 LLM 调用即可处理任意长视频，摘要 $S$ 作为压缩历史上下文。
Ranking 模块 (VOD): 用 LLM 引导的归并排序消除窗口间评分偏差。每次合并两个排序组时，取各 $m/2$ 帧组成新列表让 LLM 排序，总体复杂度 $O(k \log k)$（$k = \lceil D/m \rceil$）。排序后归一化到 $[0,1]$ 并施加高斯平滑 $w_i = GS(s, \sigma, w_i)$。
Prediction 模块 (直播): 多模态时间序列预测模型，包含：
- CLIP 对齐: 冻结 CLIP 编码历史帧和文本摘要
- Content-Aware Attention: 时序特征作 Q，拼接的图像+文本特征作 K/V： $Attn(F(x_w), F(x_{cat}), F(x_{cat})) = softmax\left(\frac{Q_w K_{cat}^T}{\sqrt{d}}\right) \cdot V_{cat}$
- 自适应预测维度: 根据 LLM 延迟 $\Delta t$ 和预测延迟 $\delta$ 动态调整输出长度： $L_{out} = \lceil(\Delta t + \delta)/d\rceil + m + N$
- 相关性损失: $loss = MSE(x, x_{gt}) + \lambda(1 - \text{Pearson}(x, x_{gt}))$

损失函数 / 训练策略¶

Perception/Ranking 模块无需训练（基于 LLM 零样本推理）
预测模块训练多个不同 $L_{out}$ 的模型，推理时选最小满足需求的模型

实验关键数据¶

主实验¶

三个数据集的显著性评分（PLCC/mAP50）:

方法	Youtube-8M PLCC	TVSum PLCC	SumMe PLCC
DETR	0.57	0.42	0.38
SL-module	0.59	0.43	0.39
VideoLLaMA3	0.54	0.41	0.35
HiVid	0.66	0.50	0.47

消融实验¶

窗口参数 $m$ 对开销和准确率的影响（201s视频）:

m	总 API 调用	总成本	总时间/h
2	1458	$8.12	1.26
6	384	$2.41	0.67
10	202	$1.35	0.54

$m=10$ 在准确率-成本之间最优。

关键发现¶

HiVid 在平均 PLCC 上比第二名 SL-module 高 11.5%，mAP50 高 6%
直播场景 HiVid 多模态预测比最强时序基线 iTransformer 提升 26%
真人 MOS 相关性提升 14.7%，验证了实际流媒体 QoE 的改善
视频理解模型（VILA、Flamingo）在主观评分任务上不如 CV 基线

亮点与洞察¶

首个系统化利用 LLM 进行视频级内容感知流媒体的框架: 将 LLM-as-judge 思路从文本扩展到视频流媒体
LLM 归并排序: 用 LLM 作为比较函数的排序算法设计巧妙，$O(k \log k)$ 开销可控
自适应预测维度: 针对异步 LLM 推理延迟的动态调整，是实际部署的关键设计
端到端验证: 从评分准确率到实际流媒体 QoE 的完整验证链
多模态融合的 Content-Aware Attention: CLIP 对齐图像+文本再结合时序的新颖注意力设计

局限与展望¶

依赖 GPT-4o 闭源 API，成本仍较高（$1.35/视频），难以大规模部署
Perception 模块仅看首帧锚点，可能遗漏帧内动态变化（如快速动作）
直播场景初始 $\lceil(\Delta t + \delta)/d\rceil + m$ 个块没有 LLM 评分，用默认权重1填充
排序模块对极长视频开销仍显著，$O(k \log k)$ 的 LLM 调用实际费用不低
仅评估了 GPT-4o，未探索开源 LLM 替代方案（如 Llama/Qwen 等）
评分质量强依赖 LLM 的主观判断能力，不同 LLM 可能产生不同偏差
未考虑视频内容的动态变化（如场景切换、镜头运动等时序特征）
未探索对不同视频类别（体育、新闻、教育等）的分类化策略

评分¶

新颖性: ⭐⭐⭐⭐ LLM-as-judge 用于视频流媒体是新颖组合，但各模块技术偏工程集成
实验充分度: ⭐⭐⭐⭐⭐ 3数据集+17基线+消融+真人用户研究，非常充分
写作质量: ⭐⭐⭐⭐ 问题驱动的三挑战三模块结构，叙述严谨
价值: ⭐⭐⭐⭐ 对内容感知流媒体有实际意义，但对学术社区的泛化启发略有限