UniComp: Rethinking Video Compression Through Informational Uniqueness¶

会议: CVPR 2026
arXiv: 2512.03575
代码: TimeMarker-LLM/UniComp
领域: 模型压缩
关键词: 视觉token压缩, 信息唯一性, 视频理解, MLLM效率, 即插即用

一句话总结¶

提出基于信息唯一性（而非注意力）的视频 token 压缩框架 UniComp，通过帧组融合、token 分配和空间动态压缩三个模块在时序-空间-全局维度上最大化保留唯一信息，在仅保留 10% token 时仍能超越未压缩基线性能。

研究背景与动机¶

领域现状: 多模态大模型处理视频时面临巨大计算瓶颈——32 帧视频可能产生数千个视觉 token。现有压缩方法如 VisionZip、HoliTom 主要基于注意力分数进行重要性评估和 token 选择。

现有痛点: 基于注意力的方法存在三个问题：(1) 显著性偏向导致选中的 token 之间高度冗余；(2) 倾向忽略细粒度细节；(3) 激进压缩下信息损失严重。此外 FastVid、HoliTom 需要调 5+ 超参数，DyCoke 等需修改 LLM 内部注意力层，不易跨架构迁移。

核心矛盾: 注意力高不等于信息唯一，高注意力 token 之间可能高度相似，保留它们并不能最大化信息保真度。压缩的本质应该是保留不可替代的信息，而非最显著的信息。

本文目标 在有限计算预算下，如何选择最能代表整体视觉信息的 token 子集，使得被丢弃 token 的信息可从保留 token 中重建。

切入角度: 从信息论出发，将压缩建模为最小化条件熵 \(H(\mathcal{X}|\mathcal{S})\)，推导出重建误差上界与 token 唯一性的理论联系。

核心 idea: 用余弦距离度量的"信息唯一性"替代注意力分数作为 token 重要性指标，配合贪心选择加邻域融合实现信息最优压缩。

方法详解¶

整体框架¶

UniComp 想解决的是：32 帧视频送进 MLLM 会产生数千个视觉 token，必须压掉一大半，但传统按注意力分数挑 token 会把一堆彼此相似的"显著"token 一起留下，真正不可替代的细节反而被丢。它的整条流水线接在 ViT 编码器之后、LLM 之前，把压缩拆成时序、全局、空间三个层次依次处理：先用帧组融合（Frame Group Fusion, FGF）把时间上几乎重复的帧合并成几组，再用 token 分配（Token Allocation, TA）按"哪几组信息更独特"把有限的 token 预算分下去，最后由空间动态压缩（Spatial Dynamic Compression, SDC）在每帧内部挑出最不可替代的 token、把和它们近似的邻居融合进来。三步走完，输出的压缩 token 序列直接喂给 LLM，全程不碰 LLM 内部结构。

贯穿三个模块的统一度量是"信息唯一性"——两个特征越正交（余弦相似度越低）就越唯一。整篇方法的逻辑起点是把压缩写成最小化条件熵 \(H(\mathcal{X}|\mathcal{S})\)：保留集 \(\mathcal{S}\) 要让被丢弃 token 的信息尽量能从它重建，而重建误差的上界恰好由"每个被丢 token 到保留集的最小唯一性距离"控制，于是"挑最唯一的、融合最近似的"成了有理论依据的贪心策略。三个模块的串行关系如下：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["32 帧视频 → ViT 编码器<br/>数千个视觉 token"] --> B["帧组融合（FGF）<br/>合并时序近似帧，断在语义突变处"]
    B --> C["token 分配（TA）<br/>按帧组唯一性 softmax 分预算"]
    C --> D["空间动态压缩（SDC）<br/>帧内贪心选最唯一 token + 融近邻"]
    D --> E["压缩后 token 序列 → LLM"]

关键设计¶

1. 帧组融合（Frame Group Fusion, FGF）：先把时间轴上几乎重复的帧合并掉

视频里大量相邻帧描述的是同一个静态场景，逐帧都留 token 是纯粹的时序冗余。FGF 对每帧先做 average pooling 得到一个全局描述向量，然后顺序扫描帧序列：拿当前帧和当前组的组首帧算唯一性 \(u(f_t, f_r)\)，只要 \(u(f_t, f_r) < U_f\)（够相似）就并入同一组，一旦超过阈值就另起一组；每组最后用 mean pooling 融成一个代表特征。这样静态镜头会被压成寥寥几组，而语义突变（切镜、动作发生）的地方自然断开、细粒度得以保留——压缩率随内容自适应，不需要预先指定每段留几帧。

2. token 分配（Token Allocation, TA）：把 token 预算按帧组的独特程度分下去

帧组合并之后，剩下的问题是总预算 \(\text{TOKEN}_{max}\) 该怎么摊到各组——平均分显然不对，信息更独特的组理应多拿。TA 先量化每个融合帧相对其余帧的唯一性：

\[U_t = 1 - \frac{1}{K_f}\sum_s \cos(f_t, f_s)\]

再把 \(U_t\) 做均值归一化、并乘上 \(\sqrt{K_f}\) 放大组间差异（帧组越多越要拉开差距），最后用 softmax 把它转成预算比例：

\[K_t = \left\lfloor \frac{e^{U_t}}{\sum_s e^{U_s}} \cdot \text{TOKEN}_{max} \right\rfloor\]

效果上，一段对理解视频很关键的独特画面会分到更多 token，而几乎重复的背景帧只留少量，预算被花在真正承载新信息的地方。

3. 空间动态压缩（Spatial Dynamic Compression, SDC）：在每帧内部挑出最不可替代的 token、融掉其余近似项

拿到本帧的 token 配额后，还要决定保留帧内哪些空间 token。SDC 先算出帧内 token 两两之间的唯一性矩阵，再按唯一性降序做贪心：每次选出当前最唯一的 token 收进保留集，把和它唯一性差距 \(< U_c\) 的相近 token 标记为冗余，并通过邻域融合把这些冗余 token 聚合进保留的那个里——是融合而不是直接丢弃，所以被合并 token 携带的信息不会凭空消失。这一步并非拍脑袋：它正对应最小化前面那个重建误差上界

\[\mathcal{E}(\mathcal{S}) \leq 2\sum_j \min_{i \in \mathcal{S}} u_{ij}\]

每选一个最唯一的 token 并吸收其近邻，就是在贪心地压低这个上界，因此"挑唯一 + 融近邻"这套操作本身就是在最小化信息损失，而不是注意力法那种"挑最显著"的近似目标。

一个完整示例¶

⚠️ 下面的具体数字为示例性演示（说明 token 如何逐级收缩），非原文给定，具体配置以原文为准。

设输入 32 帧、每帧 196 个视觉 token（共 6272 个），目标保留约 10%。FGF 顺序扫描发现前 12 帧是几乎静止的开场镜头、被合并成 1 组，中间动作段切成 5 组，结尾 2 组——32 帧收缩为 8 个融合帧。TA 接着算这 8 组的唯一性：动作段那几组 \(U_t\) 高、softmax 后各分到上百个 token，静止开场组 \(U_t\) 低、只分到几十个，预算被向"信息密度高"的片段倾斜。最后 SDC 在每个融合帧内贪心选 token：某动作帧从 196 个 token 里先挑出最唯一的那个，把周围 \(< U_c\) 的相似 token 融进来，重复直到填满该帧配额。三步走完，6272 个 token 收成约 600 个送进 LLM——既砍掉了时序与空间双重冗余，又保证留下的每个 token 都尽量"不可替代"。

损失函数 / 训练策略¶

UniComp 无需训练，是即插即用方法，全程只有 2 个超参数：帧组融合阈值 \(U_f\) 和空间压缩阈值 \(U_c\)，作者给的默认值可跨不同 ViT 与 LLM 直接迁移。唯一性计算用的是 ViT 最后一层注意力的 Key 特征。

实验关键数据¶

主实验（32帧输入，LLaVA-OneVision-7B）¶

方法	保留比例	LongVideoBench	EgoSchema	MLVU	VideoMME	平均	相对基线
Vanilla	100%	56.3	60.4	64.7	58.4	59.95	100%
VisionZip	25%	56.5	60.3	64.8	58.2	59.95	100%
HoliTom	25%	56.7	61.2	64.7	58.6	60.30	100.6%
UniComp	25%	57.6	61.6	65.0	58.9	60.78	101.4%
VisionZip	10%	49.3	58.0	59.7	53.4	55.10	91.9%

消融实验¶

配置	LongVideoBench	VideoMME	说明
Full UniComp	57.6	58.9	完整模型
w/o FGF	56.8	58.2	去帧组融合掉 0.8
w/o TA	57.0	58.5	去动态分配掉 0.6
w/o SDC fusion	56.5	57.8	去邻域融合掉 1.1

关键发现¶

UniComp 在 25% 保留率下超越未压缩基线（101.4%），压缩反而去除了干扰 LLM 的冗余信息
10% 保留率下仍保持约 100% 基线性能，VisionZip 降至 91.9%
即插即用，在 LLaVA-OV、LLaVA-Video、Eagle2.5 三个架构上都有效

亮点与洞察¶

信息唯一性 vs 注意力：视角转换非常精彩——注意力高的 token 可能彼此高度相似，唯一性高的 token 保证信息多样性覆盖。可视化清晰展示了两者差异
理论-实践闭环：从条件熵最小化推导出重建误差与唯一性上界联系，据此设计贪心算法，理论驱动设计优雅
压缩反超基线：暗示 LLM 处理过多视觉 token 时受冗余信息干扰，适度筛选反而有益

局限与展望¶

唯一性基于余弦距离，对方向相近但语义不同的 token 可能误判
帧组融合是顺序扫描，对闪回或非线性叙事可能处理不当
仅 2 个超参数在极端场景可能需微调

评分¶

新颖性: ⭐⭐⭐⭐⭐ 信息唯一性视角是全新理论贡献
实验充分度: ⭐⭐⭐⭐ 多模型多比例多基准，消融详细
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰，动机引人入胜
价值: ⭐⭐⭐⭐⭐ 即插即用加压缩超基线，实用学术价值兼具