OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models¶
会议: ICML 2026
arXiv: 2602.04804
代码: https://github.com/dingyue772/OmniSIFT
领域: 多模态 VLM / 视频理解 / 模型压缩
关键词: Omni-LLM、Token 压缩、视频-音频理解、时空剪枝、视觉引导
一句话总结¶
本文指出现有 Omni-LLM token 压缩方法对音频和视频"对称"处理是次优的,提出 OmniSIFT——先用时空显著性剪掉视频冗余得到"视觉锚点",再用这些锚点引导音频选择的两阶段非对称压缩框架,仅引入 4.85M 额外参数就在 Qwen2.5-Omni-7B 上保留 25% token 时一致超过现有压缩基线甚至原模型。
研究背景与动机¶
领域现状:Omni-LLM(Qwen2.5-Omni、GPT-4o、Gemini)把视频、音频、文本统一进自回归 LLM 做联合推理。但视频是高密度连续帧、音频要高时间分辨率编码,一个 20 秒的多模态 clip 就能产生 20K+ token,长 token 序列让推理算力代价爆炸。
现有痛点:视觉中心 MLLM 已有大量 token 压缩研究(FastV、VidCom2、TimeChat-Online 等),但直接迁移到 Omni-LLM 不可行。现有 Omni 压缩方法可分两派:(1)modality-decoupled——音视频独立压缩,完全忽略跨模态语义依赖;(2)modality-symmetric——OmniZip 用音频注意力分数指导视频剪枝(依赖注意力分数让它和 FlashAttention 不兼容),EchoingPixels 加 4 个 LLM 解码层做全局跨模态上下文化(代价大、压缩延后)。两者都把音视频当成等量级信息源。
核心矛盾:人类感知音视频本来就是非对称的——视频冗余可以从视觉流内部估算(帧内空间冗余 + 帧间时间冗余),但音频显著性更依赖上下文,往往需要视觉场景作为语义锚点(可见的说话人、有视觉支撑的事件)。把两个模态对称处理实际上把压缩任务塌缩成"选时间位置"而忽略了模态特有的语义线索。
本文目标:(1)让压缩遵循视觉引导的非对称范式;(2)保持轻量级(额外参数 ≪ 主干);(3)和 FlashAttention 等高效算子兼容(不依赖注意力分数)。
切入角度:先用纯结构信号(cosine 距离)剪掉视频冗余,得到一组紧凑的"视觉锚点",再用这些锚点指导音频 token 的选择。这样视频压缩用模态内部信号,音频压缩用跨模态条件,分工明确。
核心 idea:modality-asymmetric, vision-guided 两阶段压缩——STVP(Spatio-Temporal Video Pruning)做帧内空间显著性 + 帧间时间显著性的双轴剪枝,VGAS(Vision-Guided Audio Selector)用剪枝后的视觉锚点做条件来选音频 token。
方法详解¶
整体框架¶
输入:视频 \(\mathcal{V}\) 和同步音频 \(\mathcal{A}\),经 Qwen2.5-Omni 的编码器-投影器映射成 token 序列 \(\mathbf{Z}_v \in \mathbb{R}^{N_v \times D}\) 和 \(\mathbf{Z}_a \in \mathbb{R}^{N_a \times D}\)。为保持时间对齐,按 2 秒一个 chunk 把音视频 token 分块成 \(\mathcal{C}_t = [\mathbf{Z}_v^{(t)}; \mathbf{Z}_a^{(t)}]\),每个 chunk 含 2 帧视觉 + 对应音频。OmniSIFT 在 chunk 级别串行执行两阶段:(1)STVP 剪掉每个 chunk 的视觉冗余得到压缩视觉序列 \(\hat{\mathbf{Z}}_v^{(t)}\);(2)VGAS 用 \(\hat{\mathbf{Z}}_v^{(t)}\) 作为条件从 \(\mathbf{Z}_a^{(t)}\) 中选音频 token。整个框架端到端可导(用 straight-through estimator 处理 top-k 选择),训练时优化 token 选择能尽量保留下游任务性能。
关键设计¶
-
STVP:帧内空间 + 帧间时间双轴显著性剪枝:
- 功能:在每个 2 秒 chunk 内剪掉视频 token 的两类冗余——同一帧中与全局背景相似的 patch(空间冗余),以及相邻帧中相对前一帧无变化的 patch(时间冗余)。
- 核心思路:把 chunk 内两帧分开处理。第一帧 \(\mathbf{F}_1^{(t)}\) 做空间显著性——先 mean-pool 出帧表征 \(\bar{\mathbf{v}}_1^{(t)} = \frac{1}{n_p}\sum_i \mathbf{v}_{1,i}^{(t)}\),每个 token 的空间得分是它和均值的 cosine 距离 \(s_{1,i}^{(t)} = 1 - \frac{\mathbf{v}_{1,i}^{(t)} \cdot \bar{\mathbf{v}}_1^{(t)}}{\|\mathbf{v}_{1,i}^{(t)}\|\|\bar{\mathbf{v}}_1^{(t)}\|}\)——分高的是"和背景最不同"的 patch。第二帧 \(\mathbf{F}_2^{(t)}\) 做时间显著性——利用位置编码做一一对应,得分是它和第一帧同位置 token 的 cosine 距离 \(s_{2,i}^{(t)} = 1 - \frac{\mathbf{v}_{2,i}^{(t)} \cdot \mathbf{v}_{1,i}^{(t)}}{\|\mathbf{v}_{2,i}^{(t)}\|\|\mathbf{v}_{1,i}^{(t)}\|}\)——分高的是"动起来的"区域。两帧各按视觉保留比 \(\alpha_v = 1 - \rho_v\) 选 top-\(\hat{n}_p = \alpha_v n_p\),拼接得到 \(\hat{\mathbf{Z}}_v^{(t)} = [\hat{\mathbf{F}}_1^{(t)}; \hat{\mathbf{F}}_2^{(t)}]\)。
- 设计动机:纯用 cosine 距离做显著性可以避开注意力分数,与 FlashAttention 兼容;两帧分别用空间/时间标准是为了避免双轴混合时互相干扰——第一帧关注"这帧有什么独特内容",第二帧关注"这一秒发生了什么变化"。
-
VGAS:视觉锚点引导的音频 token 选择:
- 功能:用 STVP 剪枝后保留的视觉 token 作为查询条件,从原始音频 token 中选出和当前视觉场景最相关的子集。
- 核心思路:把 \(\hat{\mathbf{Z}}_v^{(t)}\) 当作"视觉锚点池",对每个音频 token \(\mathbf{Z}_a^{(t)}\) 计算它与所有视觉锚点的相关性分数,按 \(\alpha_a\) 比例选 top-k。这一阶段是非对称设计的核心——音频显著性不靠音频自身的内部信号(如 OmniZip 用的音频注意力),而完全条件于视觉场景。
- 设计动机:作者引用心理学/感知科学证据(Koppen 2008, Zhao 2018)证明人类处理音视频本就不对称——视频内部冗余可估,音频显著性依赖视觉锚点(说话人是否可见、事件是否有视觉支撑)。这意味着对 Omni-LLM 的有效 token 压缩应该是"视觉引导"而非对称对待两个模态。
-
STE 端到端微调与轻量参数预算:
- 功能:让 STVP 和 VGAS 的 top-k 选择可导,在不重训主干 LLM 的前提下端到端优化整个压缩管线。
- 核心思路:top-k 操作在反向是离散不可导的,用 straight-through estimator——前向走硬选择,反向用 soft 分数做梯度直通。整个模块只引入 4.85M 额外参数(对比 Qwen2.5-Omni-7B 的 7B),训练时冻结主干仅训压缩模块。推理时延迟比 training-free 基线 OmniZip 还低,因为不需要算 attention 分数。
- 设计动机:与 EchoingPixels 加 4 个 LLM 解码层做全局上下文化对比,OmniSIFT 的 4.85M 是真正的"轻量插件",不会让推理路径变长。STE 是处理离散选择的成熟工程方案,且和 FlashAttention 完全兼容。
损失函数 / 训练策略¶
保留下游任务损失(标准 next-token prediction),冻结 Qwen2.5-Omni 主干,只训 OmniSIFT 模块的可学参数。压缩率 \(\rho_v, \rho_a\) 是超参,论文主要测 35% 和 25% 保留比例两档。
实验关键数据¶
主实验¶
在 5 个音视频基准(WorldSense、OmniVideoBench、VideoMME 三个子集、video-SALMONN-2 testset、DailyOmni)上对比 OmniZip、Random、DyCoke 三个压缩基线和满 token 模型。主干模型 Qwen2.5-Omni-7B / Qwen2.5-Omni-3B。
Qwen2.5-Omni-7B 在 25% 保留比例下的对比:
| 方法 | 保留率 | WorldSense ↑ | OmniVideoBench ↑ | VideoMME Avg ↑ | video-SALMONN-2 Total ↓ |
|---|---|---|---|---|---|
| Full Tokens | 100% | 49.7 | 35.6 | 67.6 | 48.1 |
| OmniZip | 25% | 48.1 | 34.1 | 66.0 | 57.2 |
| Random | 25% | 47.1 | 32.6 | 66.1 | 56.9 |
| DyCoke | 25% | 48.1 | 34.1 | 65.9 | 56.3 |
| OmniSIFT | 25% | 49.9 | 35.4 | 68.2 | 51.2 |
Qwen2.5-Omni-7B 在 35% 保留比例下,OmniSIFT 的 WorldSense (50.0)、OmniVideoBench (35.6)、VideoMME Avg (68.3) 都达到或超过满 token 基线(49.7 / 35.6 / 67.6)。
消融实验¶
论文报告了 Qwen2.5-Omni-3B 的对照(小模型上 OmniSIFT 优势同样保持):
| 方法 | 保留率 | WorldSense ↑ | OmniVideoBench ↑ | video-SALMONN-2 Total ↓ |
|---|---|---|---|---|
| Full Tokens | 100% | 45.8 | 33.5 | 53.6 |
| OmniZip | 25% | 43.8 | 32.4 | 62.1 |
| OmniSIFT | 25% | 45.8 | 33.1 | 58.3 |
额外参数与延迟:OmniSIFT 仅引入 4.85M 参数(远低于 EchoingPixels 加 4 个解码层),且推理延迟低于 training-free 的 OmniZip,因为不需要计算注意力分数。
关键发现¶
- 25% 保留比例下超过满 token 模型:在 WorldSense 和 VideoMME Avg 上甚至超过 Full Tokens 基线(49.9 vs 49.7、68.2 vs 67.6),说明大部分 token 其实是冗余甚至有害的,去掉反而提升信噪比。
- 非对称 > 对称:和 OmniZip(对称模式的 SOTA)的差距在所有基准上一致存在(25% 保留率下 WorldSense +1.8、video-SALMONN-2 Total -6.0),证实视觉引导音频是更优范式。
- 跨模型尺寸保持:在 7B 和 3B 主干上压缩收益都保持,说明方法对模型规模不敏感。
- video-SALMONN-2 的幻觉指标改善明显:Total(Miss + Hal)从 OmniZip 的 57.2 降到 OmniSIFT 的 51.2,说明保留正确的视觉-音频对齐 token 还能减少模型幻觉。
亮点与洞察¶
- 从感知科学反推压缩范式:作者从人类视听处理的不对称性出发设计非对称压缩,这种"先理解人是怎么做的再做工程"的思路在 Omni-LLM 这种新兴方向上非常值得借鉴。
- 避开 attention 分数依赖:纯用 cosine 距离做显著性,让方法和 FlashAttention 兼容——这是工程上很有价值的设计选择,OmniZip 这条路被注意力分数依赖锁死。
- 轻量 4.85M 参数 + 低延迟:在压缩方法普遍要么加大解码层(EchoingPixels)要么算 attention 开销(OmniZip)的背景下,OmniSIFT 提供了真正的"插件级"方案。
- "少而精"超过 "多而冗":25% token 超过 100% token 这个反直觉结果说明 Omni 输入序列里相当一部分 token 是噪声,未来工作可以更激进探索更高压缩率。
- 空间/时间显著性分两帧处理:避免在单帧上同时考虑两轴互相干扰,是一个简单但有效的工程技巧。
局限与展望¶
- 2 秒固定 chunk 粒度:硬绑定 Qwen2.5-Omni 的对齐粒度,对其他 Omni-LLM(不同 chunk size)需要重新调参,可移植性有限。
- 每个 chunk 仅 2 帧的假设:长视频快速运动场景下,2 帧不足以捕获完整动态;论文没讨论可变帧率或自适应 chunk 切分。
- VGAS 的具体跨模态相关性计算:论文摘要描述比较抽象,需要看代码才能完全确认是 cosine 相似度还是更复杂的注意力机制,可解释性有提升空间。
- 音频引导视觉的反向场景:在"听觉为主,视觉为辅"的场景(如只听音乐看 album cover),单向视觉引导是否依然最优值得研究。
- 训练数据和泛化:论文没明说在哪些数据上训 OmniSIFT 模块,跨域泛化(新任务、新数据集)的稳定性还需更多实验。
相关工作与启发¶
- vs OmniZip(modality-symmetric):OmniZip 用音频注意力做对称压缩,OmniSIFT 用 cosine 显著性做非对称压缩——所有 5 个基准都更优,且兼容 FlashAttention。
- vs EchoingPixels(modality-symmetric):EP 加 4 层 LLM 解码器做全局上下文化,代价大且压缩延后;OmniSIFT 用 4.85M 参数前置压缩,工程友好得多。
- vs FASTAV / DyCoke:这些方法主要在 LLM 推理阶段做音视频剪枝;OmniSIFT 在 LLM 输入前压缩,可以独立部署。
- vs 视觉中心方法(VidCom2 / TimeChat-Online):这些方法只处理视觉流;OmniSIFT 把视觉方法的洞察(空间冗余 + 时间冗余)做了具体实现,并扩展到音频引导。
- vs 视觉 token 压缩通用研究(FastV、PruMerge 等):这些工作奠定了"基于结构信号剪 token"的范式;OmniSIFT 是这条线在 Omni 模型上的自然延伸。
评分¶
- 新颖性: ⭐⭐⭐⭐ 非对称压缩的思路明确反对了之前对称范式,cosine 显著性 + 视觉引导音频的组合在 Omni-LLM 上是新设计。
- 实验充分度: ⭐⭐⭐⭐ 5 个基准 + 2 种模型尺寸 + 多压缩率,参数和延迟对比也清晰;可惜没和 EchoingPixels 直接对比。
- 写作质量: ⭐⭐⭐⭐ 三段式设计原则 → 双阶段架构 → 实验链条非常清楚,公式记号工整。
- 价值: ⭐⭐⭐⭐ 对 Omni-LLM 部署是实用插件——4.85M 参数 + 兼容 FlashAttention + 25% token 不掉点,工业价值高。