跳转至

BiGain: Unified Token Compression for Joint Generation and Classification

会议: CVPR 2026
arXiv: 2603.12240
代码: https://github.com/Greenoso/BiGain
领域: 扩散模型 / 推理加速
关键词: Token Compression, 频率感知, 扩散模型分类, 拉普拉斯滤波, KV下采样

一句话总结

BiGain 提出频率感知的 token 压缩框架,通过拉普拉斯门控 token 合并(保留高频细节)和插值-外推 KV 下采样(保留查询精度),在扩散模型推理加速中首次同时优化生成质量和分类准确率。

研究背景与动机

领域现状:扩散模型的推理加速主要依赖 token 合并(ToMe)和 token 下采样(ToDo)等 training-free 方法,评估指标几乎只关注生成质量(FID)。

现有痛点:同一扩散模型越来越多地被复用做分类(通过 per-class denoising likelihood scoring),但现有压缩方法对生成影响小的操作会严重损害分类。实验发现 token 合并几乎不影响 FID 但让分类精度骤降——因为压缩优先移除的"冗余" token 恰好是分类依赖的边缘/纹理细节。

核心矛盾:生成任务依赖低/中频语义(全局结构),分类任务依赖高频细节(边缘/纹理),传统压缩只优化前者而忽视后者。

本文目标 将 token 压缩重新定义为双目标优化问题:同时保持生成保真度和判别效用。

切入角度:频率分离——通过频率感知表示将高频细节与低/中频内容解耦,实现"平衡频谱保留"的压缩。

核心 idea:用拉普拉斯滤波器区分高频和低频 token,合并低频 token 保留高频 token,同时在 KV 下采样中保持 Query 全分辨率以保留注意力精度。

方法详解

整体框架

BiGain 由两个 training-free、即插即用的算子组成,可分别或组合使用。L-GTM 在 token 合并阶段通过频率感知引导合并决策;IE-KVD 在注意力计算中通过控制 KV 下采样方式平衡频谱。两者都基于"平衡频谱保留"原则设计,适用于 DiT 和 U-Net 架构。

关键设计

  1. Laplacian-Gated Token Merging (L-GTM):

    • 功能:用拉普拉斯频率分数引导 token 合并,保留高频 token 合并低频 token
    • 核心思路:将隐藏状态 \(\mathbf{X} \in \mathbb{R}^{H \times W \times C}\) 通过拉普拉斯核 \(\mathbf{L} = [[0,1,0],[1,-4,1],[0,1,0]]\) 卷积得到频率分数 \(\mathbf{F} = \text{Reduce}_c(|\mathbf{X} * \mathbf{L}|)\)。每个网格中频率分数最低的 token 作为 destination(低频锚点),其余为 source。按相似度配对合并 top \(r\%\) 的 source-destination 对
    • 设计动机:标准 ToMe 不区分 token 的频率特性,容易合并掉边缘/纹理 token 而损害分类。L-GTM 通过拉普拉斯响应量化"高频程度",低频(平滑区域) token 被合并,高频(边缘/纹理) token 被保留
  2. Interpolate-Extrapolate KV-Downsampling (IE-KVD):

    • 功能:下采样 Key/Value 同时保持 Query 全分辨率,通过可控的插值/外推因子平衡频谱
    • 核心思路:\(\mathcal{D}_{\alpha,s}(\mathbf{Z})[i] = \alpha \cdot \mathbf{Z}[\text{nearest}(i)] + (1-\alpha) \cdot \frac{1}{|\mathcal{N}_s(i)|}\sum_j \mathbf{Z}[j]\)\(\alpha\) 控制 nearest(保留高频)和 average(保留低频)之间的平衡。\(\alpha > 1\) 时外推,放大高频;\(\alpha < 1\) 时插值,平滑高频。Query 保持全分辨率确保注意力精度
    • 设计动机:ToDo 直接用 average pooling 下采样 KV 丢失高频信息。保留 Q 全分辨率让每个输出 token 的感受野不变,对分类的 per-token 评分至关重要
  3. 与 Diffusion Classifier 的兼容性:

    • 功能:确保压缩方法与基于扩散的分类决策规则兼容
    • 核心思路:两个算子都是 timestep-local 和确定性的,不依赖跨时间步缓存。所有类收到相同的 \((t_s, \epsilon_s)\) 和相同的压缩调度,paired-difference 估计器保持有效
    • 设计动机:基于缓存的加速方法(如跨 timestep 特征复用)与扩散分类器不兼容,因为分类需要对每个类独立评分

损失函数 / 训练策略

Training-free 方法,无需训练。直接在预训练的 Stable Diffusion 2.0 和 DiT-XL/2 上即插即用。

实验关键数据

主实验(SD-2.0,Pets 数据集,相似 FLOPs 缩减下)

方法 加速类型 FLOPs 缩减 分类 Acc@1 vs Baseline
Baseline (无加速) 81.03%
ToMe Token 合并 10% 72.96% ↓8.07
SiTo Token 合并 7% 68.84% ↓12.19
BiGain_TM (Ours) Token 合并 10% 78.38% ↓2.65
ToDo Token 下采样 14.2% 79.15% ↓1.88
BiGain_TD (Ours) Token 下采样 14.2% 79.90% ↓1.13

消融实验(ImageNet-1K,SD-2.0,70% token 合并率)

配置 Acc@1 (%) FID 说明
ToMe (baseline) 37.40 18.38 合并无频率感知
+ Laplacian gating 41.90 18.04 分类+7.15%,FID也改善0.34
ToDo (baseline) 67.78 15.93 KV 平均下采样
+ IE-KVD (ours) 72.88 15.46 分类+5.10%,FID也改善

关键发现

  • 频率感知是关键:去掉拉普拉斯门控后分类精度大幅退化,证实高频保留对分类至关重要
  • 生成和分类可以双赢:BiGain 在提升分类的同时 FID 也略有改善(ImageNet-1K 上 0.34/1.85%),因为保留边缘/纹理也有助于生成细节
  • Query 保留全分辨率是核心:下采样 Q 和 KV 一起会破坏注意力精度,导致分类和生成双输

亮点与洞察

  • 问题发现有价值:token 压缩对分类和生成的影响不对称这一观察很重要,指出了"看着好看不等于分得准"的gap
  • 设计原则简洁有力:平衡频谱保留(balanced spectral retention)是一个可复用的设计规则
  • 完全 training-free:即插即用无需重新训练,实用性高

局限与展望

  • 拉普拉斯核是固定的 3×3,可能不适合所有尺度的特征
  • 在极端压缩率(>80%)下分类和生成都有明显退化
  • 仅在分类任务上验证判别能力,未扩展到检测/分割
  • IE-KVD 的 \(\alpha\) 参数需要按任务调节(生成和分类用不同值)

相关工作与启发

  • vs ToMe/ToMeSD: 直接在嵌入相似度上合并 token,不区分频率特性,对分类损害大
  • vs ToDo: 用 average pooling 下采样 KV,丢失高频;BiGain 通过可控 interextrapolation 保留
  • vs Diff-Pruning/DiP-GO: 这些是模型剪枝方法,改变模型结构,而 BiGain 是 training-free 的 token 级操作

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将扩散模型压缩定义为生成+分类双目标问题
  • 实验充分度: ⭐⭐⭐⭐ 多模型(DiT/UNet) × 多数据集 × 多任务验证
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,频率分析视角独特
  • 价值: ⭐⭐⭐⭐ 对部署双用途扩散模型有直接指导意义