BiGain: Unified Token Compression for Joint Generation and Classification¶

会议: CVPR 2026
arXiv: 2603.12240
代码: https://github.com/Greenoso/BiGain
领域: 扩散模型 / 推理加速
关键词: Token Compression, 频率感知, 扩散模型分类, 拉普拉斯滤波, KV下采样

一句话总结¶

BiGain 提出频率感知的 token 压缩框架，通过拉普拉斯门控 token 合并（保留高频细节）和插值-外推 KV 下采样（保留查询精度），在扩散模型推理加速中首次同时优化生成质量和分类准确率。

研究背景与动机¶

领域现状：扩散模型的推理加速主要依赖 token 合并（ToMe）和 token 下采样（ToDo）等 training-free 方法，评估指标几乎只关注生成质量（FID）。

现有痛点：同一扩散模型越来越多地被复用做分类（通过 per-class denoising likelihood scoring），但现有压缩方法对生成影响小的操作会严重损害分类。实验发现 token 合并几乎不影响 FID 但让分类精度骤降——因为压缩优先移除的"冗余" token 恰好是分类依赖的边缘/纹理细节。

核心矛盾：生成任务依赖低/中频语义（全局结构），分类任务依赖高频细节（边缘/纹理），传统压缩只优化前者而忽视后者。

本文目标 将 token 压缩重新定义为双目标优化问题：同时保持生成保真度和判别效用。

切入角度：频率分离——通过频率感知表示将高频细节与低/中频内容解耦，实现"平衡频谱保留"的压缩。

核心 idea：用拉普拉斯滤波器区分高频和低频 token，合并低频 token 保留高频 token，同时在 KV 下采样中保持 Query 全分辨率以保留注意力精度。

方法详解¶

整体框架¶

BiGain 由两个 training-free、即插即用的算子组成，可分别或组合使用。L-GTM 在 token 合并阶段通过频率感知引导合并决策；IE-KVD 在注意力计算中通过控制 KV 下采样方式平衡频谱。两者都基于"平衡频谱保留"原则设计，适用于 DiT 和 U-Net 架构。

关键设计¶

Laplacian-Gated Token Merging (L-GTM):
- 功能：用拉普拉斯频率分数引导 token 合并，保留高频 token 合并低频 token
- 核心思路：将隐藏状态 \(\mathbf{X} \in \mathbb{R}^{H \times W \times C}\) 通过拉普拉斯核 \(\mathbf{L} = [[0,1,0],[1,-4,1],[0,1,0]]\) 卷积得到频率分数 \(\mathbf{F} = \text{Reduce}_c(|\mathbf{X} * \mathbf{L}|)\)。每个网格中频率分数最低的 token 作为 destination（低频锚点），其余为 source。按相似度配对合并 top \(r\%\) 的 source-destination 对
- 设计动机：标准 ToMe 不区分 token 的频率特性，容易合并掉边缘/纹理 token 而损害分类。L-GTM 通过拉普拉斯响应量化"高频程度"，低频（平滑区域） token 被合并，高频（边缘/纹理） token 被保留
Interpolate-Extrapolate KV-Downsampling (IE-KVD):
- 功能：下采样 Key/Value 同时保持 Query 全分辨率，通过可控的插值/外推因子平衡频谱
- 核心思路：\(\mathcal{D}_{\alpha,s}(\mathbf{Z})[i] = \alpha \cdot \mathbf{Z}[\text{nearest}(i)] + (1-\alpha) \cdot \frac{1}{|\mathcal{N}_s(i)|}\sum_j \mathbf{Z}[j]\)，\(\alpha\) 控制 nearest（保留高频）和 average（保留低频）之间的平衡。\(\alpha > 1\) 时外推，放大高频；\(\alpha < 1\) 时插值，平滑高频。Query 保持全分辨率确保注意力精度
- 设计动机：ToDo 直接用 average pooling 下采样 KV 丢失高频信息。保留 Q 全分辨率让每个输出 token 的感受野不变，对分类的 per-token 评分至关重要
与 Diffusion Classifier 的兼容性:
- 功能：确保压缩方法与基于扩散的分类决策规则兼容
- 核心思路：两个算子都是 timestep-local 和确定性的，不依赖跨时间步缓存。所有类收到相同的 \((t_s, \epsilon_s)\) 和相同的压缩调度，paired-difference 估计器保持有效
- 设计动机：基于缓存的加速方法（如跨 timestep 特征复用）与扩散分类器不兼容，因为分类需要对每个类独立评分

损失函数 / 训练策略¶

Training-free 方法，无需训练。直接在预训练的 Stable Diffusion 2.0 和 DiT-XL/2 上即插即用。

实验关键数据¶

主实验（SD-2.0，Pets 数据集，相似 FLOPs 缩减下）¶

方法	加速类型	FLOPs 缩减	分类 Acc@1	vs Baseline
Baseline (无加速)	—	—	81.03%	—
ToMe	Token 合并	10%	72.96%	↓8.07
SiTo	Token 合并	7%	68.84%	↓12.19
BiGain_TM (Ours)	Token 合并	10%	78.38%	↓2.65
ToDo	Token 下采样	14.2%	79.15%	↓1.88
BiGain_TD (Ours)	Token 下采样	14.2%	79.90%	↓1.13

消融实验（ImageNet-1K，SD-2.0，70% token 合并率）¶

配置	Acc@1 (%)	FID	说明
ToMe (baseline)	37.40	18.38	合并无频率感知
+ Laplacian gating	41.90	18.04	分类+7.15%，FID也改善0.34
ToDo (baseline)	67.78	15.93	KV 平均下采样
+ IE-KVD (ours)	72.88	15.46	分类+5.10%，FID也改善

关键发现¶

频率感知是关键：去掉拉普拉斯门控后分类精度大幅退化，证实高频保留对分类至关重要
生成和分类可以双赢：BiGain 在提升分类的同时 FID 也略有改善（ImageNet-1K 上 0.34/1.85%），因为保留边缘/纹理也有助于生成细节
Query 保留全分辨率是核心：下采样 Q 和 KV 一起会破坏注意力精度，导致分类和生成双输

亮点与洞察¶

问题发现有价值：token 压缩对分类和生成的影响不对称这一观察很重要，指出了"看着好看不等于分得准"的gap
设计原则简洁有力：平衡频谱保留（balanced spectral retention）是一个可复用的设计规则
完全 training-free：即插即用无需重新训练，实用性高

局限与展望¶

拉普拉斯核是固定的 3×3，可能不适合所有尺度的特征
在极端压缩率（>80%）下分类和生成都有明显退化
仅在分类任务上验证判别能力，未扩展到检测/分割
IE-KVD 的 \(\alpha\) 参数需要按任务调节（生成和分类用不同值）

评分¶

新颖性: ⭐⭐⭐⭐ 首次将扩散模型压缩定义为生成+分类双目标问题
实验充分度: ⭐⭐⭐⭐ 多模型(DiT/UNet) × 多数据集 × 多任务验证
写作质量: ⭐⭐⭐⭐ 动机清晰，频率分析视角独特
价值: ⭐⭐⭐⭐ 对部署双用途扩散模型有直接指导意义