跳转至

📦 模型压缩

🎞️ ECCV2024 · 31 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (42) · 📷 CVPR2026 (57) · 🔬 ICLR2026 (92) · 🤖 AAAI2026 (54) · 🧠 NeurIPS2025 (137) · 📹 ICCV2025 (48)

🔥 高频主题: 压缩/编码 ×7 · 模型压缩 ×6 · 知识蒸馏 ×2

A Simple Low-bit Quantization Framework for Video Snapshot Compressive Imaging

首个面向视频快照压缩成像(Video SCI)重建任务的低比特量化框架Q-SCI,通过高质量特征提取模块、精确视频重建模块和Transformer分支的query/key分布偏移操作,在4-bit量化下实现7.8倍理论加速且性能仅下降2.3%。

Adaptive Compressed Sensing with Diffusion-Based Posterior Sampling

本文提出 AdaSense,利用预训练扩散模型的零样本后验采样能力来量化重建不确定性,从而自适应地选择最优测量矩阵,在人脸图像、MRI 和 CT 等多个领域实现了无需额外训练的自适应压缩感知,性能超越非自适应方法甚至基于 PCA 的最优非自适应方案。

Adaptive Selection of Sampling-Reconstruction in Fourier Compressed Sensing

本文提出"自适应选择采样-重建对"(\(\mathcal{H}_{1.5}\))框架,利用超分辨率空间生成模型量化高频贝叶斯不确定性,为每个输入数据选择最佳的采样掩码-重建网络对,在理论和实验上同时优于非自适应联合优化方法(\(\mathcal{H}_1\))和自适应采样方法(\(\mathcal{H}_2\)),在人脸图像和多线圈 MRI 重建中取得显著 SSIM 提升。

Adversarially Robust Distillation by Reducing the Student-Teacher Variance Gap

本文提出了一种基于特征分布统计对齐的对抗鲁棒知识蒸馏方法,通过减小 student 和 teacher 模型在对抗样本和干净样本之间的特征方差差距(variance gap)来提升 student 模型的对抗鲁棒性,发现鲁棒精度与方差差距存在强负相关线性关系。

AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation

提出 AnimatableDreamer,通过 Canonical Score Distillation (CSD) 技术,从单目视频提取骨骼和运动后生成文本引导的可动画化 3D 非刚体模型,在生成质量和时序一致性上全面超越现有方法。

Anytime Continual Learning for Open Vocabulary Classification

提出 AnytimeCL 框架,通过部分微调 CLIP 最后一个 transformer block 并动态加权融合微调模型与原始模型的预测,实现任意时刻接收样本、任意标签集推理的开放词汇持续学习。

Auto-DAS: Automated Proxy Discovery for Training-free Distillation-aware Architecture Search

本文提出 Auto-DAS,一个基于进化算法的自动化代理发现框架,用于免训练的蒸馏感知架构搜索(DAS),通过在由学生内在统计量和师生交互统计量构成的搜索空间中自动发现最优代理指标,避免了手工设计代理的局限性,在 ResNet、ViT、NAS-Bench-101/201 等多种架构和搜索空间上达到了 SOTA 的排序相关性和搜索精度。

BaSIC: BayesNet Structure Learning for Computational Scalable Neural Image Compression

本文提出 BaSIC 框架,通过学习神经图像压缩(NIC)系统的贝叶斯网络结构,同时控制骨干网络复杂度和自回归单元的并行计算能力,首次实现了对 NIC 全流程的计算可扩展性控制。

Bi-TTA: Bidirectional Test-Time Adapter for Remote Physiological Measurement

提出 Bi-TTA 框架,首次将 Test-Time Adaptation 引入远程光电容积脉搏波 (rPPG) 任务,通过时空一致性自监督先验和前瞻-回溯双向适应策略,在推理时仅用无标注单实例数据即可完成模型域适应。

Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model

提出双向对称的立体图像压缩框架 BiSIC,采用 3D 卷积联合编解码器和跨维度熵模型,在 PSNR 和 MS-SSIM 上均超越传统标准和已有学习方法,同时消除了单向方法中左右视图压缩质量不平衡的问题。

Category Adaptation Meets Projected Distillation in Generalized Continual Category Discovery

提出 CAMP 方法,通过可学习投影器蒸馏与类别中心适应网络的协同组合,在广义持续类别发现(GCCD)场景中显著提升了新类别学习与旧知识保持之间的平衡。

ELSE: Efficient Deep Neural Network Inference through Line-based Sparsity Exploration

提出基于行稀疏性探索的事件抑制方法ELSE,利用激活图中相邻行的空间相关性来减少非零激活(事件)数量,在目标检测和姿态估计任务上实现3.14~6.49倍的计算节省,且可与现有事件抑制方法互补。

FreestyleRet: Retrieving Images from Style-Diversified Queries

提出首个风格多样化查询图像检索(Style-Diversified QBIR)任务及数据集DSR,设计了轻量即插即用的FreestyleRet框架,通过Gram矩阵提取查询的纹理/风格特征,构建风格空间并以此初始化prompt token,使冻结的视觉编码器能适配文本、草图、低分辨率、艺术画等多种查询风格的检索。

GenQ: Quantization in Low Data Regimes with Generative Synthetic Data

提出 GenQ,首次利用 Stable Diffusion 生成的高质量合成数据进行神经网络量化,通过能量分数过滤和BN分布过滤两种机制确保合成数据的分布对齐,在无数据和少数据量化场景下大幅超越现有方法,4-bit QAT ResNet-50 在ImageNet上达到76.10%准确率。

Implicit Style-Content Separation using B-LoRA

提出 B-LoRA,通过分析 SDXL 架构发现仅联合训练两个特定 transformer block 的 LoRA 权重(Block 4 控制内容、Block 5 控制风格)即可隐式实现单张图片的风格-内容分离,支持风格迁移、文本风格化、一致风格生成等多种任务。

Improving Knowledge Distillation via Regularizing Feature Direction and Norm

提出 ND 损失函数,通过同时对齐学生特征方向至教师类均值方向并鼓励学生产生大范数特征,显著提升了现有知识蒸馏方法在 ImageNet、CIFAR100 和 COCO 上的性能。

Improving Zero-Shot Generalization for CLIP with Variational Adapter

提出 Prompt-based Variational Adapter (PVA),通过变分适配器将 base 和 novel 类别样本在隐空间中分离,采用分治策略分别处理,结合残差连接增强 novel 类别的迁移能力,在广义零样本学习和跨数据集迁移学习基准上达到 SOTA。

Isomorphic Pruning for Vision Models

提出 Isomorphic Pruning,通过将网络子结构建模为图并按图同构性分组,在同构组内独立排序剪枝,解决异构子结构间重要性不可比的问题,在 ViT 和 CNN 上均取得优于专门设计的剪枝方法的效果。

Lagrangian Hashing for Compressed Neural Field Representations

将InstantNGP的欧拉网格哈希表与拉格朗日点云表示相结合,在哈希桶中存储可移动的高斯特征点,实现参数量减少1.8-2.8倍但重建质量不降的紧凑神经场表示。

Leveraging Hierarchical Feature Sharing for Efficient Dataset Condensation

提出层级记忆网络(HMN),将数据蒸馏中的合成数据存储为三层结构(数据集级-类级-实例级记忆),通过层级化特征共享提升存储效率,并利用实例级剪枝进一步去除冗余,仅用低GPU内存的 batch-based loss 即超越所有基线方法。

MetaAug: Meta-Data Augmentation for Post-Training Quantization

提出 MetaAug,一种基于元学习的训练后量化(PTQ)方法,通过可学习的变换网络对校准数据进行增强,并以双层优化框架同时优化变换网络和量化模型,有效缓解 PTQ 在小校准集上的过拟合问题。

PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference

提出 PaPr,利用轻量级 ConvNet 的卷积特征图生成 Patch Significance Map (PSM),在无需重训练的情况下对 ViT/ConvNet/混合架构进行一步式 patch 剪枝,实现显著的计算量削减(视频场景最高 3.7× FLOPs 减少),且精度损失极小。

PQ-SAM: Post-training Quantization for Segment Anything Model

本文提出PQ-SAM,首个专为Segment Anything Model定制的训练后量化方法,通过分组激活分布变换(GADT)和两阶段异常值层次聚类(OHC)方案解决SAM的高度不对称激活分布和有害异常值问题,将4-bit量化的SAM推进到可用水平。

PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation

提出PYRA方法同时实现训练高效和推理高效的任务适配,通过并行生成通道和token维度的自适应调制权重,在token合并前对特征进行re-activation校准,在ViT-L/16上1.7×加速仅掉0.1%精度、3×加速下消除"逆向压缩"现象。

SiLC: Improving Vision Language Pretraining with Self-Distillation

提出SiLC框架,在CLIP式图文对比学习中加入局部到全局的自蒸馏,显著提升密集预测任务(检测、分割)的性能,同时改善分类和检索。

Simple Unsupervised Knowledge Distillation With Space Similarity

CoSS 提出在无监督知识蒸馏中,除了常规的特征维度余弦相似度外,额外引入一个空间维度余弦相似度(Space Similarity)损失——将特征矩阵转置后在维度方向上对齐,从而弥补 \(L_2\) 归一化导致的流形结构信息丢失,以极简的方式在多个 UKD benchmark 上达到 SOTA。

SpaceJAM: a Lightweight and Regularization-free Method for Fast Joint Alignment of Images

提出 SpaceJAM,一种仅约 16K 可训练参数的无监督图像联合对齐方法,无需正则化项或 atlas 维护,在 SPair-71K 和 CUB 数据集上匹配现有方法的对齐能力同时实现 10 倍以上加速。

Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning

提出 ToCom(Token Compensator),一个模型算术框架的轻量插件,通过快速的参数高效自蒸馏获得,可在推理时直接插入任意下游已训练模型以弥补 token 压缩度不匹配造成的性能损失,无需重新训练。

Uncertainty-Driven Spectral Compressive Imaging with Spatial-Frequency Transformer

本文提出 Specformer,通过并行的空间局部窗口自注意力(LWSA)和频率域自注意力(FWSA)模块充分捕获高光谱图像(HSI)的空间稀疏性和光谱间相似性先验,并引入不确定性驱动的损失函数增强网络对纹理丰富和边缘区域的重建能力,在模拟和真实 HSI 数据集上以更低计算量超越 SOTA。

UNIC: Universal Classification Models via Multi-teacher Distillation

提出UNIC框架,通过改进的多教师蒸馏策略(包括梯形投影器和教师丢弃技术),将多个互补预训练模型的知识融合到单一学生模型中,实现跨任务的通用分类。

ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs

ZipLoRA 提出了一种廉价高效的 LoRA 合并方法,通过学习逐列合并系数并最小化列间余弦相似度,实现了将独立训练的主题 LoRA 和风格 LoRA 无超参数合并,在扩散模型中生成"任意主题 × 任意风格"的个性化图像。