跳转至

📦 模型压缩

📷 CVPR2025 · 58 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (42) · 📷 CVPR2026 (57) · 🔬 ICLR2026 (92) · 🤖 AAAI2026 (54) · 🧠 NeurIPS2025 (137) · 📹 ICCV2025 (48)

🔥 高频主题: 压缩/编码 ×11 · 模型压缩 ×6 · 持续学习 ×4 · 少样本学习 ×3

Adapter Merging with Centroid Prototype Mapping for Scalable Class-Incremental Learning

提出ACMap框架,通过将每个任务独立训练的adapter增量平均合并为单一adapter(保持O(1)推理复杂度),结合centroid prototype mapping对齐旧任务原型在新子空间中的表示,在5个基准上实现与SOTA EASE相当的精度同时推理速度快39倍。

Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks

提出基于交替梯度流(AGF)的统一效用度量,将特征空间总变差作为结构化剪枝指标,并结合置信度级联路由实现离线拓扑构建与在线动态推理的解耦,在ImageNet-1K极端压缩下避免传统指标导致的结构崩溃,在ImageNet-100动态推理中以0.92x计算代价匹配全模型精度。

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

首次提出JPEG XS帧内模式复制(IPC)中位移向量(DV)搜索模块的FPGA架构实现,采用四级流水线设计和优化的存储组织方式,在Xilinx Artix-7上实现38.3 Mpixels/s吞吐量和277 mW功耗,为IPC实际硬件部署和ASIC转化奠定基础。

ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation

提出ARCHE端到端学习型图像压缩框架,在统一概率架构中整合分层Hyperprior、掩码空间自回归上下文、通道条件化和SE激励通道重校准,无需Transformer或循环组件,在Kodak上相对Ballé基线BD-Rate降低约48%,相对VVC Intra降低约5.6%,仅95M参数和222ms解码时间。

AutoSSVH: Exploring Automated Frame Sampling for Efficient Self-Supervised Video Hashing

提出AutoSSVH方法,通过对抗式自动帧采样网络(Grade-Net)选择最具挑战性的帧子集作为训练信号,并设计P2Set(Point-to-Set)哈希对比学习范式,实现了高效的自监督视频哈希检索,在UCF101和HMDB51上大幅超越现有方法。

BHViT: Binarized Hybrid Vision Transformer

针对 ViT 二值化性能严重下降的问题,提出专为二值化设计的混合 ViT 架构 BHViT,包含多尺度分组空洞卷积 token mixer、量化分解注意力矩阵二值化、shift 增强的 MLP 和正则化损失,在 ImageNet-1K 上达到 1-bit 二值化模型的 SOTA 性能。

Binarized Mamba-Transformer for Lightweight Quad Bayer HybridEVS Demosaicing

提出BMTNet——一个结合二值化Mamba和Swin Transformer的轻量级混合架构,用于Quad Bayer HybridEVS传感器的RAW图像去马赛克,通过保留核心Selective Scan的全精度、结合全局视觉信息补偿精度损失,在大幅降低计算复杂度的同时保持高质量的去马赛克效果。

Charm: The Missing Piece in ViT Fine-Tuning for Image Aesthetic Assessment

CL-LoRA: Continual Low-Rank Adaptation for Rehearsal-Free Class-Incremental Learning

提出 CL-LoRA,设计双适配器架构(任务共享 + 任务特定 LoRA),结合知识蒸馏与梯度重分配以及可学习块级权重,在仅 0.3% 可训练参数下实现 SOTA 持续学习性能。

CoA: Towards Real Image Dehazing via Compression-and-Adaptation

提出压缩-适应(CoA)框架实现实际图像去雾:先在合成数据上训练大模型,然后压缩+适应到真实域,平衡性能和部署效率

Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation

提出CCFS方法,通过课程学习框架渐进式地从原始数据集中选择合适的真实样本补充蒸馏数据,解决高IPC场景下蒸馏数据与真实数据的不兼容问题,在CIFAR-10/100和Tiny-ImageNet上大幅超越SOTA(最高+6.6%)。

Dataset Distillation with Neural Characteristic Function: A Minmax Perspective

提出NCFM方法,通过在复平面上用神经网络参数化的特征函数差异(NCFD)作为分布距离度量,将数据集蒸馏重构为minmax对抗优化问题,同时对齐相位(真实性)和幅值(多样性)信息,在ImageNet子集上最高提升20.5%,且GPU内存降低300倍以上。

DELT: A Simple Diversity-driven EarlyLate Training for Dataset Distillation

提出EarlyLate训练策略,通过让不同IPC子批次从不同优化起点开始、经历不同迭代次数来生成难度各异的合成图像,在batch-to-global匹配框架下显著提升类内多样性,同时减少39.3%计算时间,在ImageNet-1K上以IPC=50达到66.1%(ResNet-101,超越RDED 4.9%)。

DeRS: Towards Extremely Efficient Upcycled Mixture-of-Experts Models

提出DeRS(Decompose-Replace-Synthesis)范式,利用upcycled MoE专家间的极高相似性(余弦相似度>0.999),将N个专家分解为1个共享基础权重+N个轻量delta权重,通过稀疏化/量化/低秩表示压缩delta权重,在MoE层参数减少65%的同时性能不降,或训练时额外参数减少2270倍。

Distilling Long-tailed Datasets

首次系统研究长尾数据集蒸馏问题,发现现有方法在长尾场景下严重退化(甚至不如随机选择),提出Distribution-agnostic Matching(DAM)和Expert Decoupling(ED)两个策略,在CIFAR-10/100-LT和Tiny-ImageNet-LT上大幅超越现有方法(如在imbalance factor=100时超越DATM 19.7%)。

DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models

提出DyCoke,一种免训练的动态视觉Token压缩方法,通过两阶段策略——时序Token合并(消除跨帧冗余50-60%)和KV Cache动态剪枝(在每个解码步动态保留最相关的token,进一步减少70-90%),将视频LLM的每帧平均token数降至15个,实现1.5倍加速且性能不降反微升。

ECVC: Exploiting Non-Local Correlations in Multiple Frames for Contextual Video Compression

提出ECVC视频压缩模型,通过多帧非局部上下文挖掘(MNLC)和多头线性交叉注意力(MHLCA)捕获多参考帧间的非局部相关性,结合部分级联微调策略(PCFS)解决训练-测试序列长度不匹配问题,在IP=32和IP=-1设置下分别比DCVC-FM节省10.5%和11.5%码率。

EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

提出EfficientViM,通过将SSD层中的通道混合操作从token空间(\(O(LD^2)\))迁移到压缩的隐藏状态空间(\(O(ND^2)\)\(N \ll L\)),实现了比现有Vision Mamba模型快2-4倍的推理速度,同时保持竞争性精度(ImageNet-1K上M3模型77.9%/11952 img/s)。

Embracing Collaboration Over Competition: Condensing Multiple Prompts for Visual In-Context Learning

提出 Condenser 将多个 Visual ICL 的 prompt 候选通过 Patch-wise 跨注意力凝聚为单一 prompt,实现多 prompt 协作而非竞争选择,在分割/检测/上色等任务上以 16 个 prompt 输入达到 46.63 mIoU(vs 单 prompt 44.14),推理速度比逐一评估快 15×。

Emphasizing Discriminative Features for Dataset Distillation in Complex Scenarios

提出EDF方法,通过Common Pattern Dropout(丢弃轨迹匹配中低损失的通用模式参数梯度)和Discriminative Area Enhancement(用Grad-CAM加权放大判别性区域的梯度),解决数据集蒸馏在复杂场景(ImageNet子集)上的性能退化问题,在ImageMeow/ImageYellow等数据集上仅用23%数据实现无损压缩。

Enhancing Dataset Distillation via Non-Critical Region Refinement

提出NRR-DD三阶段框架:用CAM选低置信度patch初始化合成图像、固定关键区域仅优化非关键区域提升信息密度、用2个距离值替代1000维软标签实现500倍存储压缩。在ImageNet-1K上IPC=10时达到46.1%(超RDED 25.7%),软标签存储从120GB降至0.2GB。

Faster Parameter-Efficient Tuning with Token Redundancy Reduction (FPET)

提出 FPET(Faster Parameter-Efficient Tuning),在参数高效微调(PET)中引入即插即用的 token 冗余压缩模块——在 ViT 中间层用可微的二分匹配策略合并约一半的 token,实现比原始 backbone 更快 20% 的推理速度、减少约 40% GPU显存、且精度与 SOTA PET 方法持平。

FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation

提出 FIMA-Q,通过对角+低秩(DPLR)的 Fisher 信息矩阵近似替代传统对角近似,更准确地捕捉量化误差对输出分布的影响,在 3-bit 极低比特 ViT 量化中大幅超越现有方法(ViT-B 77.63% vs QDrop 74.75%)。

Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

提出 Gaze-LLE,一个基于冻结 DINOv2 编码器的极简视线目标估计框架——仅用 ~2.8M 可训练参数(比先前方法少 1-2 个数量级)、无需辅助深度/姿态模型、无需独立头部编码器,通过人物位置提示 + 轻量 transformer 解码器即在 GazeFollow/VideoAttentionTarget 等基准上达到 SOTA(AUC 0.958)。

Good, Cheap, and Fast: Overfitted Image Compression with Wasserstein Distortion

本文将Wasserstein Distortion(WD)作为优化目标应用于过拟合图像编解码器C3,结合公共随机性实现纹理再采样,在保持极低解码复杂度(<1% MACs of HiFiC)的同时达到与生成式压缩方法相当的视觉质量-码率权衡。

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

HiAP 提出了一种多粒度自动剪枝框架,通过在宏观(attention heads、FFN blocks)和微观(intra-head dimensions、FFN neurons)两级部署可学习 Gumbel-Sigmoid 门控,在单阶段端到端训练中自动发现最优子网络,无需手工重要性排序或后处理阈值。

HOT: Hadamard-based Optimized Training

提出HOT方法,通过对反向传播中不同梯度路径(激活梯度\(g_x\)和权重梯度\(g_m\))的差异化灵敏度分析,选择性地应用Hadamard变换+量化——\(g_x\)用HT+INT4加速计算、\(g_m\)用HLA+INT8节省激活内存,实现75%激活内存节省和2.6倍GPU加速,ViT-B在ImageNet上精度仅降0.17%。

HyperLoRA: Parameter-Efficient Adaptive Generation for Portrait Synthesis

提出 HyperLoRA,一种通过自适应网络直接生成 LoRA 权重的零样本个性化肖像生成方法——将 LoRA 参数投影到低维线性空间(原参数的 1.2%),用 perceiver resampler 从输入人脸预测组合系数,并将 LoRA 显式分解为 ID-LoRA 和 Base-LoRA 以解耦身份与无关信息,实现高保真度+高可编辑性+快速推理的平衡。

Incremental Object Keypoint Learning (KAMP)

首次定义增量关键点学习(IKL)范式——新任务只标注新关键点、不保留旧数据的增量训练,提出 KAMP 框架通过知识关联网络(KA-Net)建模新旧关键点间的解剖学空间关系,配合关键点导向的空间蒸馏损失,在 4 个数据集上不仅有效防遗忘,甚至实现了对旧关键点的正向迁移提升(MPII AAA 79.93% vs LWF 75.75%)。

InsTaG: Learning Personalized 3D Talking Head from Few-Second Video

提出 InsTaG,通过 Identity-Free Pre-training 从多人长视频中提取通用运动先验,再通过 Motion-Aligned Adaptation 仅用 5 秒视频即可快速学习高保真个性化 3D 说话人头像,实现 82.5 FPS 实时推理。

JamMa: Ultra-lightweight Local Feature Matching with Joint Mamba

JamMa提出了基于Joint Mamba的超轻量级半密集特征匹配器,通过JEGO扫描-合并策略实现跨视角联合扫描、高效四方向扫描、全局感受野和全方向特征表示,以不到50%的参数和FLOPs实现了优于Transformer-based匹配器的性能-效率平衡。

L-SWAG: Layer-Sample Wise Activation with Gradients for Zero-Shot NAS on Vision Transformers

本文提出 L-SWAG 零成本代理指标,结合层级梯度方差统计(可训练性)和激活模式基数(表达性),首次在 ViT 搜索空间上实现稳定正相关排名,并提出 LIBRA-NAS 集成算法组合多个代理指标,在 ImageNet1k 上以 0.1 GPU-day 找到 17.0% 测试错误率的架构。

Layered Image Vectorization via Semantic Simplification

本文提出一种渐进式图像矢量化方法,利用 Score Distillation Sampling(SDS)的特征平均效应生成逐级简化的图像序列,以此引导从宏观语义结构到精细细节的分层矢量重建,在视觉保真度、语义对齐和紧凑分层表示上显著优于现有方法。

Learned Image Compression with Dictionary-based Entropy Model

提出基于字典的交叉注意力熵模型 (DCAE),引入可学习字典从训练数据集中提取自然图像的典型纹理结构先验,通过多尺度特征聚合 + 交叉注意力实现精确的概率分布估计,在编解码速度仅 193ms 的条件下实现 -17.0%/-21.1%/-19.7% 的 BD-rate(Kodak/Tecnick/CLIC),全面超越 SOTA。

PrunNet: Learning Compatible Multi-Prize Subnetworks for Asymmetric Retrieval

提出 PrunNet(可剪枝网络),通过为每个权重学习重要性分数并结合冲突感知梯度集成,训练一个可以在任意容量(20%-100%)下产生兼容子网络的统一模型,在 GLDv2 上 46.29 mAP 超越密集网络基线,且所有容量子网络间特征兼容。

LALIC: Linear Attention Modeling for Learned Image Compression

首次将 RWKV 线性注意力机制引入学习图像压缩,设计 Bi-RWKV 变换块实现线性复杂度的全局感受野特征提取,配合 RWKV 时空通道上下文熵模型,以较低复杂度超越 VTM-9.1 达 15.26% BD-rate。

Logits DeConfusion with CLIP for Few-Shot Learning

发现 CLIP 在下游任务中 logits 存在严重的类间混淆问题,提出 Logits DeConfusion(LDC)方法,通过多层级 Adapter 融合(MAF)增强特征表示,结合类间去混淆模块(ICD)以残差结构学习并消除混淆模式,在 11 个基准上取得 SOTA。

LoRA Subtraction for Drift-Resistant Space in Exemplar-Free Continual Learning

LoRA-DRS 提出"LoRA 减法"操作——在学习新任务前将旧任务的 LoRA 权重从预训练权重中减去以构建漂移抵抗空间(DRS),然后在该空间中通过梯度投影训练新任务的 LoRA,结合增强三元组损失提升可塑性,在无样本持续学习中实现了 SOTA 性能,尤其在长任务序列上优势显著。

LSNet: See Large, Focus Small

受人类视觉外周(广域感知)-中央(精细聚合)的双尺度机制启发,提出 LS 卷积(大核深度卷积感知 + 小核动态卷积聚合),构建 LSNet 轻量网络家族,在 0.3~1.3G FLOPs 下全面超越现有 SOTA 轻量模型。

Mamba-Adaptor: State Space Model Adaptor for Visual Recognition

提出 Mamba-Adaptor,通过两个模块增强 Vision Mamba/SSM:Adaptor-T(时序)用可学习记忆选择机制保留关键历史状态,Adaptor-S(空间)用多尺度空心深度卷积增强空间局部性,在 ImageNet 上 83.0% Top-1(Mamba-Adaptor-b2),检测/分割+迁移学习全面提升。

MambaIC: State Space Models for High-Performance Learned Image Compression

首次将 SSM 同时整合到学习型图像压缩的非线性变换和上下文模型中,通过 VSS block 增强通道-空间上下文建模 + 窗口局部注意力消除空间冗余,在 Kodak 上比 VVC 节省 12.52% BD-rate,且高分辨率图像压缩优势更加显著。

Masking Meets Supervision: A Strong Learning Alliance

提出 Masked Sub-branch (MaskSub)——在监督学习中引入高比例 (50%) mask 增强的通用框架,通过主分支(无mask)和子分支(有mask)的自蒸馏结构解决强 mask 增强导致训练不稳定的问题,在 DeiT-III、MAE 微调、CLIP 微调、BERT 训练以及 ResNet/Swin 等多种场景中均取得一致性能提升。

MDP: Multidimensional Vision Model Pruning with Latency Constraint

MDP 提出多维度剪枝范式,将通道、注意力头、Q/K/V、嵌入维度和整个 block 等不同粒度的结构化剪枝统一建模为混合整数非线性规划(MINLP)问题,在严格延迟约束下联合求解全局最优剪枝结构,在高剪枝比下大幅超越已有方法。

MobileMamba: Lightweight Multi-Receptive Visual Mamba Network

提出 MobileMamba 轻量级视觉网络,通过三阶段粗粒度架构设计和 MRFFI 细粒度模块(融合 Mamba 全局建模、多核卷积多尺度感知和 Identity 冗余消除),在分类和下游高分辨率任务上实现速度与精度的最优平衡。

MuTri: Multi-view Tri-alignment for OCT to OCTA 3D Image Translation

本文提出MuTri,首次将向量量化(VQ)引入OCT到OCTA的3D体积翻译任务,通过两阶段训练——先预训练OCT和OCTA重建VQVAE提供多视图先验,再用对比语义对齐(3D OCT/OCTA视图)和血管结构对齐(2D OCTA投影图视图)三视图指导翻译VQVAE的码本学习,在三个数据集上全面超越SOTA。

Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear Transformation

本文揭示了 Mamba 架构中 Projector(投影层)而非 SSM 才是迁移学习的关键组件,并提出 ProDiaL 方法——通过对角中心线性变换矩阵间接微调冻结的 Projector 权重,仅训练不到 1% 的参数即可在视觉和语言 Mamba 模型上实现超越 LoRA/DoRA 的下游任务性能。

Plug-and-Play Versatile Compressed Video Enhancement

本文提出一种编解码器感知的压缩视频增强框架,通过复用码流中的压缩因子、运动向量和分区图等信息,以单一模型自适应增强不同压缩级别的视频,同时作为即插即用模块辅助多种下游视觉任务。

Sampling Innovation-Based Adaptive Compressive Sensing

提出 SIB-ACS 框架,通过"采样创新"准则(衡量采样增量带来的重建误差下降)指导多阶段自适应采样分配,并设计主成分压缩域网络(PCCD-Net)进行高保真图像重建,显著超越 SOTA 压缩感知方法。

Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch

首次针对人类草图(sketch)数据的特有特性设计高效推理网络:通过跨模态知识蒸馏(SketchyNetV1)将大网络压缩到轻量级网络并保持 FG-SBIR 精度,再通过强化学习驱动的自适应画布尺寸选择器(SketchyNetV2)利用草图的稀疏抽象特性进一步减少 FLOPs,最终实现 99.37% 的 FLOPs 缩减(40.18G→0.254G)而几乎不损失精度。

Style Quantization for Data-Efficient GAN Training

SQ-GAN 通过将 StyleGAN 的中间 style 空间离散量化为可学习码本,把稀疏连续潜变量空间压缩为紧凑结构化的离散代理空间,增强有限数据下判别器一致性正则化的效果,并利用 CLIP 嵌入+最优传输距离初始化码本,将外部语义知识注入码本,显著提升小样本 GAN 的生成质量。

TADFormer: Task-Adaptive Dynamic Transformer for Efficient Multi-Task Learning

TADFormer 提出一种面向多任务学习的参数高效微调框架,通过动态任务滤波器(DTF)根据输入上下文动态提取细粒度任务特征,结合任务提示条件操作和跨任务交互,在 PASCAL-Context 上以少于全微调 8.4 倍的参数量实现更高精度。

Targeted Forgetting of Image Subgroups in CLIP Models

提出三阶段 CLIP 子群图像遗忘框架(forgetting → reminding → restoring),通过相对 Fisher Information 选择关键层进行 LoRA 微调,利用 BatchNorm 统计量对齐 retain 数据分布,再通过 model souping 恢复零样本能力,在 ImageNet-1K 和 CIFAR-10 上实现精准子群遗忘(target↓到 0%)同时保持 85-93% 的综合得分。

Task Singular Vectors: Reducing Task Interference in Model Merging

提出 Task Singular Vectors (TSV) 框架,在逐层任务矩阵的 SVD 空间中分析和解决模型合并中的任务干扰问题:TSV-Compress 将任务向量压缩至 10% 保留 99% 精度,TSV-Merge 通过白化变换去相关化不同任务的奇异向量,在 8/14/20 任务合并上平均超过现有方法约 15 个百分点。

Towards Practical Real-Time Neural Video Compression

提出DCVC-RT,首个在消费级硬件上实现1080p实时编解码且压缩率超越H.266/VTM的神经视频编解码器,核心发现是操作复杂度(而非计算复杂度)才是速度瓶颈,据此设计隐式时序建模和单尺度低分辨率潜表示,在A100上达到125/113 fps编解码速度,同时节省21%码率。

Tripartite Weight-Space Ensemble for Few-Shot Class-Incremental Learning

本文提出 Tri-WE 方法通过在权重空间插值 base、前一 session 和当前 session 三个分类头来更新整个模型(而非冻结特征提取器),并用 amplified data 知识蒸馏(ADKD)缓解少样本场景下的遗忘问题,在 miniImageNet/CUB200/CIFAR100 上达到 FSCIL SOTA。

Understanding Multi-layered Transmission Matrices

本文从频域角度分析了多层传输矩阵逼近的理论基础,揭示了显微镜中的"缺失锥"问题在波前整形场景下反而成为优势,证明少量 SLM 层即可在有限视场内实现有效散射校正。

WAVE: Weight Templates for Adaptive Initialization of Variable-sized Models

提出 WAVE,将变尺寸模型初始化重新定义为多任务学习问题,通过共享的尺寸无关权重模板和轻量级尺寸特定的权重缩放器(via Kronecker 积)实现高效初始化,仅需 3.3% 预训练参数即可在 10 个 epoch 内超越 150 epoch 训练的模型。

What Makes a Good Dataset for Knowledge Distillation?

本文系统探究了知识蒸馏中"什么数据好用"这个基本问题,发现甚至非自然的 OpenGL shader 合成图像也能有效蒸馏,并总结出好的蒸馏数据集需满足:教师预测类别分布均匀、覆盖足够决策空间、数据多样性高、并包含决策边界信息。