📦 模型压缩¶
📷 CVPR2026 · 108 篇论文解读
📌 同领域跨会议浏览: 🔬 ICLR2026 (239) · 💬 ACL2026 (59) · 🧪 ICML2026 (116) · 🤖 AAAI2026 (60) · 🧠 NeurIPS2025 (143) · 📹 ICCV2025 (52)
🔥 高频主题: 压缩/编码 ×16 · 扩散模型 ×13 · 模型压缩 ×8 · 多模态 ×4 · 知识蒸馏 ×3
- 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation
-
提出4D-RGPT和感知4D蒸馏(P4D)框架,通过从冻结的4D感知专家模型中蒸馏深度和光流等知识到MLLM中增强4D感知,同时构建R4D-Bench——首个区域级4D视频问答基准。
- A Unified Framework for Knowledge Transfer in Bidirectional Model Scaling
-
BoT 把神经网络权重看成"连续信号"、不同大小的模型只是同一信号的不同分辨率离散化,于是用 3D 离散小波变换(DWT)下采样实现大变小(L2S)、用逆变换(IDWT)零填充高频后上采样实现小变大(S2L),首次用一个免训练、无额外参数的框架统一了两个方向的跨架构知识迁移,在 DeiT/BERT/GPT 上最多省 67.1% 预训练 FLOPs。
- AdaBet: Gradient-free Layer Selection for Efficient Training of Deep Neural Networks
-
提出 AdaBet,一种基于代数拓扑(第一 Betti 数 \(b_1\))的无梯度层选择方法,仅通过前向传播计算每层激活空间的拓扑复杂度来决定哪些层需要微调,无需标签、梯度或反向传播,在 ResNet50/VGG16/MobileNetV2/ViT-B16 上以仅 10% 层微调达到优于全量训练的准确率,同时峰值内存降低约 40%。
- Adaptive Depth Lightweight RGB-T Tracking with Holistic Token Routing
-
ADTrack 把网络深度当作可动态分配的算力预算——给冻结的双流 ViT-T 骨干装上多层"随时可出结果"的预测头和置信度校准的早退出策略,并用一个只有 37.3K 参数的整体令牌路由模块(HTGI)做廉价跨模态融合,在 LasHeR 上拿到 70.2% PR / 56.3% SR 的同时跑到 GPU 148.3 FPS、CPU 50.2 FPS、边缘端 28.7 FPS。
- Adaptive Video Distillation: Mitigating Oversaturation and Temporal Collapse in Few-Step Generation
-
针对视频扩散模型做 DMD(分布匹配蒸馏)时普遍出现的「颜色过饱和 + 运动坍缩」两大顽疾,本文提出自适应回归损失(用 EMA 缓存动态降权那些偏差过大的真实样本)、时序正则损失(直接惩罚帧间方差过低),再配一个高噪声步降帧率、低噪声步插值补回的推理加速策略,在 Wan2.1-1.3B/14B 上做到 4 步生成,VBench/VBench2 总分超过所有蒸馏 baseline、用户偏好甚至超过 50 步教师。
- AdaSVD: Singular Value Decomposition with Adaptive Mechanisms for Large Multimodal Models
-
AdaSVD 用「交替最小二乘补偿被截断的奇异矩阵」+「按层重要性自适应分配压缩率」两招,把基于 SVD 的大多模态模型压缩在高压缩率(60%+)下的精度损失大幅压下来,在 LLaMA2/OPT/Mistral/Vicuna 上全面超过 SVD-LLM。
- Back to Source: Open-Set Continual Test-Time Adaptation via Domain Compensation
-
针对"域持续漂移 + 未知新类同时出现"的开放集持续测试时自适应(OCTTA)场景,本文提出 DOCO:先把当前 batch 分成像 ID / 像 OOD 两堆,只用 ID 样本学一个把特征统计"拉回源域"的视觉 prompt,再把这个 prompt 直接复用到同 batch 的 OOD 样本上以剥离它们的语义新颖度,三步形成闭环互助,在 ImageNet-C 上 H-score 比次优方法高 4.7%。
- Balanced Dataset Distillation via Modeling Multiple Visual Pattern Distribution
-
本文指出现有数据集蒸馏方法普遍存在「模式失衡」(要么偏重类内主流的 class-general patterns、要么偏重边缘的 marginal patterns),提出 BPS 框架:先用层次语义结构把每个类建模成多个视觉模式的分布,再从每个模式的「中心」和「边缘」各取一半 IPC 预算构成模式平衡的 coreset,最后用知识蒸馏训练学生模型——在四个 benchmark 上全面超过此前 SOTA,且天然具备跨架构泛化和「一次建模、所有 IPC 复用」的效率优势。
- Batch Loss Score for Dynamic Data Pruning
-
提出 Batch Loss Score (BLS),一种仅用均值 batch loss(而非难以获取的逐样本 loss)来估计样本重要性的方法,通过 EMA 低通滤波的信号处理视角提供理论保证,仅需 3 行代码即可集成到现有动态剪枝框架中。
- Beyond Soft Label: Dataset Distillation via Orthogonal Gradient Matching
-
针对现有 ImageNet-1K 数据集蒸馏方法过度依赖 BN 统计匹配、一旦丢掉软标签就崩盘的问题,本文从梯度视角指出 BN 匹配只对齐了梯度的"尺度"而忽略了真正决定训练的"方向",进而提出 Orthogonal Gradient Matching(OGM)——把真实/合成梯度做 SVD 后强制所有奇异值为 1、只对齐奇异向量,并用最小二乘损失的闭式梯度在前向传播中完成匹配;在 IPC=10 上软标签 47.0%、硬标签 16.7%,显著超过 RDED 等基线。
- Bilevel Layer-Positioning LoRA for Real Image Dehazing
-
提出 BiLaLoRA,通过双层优化自动定位 LoRA 应插入的最优网络层,配合 H2C Loss(基于 CLIP 语义方向的无监督去雾损失),实现合成数据预训练的去雾模型向真实场景的高效适配——训练时间降低 77.7%,性能持平全量微调,跨模型跨域均有效。
- BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers
-
提出 BinaryAttention,将 Transformer 注意力中的 Query 和 Key 量化为 1-bit 二值表示,通过 XNOR + popcount 位运算替代浮点点积,在 A100 上实现比 FlashAttention2 快 2 倍以上的加速,同时在视觉分类/检测/分割/扩散生成等任务上性能持平甚至超越全精度注意力。
- Block-based Learned Image Compression without Blocking Artifacts
-
本文用一套解析递推公式,精确算出 CNN 图像压缩模型按块编解码时每层所需的最小重叠,从而让现成模型在不重训的前提下按块运行、峰值内存降到约 13%,且重建结果与整图推理逐比特一致、完全没有块边界伪影。
- Bridging Domains through Subspace-Aware Model Merging
-
本文发现"把不同域上微调的模型合并去泛化到未见域"会比常规多任务合并产生强得多的奇异子空间冲突,提出 SCORE:用所有模型主奇异向量拼接出的共享正交基做换基,把对角(一致方向)保留、非对角(冲突方向)裁掉离群项,从而在 8 个域泛化基准、3 个模型尺度上平均超过现有合并方法。
- CADC: Content Adaptive Diffusion-Based Generative Image Compression
-
CADC 把扩散式图像压缩的"编码端表示"和"解码端生成先验"全程做成内容自适应:用不确定性图驱动空间变化的量化、用轻量辅助解码器把语义信息逼进扩散解码器真正用到的前 4 个通道、再从辅助重建图免码率地反推出内容相关的文本条件,在超低码率(约 0.005–0.01 bpp)下取得 SOTA 的感知质量。
- CAR-SAM: Cross-Attention Reconstruction for Post-Training Quantization of the Segment Anything Model
-
针对 SAM 解码器里"交叉注意力被低比特量化打散"和"双向耦合导致重建振荡"两个独有难题,CAR-SAM 用 MatMul 感知补偿(把 MatMul 输入的激活量化误差回灌到前置线性层权重)和联合交叉注意力重建(把成对耦合的两个交叉注意力块绑在一起优化),把 SAM/SAM2 稳稳压到 W4A4,在 SAM-B/SAM-L 上分别比此前最优高出 14.6% 和 6.6% mAP。
- CARLoS: Retrieval via Concise Assessment Representation of LoRAs at Scale
-
CARLoS 不靠 LoRA 作者填的名字/描述,而是把每个 LoRA 实际"用起来"——在大量 prompt × seed 上生成图、和无 LoRA 的原图做 CLIP 空间差,提炼成「方向 / 强度 / 一致性」三元表征,从而按生成效果而非文本元数据来检索 LoRA,在自动与人工评测中都超过四个强文本检索基线。
- Collaborative Multi-Mode Pruning for Vision-Language Models
-
针对 VLM 同时存在的"参数冗余"和"token 冗余",CoMP 设计了一套协同重要性度量(CIM,消除参数剪枝和 token 剪枝互相干扰)和一套多模式剪枝策略(MPS,每一步自适应挑当前最划算的剪枝模式),在高剪枝率下显著优于只剪参数或只剪 token 的单模式方法(NLVR2 在 0.85 剪枝率下测试精度领先 3.51%)。
- Content-Adaptive Hierarchical Hyperprior for Neural Video Coding
-
针对神经视频编码(NVC)长期被忽视的"层级结构"(质量结构 + 参考结构)优化问题,本文从当前帧提取一个层级超先验(hierarchical hyperprior),用它统一引导质量分配和双参考融合的内容自适应联合优化,在 IP -1 / IP 32 两种设置下比前一代 SOTA 的 DCVC-FM 分别多省 15.51% / 12.20% 码率。
- Continual Distillation of Teachers from Different Domains
-
论文提出"持续蒸馏 (Continual Distillation, CD)"新范式——一个学生从一串先后到来、彼此领域不同且互相不可见的教师里顺序蒸馏,并发现用教师没训过的"外部数据"蒸馏能搬来未见域知识 (UKT)、但序列推进会把这些知识忘掉 (UKF),进而用 SE2D(把自蒸馏限制在外部数据上)来缓解遗忘,在多个基准上提升跨域平均精度。
- Critical Patch-Aware Sparse Prompting with Decoupled Training for Continual Learning on the Edge
-
提出 CPS-Prompt 框架,通过任务感知的关键 patch 采样(CPS)和解耦 prompt-分类器训练(DPCT)两个模块,在边缘设备上实现 Prompt-based 持续学习的训练时内存和计算效率提升约 1.6 倍,同时准确率仅下降约 2%。
- Cross-Architecture Adaptation: Cloud-Edge Continual Test-Time Adaptation with Dynamic Sampling and Heterogeneous Distillation
-
针对现有云边持续测试时自适应(CTTA)默认云端和边端同构 CNN 的限制,CAA 让云端跑大 ViT 教师、边端跑轻量 CNN 学生,靠一套「按通信预算挑样本上传 + 跨架构异构蒸馏」的机制完成异构协同自适应,在 ImageNet-C severity-5 上以 41.2% 平均准确率刷新 SOTA,同时上传样本数最少。
- Cross-View Distillation and Adaptive Masking for Incomplete Multi-View Multi-Label Classification
-
针对"视图与标签双重缺失"的多标签分类,本文用一个强视图当 teacher 去蒸馏其余弱视图、再用一个可学习的二值门控把蒸馏后仍然不可靠的视图直接屏蔽掉,在六个数据集上稳定超过九个 SOTA。
- DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation
-
提出 DAGE 双流 Transformer 架构,将全局一致性建模(低分辨率流)与细粒度细节保持(高分辨率流)解耦,通过轻量 Cross-Attention Adapter 融合,实现 2K 分辨率和 1000 帧长序列上的高质量深度/点图估计和位姿预测,速度比 Pi3 快 2-28 倍,视频几何估计取得新 SOTA。
- Dataset Distillation by Influence Matching
-
不再让合成数据去模仿真实数据的训练过程(梯度/轨迹),而是直接对齐"训练结果"——本文用一个线性时间、无需逆 Hessian 的可微影响力估计器,把数据集蒸馏重写成"合成集对参数的影响力 ≈ 真实集对参数的影响力",在 CIFAR/Tiny-ImageNet/Flickr30K 上全面超过过程匹配 SOTA(Tiny-ImageNet IPC=10 上 31.5%,比 NCFM 高 4.7%)。
- Decompose, Mix, Adapt: A Unified Framework for Parameter-Efficient Neural Network Recombination and Compression
-
CRISP 把预训练权重因子分解为「跨层共享的冻结基底 B + 每层私有的可学习混合器 A」,缩小并共享 B 就实现模型压缩(MC)、冻结 B 只调 A 就实现参数高效微调(PEFT),从而用同一套因子结构统一了原本分开做的两件事,在 VTAB-1K PEFT 上以更少参数超 SOTA 1.5%、ViT 压缩超 SOTA 1.5%、PEFT+MC 组合超 1%。
- DeltaQuant: 4-bit Video Diffusion Models with Spatiotemporal Delta Smoothing
-
DeltaQuant 利用视频相邻 token 在时空上高度相似这一特性,把激活按 3D 时空 cube 切块,每个 cube 只保留一个高精度(FP8)均值「核 token」、把各 token 相对核的「差值(delta token)」量化到 4 bit,从而在几乎不损画质的前提下,把视频扩散模型 Wan2.2 做到 W4A4 量化,显存降 2.3×、模型体积降 2.9×,叠加高效注意力与少步蒸馏后端到端加速 111.8×。
- Discovering Adaptive Task Dependencies for Efficient Multi-Task Representation Compression
-
ATDC 把"按什么顺序压缩多个任务的特征"做成逐图自适应的:先用一个轻量代理头估计任务间的可预测性、拼成相关性矩阵,再贪心构造一张有向无环图(DAG)决定压缩顺序,让每个任务的特征都条件于它的"父任务"做残差编码,从而在 Taskonomy 上以更低码率换来更高的多任务精度。
- Distilling Balanced Knowledge from a Biased Teacher
-
针对长尾分布下知识蒸馏中教师模型向头部类偏斜的问题,将传统 KL 散度损失分解为跨组损失和组内损失两个组件,通过重平衡跨组损失校准教师的组级预测、重加权组内损失保证各组等贡献,在 CIFAR-100-LT/TinyImageNet-LT/ImageNet-LT 上全面超越现有方法,甚至超过教师模型自身表现。
- Distributed Image Compression with Multimodal Side Information at Extremely Low Bitrates
-
针对多视图分布式图像压缩在极低码率(<0.1 bpp)下重建模糊、细节丢失的问题,本文提出 MDIC:首次把侧信息以「文本 + 视觉」多模态形式喂进预训练文本到图像扩散模型,用一个文本监督的视觉掩码门控地补回量化时丢掉的类别信息与对象级细节,在 KITTI Stereo / Cityscapes 上取得 SOTA 感知质量。
- DiT-Distill: Open-Set Fine-Grained Retrieval via Generative Curriculum Knowledge
-
把预训练文生图扩散 Transformer(DiT)在去噪过程中编码的"由粗到细的生成课程知识"先精炼、再蒸馏进一个轻量 ViT 检索骨干,让小模型在推理时完全甩掉 DiT,却能在开集细粒度检索(OSFR)上把 R@1 大幅刷高(CUB 上 +9.8%、Stanford Cars 上 +18.6%)。
- DMGD: Train-Free Dataset Distillation with Semantic-Distribution Matching in Diffusion Models
-
DMGD 把"扩散模型做数据集蒸馏"这件事拆成语义匹配和分布匹配两个解耦目标,全程只在采样阶段注入无训练(train-free)引导,用动态软标签提升合成样本多样性、用最优传输(OT)损失对齐目标分布结构,在 ImageNet-Woof/Nette/1K 上比需要额外微调的 SOTA 平均高 2.1%/5.4%/2.4%。
- Dual-branch Distilled Transformer for Efficient Asymmetric UAV Tracking
-
EATrack 用一个全尺 12 层 ViT 教师,通过「特征级 + 预测级」双分支、且只聚焦目标区域的蒸馏,把目标表征和定位能力灌进一个 8 层轻量学生,配合非对称推理与时序自适应,在五个无人机基准上比上一代 SOTA 平均成功率高 1.2%,同时跑到 241.9 FPS。
- DualReg: Dual-Space Filtering and Reinforcement for Rigid Registration
-
DualReg提出双空间配准范式,先用轻量级1-point RANSAC + 3-point RANSAC渐进过滤特征空间对应点,再基于过滤后的锚点构建几何代理点集进行双空间联合优化,在3DMatch上实现SOTA精度的同时比MAC快32倍。
- DuetMerging: Synergizing Dynamic and Static Strategies for Mitigating Task Interference in Model Merging
-
DuetMerging 把多个专家模型的任务向量堆成 3D 张量做 Tucker 分解,得到一个"共享核张量"驱动的动态专家池来抑制任务冲突,再用神经元激活引导的稀疏化从分解残差里"外科手术式"抢救任务专属知识做静态修正,两路一动一静合奏,在 8 个图像分类任务的模型融合上刷到 SOTA(ViT-B/32 归一化精度 99.2%)。
- Edge-RecViT: Efficient Vision Transformer via Semantic-Refined Dynamic Recursion
-
Edge-RecViT 用一个 token 级的「边缘感知排序器」给每个 patch 打分,让结构信息丰富的边缘 token 进入更深的递归计算、平滑的前景内部 token 早退,同时把 ViT 的隐藏层折叠成一个全共享的递归块(head + 共享中间层 ×10 + tail),从而在 ImageNet-1K 上以 DeiT-Base 约 27% 的参数(86M→23.2M)和约 69% 的 FLOPs(35.2G→24.39G)达到持平甚至略高的精度。
- Efficiency Follows Global-Local Decoupling
-
ConvNeur 把"看全局"和"留细节"两件事拆到两条独立分支:一条卷积分支专心保留局部纹理细节,一条压缩后的"神经记忆"分支用分块(chunk)方式以次二次复杂度聚合图像级上下文,再用一个学出来的门控让全局信号去调制而不是覆盖局部特征;在 ImageNet/COCO/ADE20K 上以更少 FLOPs 和参数取得了更好的精度-效率折中。
- Enhancing Mixture-of-Experts Specialization via Cluster-Aware Upcycling
-
提出 Cluster-aware Upcycling,通过球面 k-means 聚类提取密集模型的语义结构来初始化 MoE 的专家和路由器参数,打破专家对称性并促进早期专业化,配合专家集成自蒸馏损失在 CLIP ViT 上一致超越现有 upcycling 方法。
- Evidential Transformation Network: Turning Pretrained Models into Evidential Models for Post-hoc Uncertainty Estimation
-
本文提出 Evidential Transformation Network (ETN),一个轻量级后置模块,通过在 logit 空间学习样本相关的仿射变换,将预训练分类器或 LLM 转化为证据模型,以最小的计算开销实现可靠的不确定性估计。
- F²HDR: Two-Stage HDR Video Reconstruction via Flow Adapter and Physical Motion Modeling
-
提出 F²HDR,一个两阶段 HDR 视频重建框架,通过 Flow Adapter 将通用预训练光流适配到交替曝光场景以实现鲁棒对齐,并利用物理运动建模从光流中提取连续运动掩码来引导第二阶段的伪影消除,在真实 HDR 视频基准上达到 SOTA。
- FAAR: Efficient Frequency-Aware Multi-Task Fine-Tuning via Automatic Rank Selection
-
提出 FAAR,一种频率感知的多任务参数高效微调方法,通过 Performance-Driven Rank Shrinking (PDRS) 为每个任务和层动态选择最优秩,并设计 Task-Spectral Pyramidal Decoder (TS-PD) 利用 FFT 频率信息增强空间感知和跨任务一致性,以传统微调 1/9 的参数量实现更优性能。
- FAST: Topology-Aware Frequency-Domain Distribution Matching for Coreset Selection
-
FAST 把"从大数据集挑出小核心子集"这件事重新表述为一个谱图约束下的连续分布匹配优化问题,用特征函数距离(CFD) 在频域逐阶匹配原数据集的全部矩信息,再靠拓扑约束把连续解拉回到真实离散样本上,不依赖任何代理 DNN,平均精度比 SOTA 高 9.12%,能耗降 96.57%、CPU 上 2.2× 加速。
- Fixed Anchors Are Not Enough: Dynamic Retrieval and Persistent Homology for Dataset Distillation
-
RETA解耦数据蒸馏中残差匹配的两个失败模式(fit-complexity gap和pull-to-anchor effect),通过动态检索连接(DRC)自适应选择real patch anchor并用持久同调拓扑对齐(PTA)保持类内多样性,在ImageNet-1K ResNet-18 IPC=50上达到64.3%(+3.1% vs FADRM)。
- FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation
-
提出 FOZO,一种仅需前向传播的零阶 prompt 优化范式,通过 SPSA 梯度估计 + 动态扰动策略 + 深浅层特征统计对齐,在不修改模型权重的情况下实现高效 TTA,在 ImageNet-C 上以 59.52% 准确率超越所有前向方法(含 FOA 58.13%),并支持 INT8 量化模型。
- FreqSIC: Frequency-aware Stereo Image Compression with Bi-directional Checkerboard Context Model
-
针对学习式立体图像压缩"高频细节丢失 + 自回归熵模型太慢"两个痛点,FreqSIC 用频域立体上下文迁移(FSCT)模块在高/低频分量上分别建模左右视角冗余并自适应加权,再把笨重的空间自回归熵模型换成内嵌 FSCT 的双向棋盘格上下文模型,在 InStereo2K / Cityscapes 上取得 SOTA 率失真性能的同时把编解码延迟压到 1.62s(比 BiSIC 的 78.6s 快约 48 倍)。
- Frequency Switching Mechanism for Parameter-Efficient Multi-Task Learning
-
Free Sinewich 提出基于频率切换的参数高效多任务学习框架,通过对共享低秩基矩阵施加不同任务特定频率的正弦变换 \(M_t = \sin(\omega_t \cdot M_{AWB})\),以接近零成本实现真正的参数复用和任务特化,在密集预测基准上以最少可训练参数达到SOTA。
- Generative Video Compression with One-Dimensional Latent Representation
-
提出 GVC1D,首次将视频压缩的潜在表示从2D网格替换为紧凑的1D token序列,结合1D记忆模块建模长期时序上下文,在感知质量指标上实现 60%+ 的码率节省。
- Gradient Knows Best: Mixed-Precision Quantization via Gradient-Guided Bit Allocation for Super-Resolution
-
针对超分(SR)模型的训练后混合精度量化,本文不再用激活标准差这种静态统计去估计逐层量化敏感度,而是直接拿"损失对比特宽度的梯度"来排序分配比特,再配一个非学习的动态激活归一化(DAN)解决 SR 去掉 BN 后激活范围漂移的问题,在 Urban100 上比此前 PTQ-MPQ 方法 PSNR 高 1.26 dB,3-bit EDSR×4 量化耗时还快了 1.9 倍。
- Grid Distillation: Compositional Image Distillation via Structured Generative Grids
-
Grid Distillation 把一整类图像压成"一张结构化网格图":先用谱-子模优化(SSDIM)从 CLIP 嵌入里挑出既有覆盖度又多样、还贴合类流形几何的 \(L^2\) 张代表图拼成网格并下采样,再用单步扩散反演(基于 SD Turbo)把下采样丢掉的高频细节补回来,最后用网格感知裁剪做训练增强——在 ImageWoof/ImageNette/ImageIDC/ImageNet-1K 上多个 IPC 设置全面超越现有数据集蒸馏方法,ImageWoof IPC=10 上 ResNet-18 达 65.5%(VLCP 仅 39.9%)。
- HeSS: Head Sensitivity Score for Sparsity Redistribution in VGGT
-
HeSS 提出 Head Sensitivity Score 来量化 VGGT 全局注意力层中每个注意力头对稀疏化的敏感程度,并基于此将注意力预算从不敏感的头重新分配到敏感头,在高稀疏度下显著优于均匀稀疏化方法 SparseVGGT,几乎不增加运行时开销。
- HierAmp: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation
-
提出 HierAmp,在视觉自回归(VAR)模型的粗到细生成过程中,向每个尺度注入可学习的类别 token 识别语义显著区域,并通过正 logit 偏置放大这些区域的注意力,使蒸馏数据在粗尺度获得更丰富多样的布局、在细尺度聚焦于类别相关细节,在多个数据集蒸馏基准上达到 SOTA。
- High Resolution Neural Video Coding with Bi-directional Confidence-Guided Reference Information Modeling
-
HR-NVC 把双向(B 帧)神经视频压缩重新组织为「参考信息建模」三件事——运动表示、上下文翻译、跨方向调和——用空间/时间锚稳住大位移下的光流估计、用分层运动表示同时编码多尺度光流和逐像素置信度、再用置信度引导的非对称融合压制不可靠参考,成为首个在 4K 序列上端到端评测的神经视频编解码器,在神经 B 帧编码上取得 SOTA。
- ID-Sim: An Identity-Focused Similarity Metric
-
本文提出 ID-Sim——一个前馈式、专门衡量"身份一致性"的感知度量,它模仿人类的"选择性敏感"(对背景/姿态/光照等语境变化不敏感、却对细微的身份变化敏感):在冻结的 DINOv3 ViT-L 上用真实+合成编辑数据训练 LoRA 与双头 MLP,配合全局 CLS 对比 + 局部 patch 最优传输对比双目标,在 7 个数据集、49 个评测设置里有 48 个超过现有度量,且用的标注数据少 100× 多、主干更小。
- IMS3: Breaking Distributional Aggregation in Diffusion-Based Dataset Distillation
-
针对扩散式数据集蒸馏「样本过度聚集在高密度区、缺乏判别性边界样本」的痛点,IMS3 用 DDIM 反演的不稳定性做微调(IM)把生成分布往低密度区拉宽,再用免训练的子组采样(S3)按类心相似度挑出既贴近真实、又彼此可分的合成子集,在 ImageWoof / ImageNette / ImageIDC 上刷新扩散式蒸馏 SOTA。
- InstantViR: Real-Time Video Inverse Problem Solver with Distilled Diffusion Prior
-
InstantViR 把一个强大的双向视频扩散模型(teacher)蒸馏成一个单步、因果自回归的学生求解器,无需成对干净/退化数据,就能把退化视频一次前向直接映射成高质量重建,并通过替换轻量 VAE 把吞吐推到 35+ FPS(相对迭代式视频扩散求解器加速达 100×),同时在去噪/去模糊/超分/补全任务上质量追平甚至超过迭代基线。
- Is Bin Generation Indispensable? A Bin-Generation-Free Dataset Quantization via Semantic Perspective
-
针对数据集量化里「bin 生成」步骤随同类样本数立方增长、大规模数据集跑不动,以及固定 patch 丢弃比例无法适配样本冗余差异的两大痛点,BGFDQ 用轻量 KNN 近邻识别替代昂贵的 bin 生成、用近邻感知的核心集选择保覆盖去冗余、再用语义偏移自适应地为每张图选丢弃比例,把复杂度从 \(O(CM^3)\) 降到 \(O(CM^2)\),在四个分类基准上稳定超过 SOTA(CIFAR-100 最高 +5%),还能扩展到单类 20 万样本(bin 生成法直接 OOM)。
- LiDeRe: A Lightweight Readout for Fast and Data-Efficient Dense Prediction
-
LiDeRe 主张:在小数据的密集预测任务上,与其用 LoRA 这类需要反传整个骨干的参数高效微调(PEFT),不如在冻结骨干之上挂一个精心设计的轻量 readout——它把"可学习插值先验"和"内容引导注意力"融进一个特征插值模块,常常用不到 40 万可训练参数,就能在语义分割、姿态估计、目标检测、轮廓分割上追平甚至超过 PEFT 方法,且训练更快、显存更省。
- LoPrune: Efficient Data Pruning for LoRA-Based Fine-Tuning of Vision Transformer
-
针对端侧 LoRA 微调中"数据冗余"这个被忽视的瓶颈,LoPrune 提出把样本影响函数投影到 LoRA 可训练子空间打分(TSA Score),并用 K-FAC 曲率近似实现单 epoch 高效评分,在 ViT/DeiT/Swin/DETR 等模型上把微调开销最多降 72.9%、训练提速最多 3.69×,准确率反而最高提升 3.50%。
- MambaSIC: Mamba-based Stereo Image Compression with Bi-directional Multi-reference Entropy Model
-
MambaSIC 用线性复杂度的 Mamba 视觉状态空间块(Stereo VSSB)替代立体图像压缩中昂贵的交叉注意力来传递视角间上下文,并配上一个棋盘划分的双向多参考熵模型替代逐空间自回归,使得在 InStereo2K / Cityscapes 上既刷新率失真性能(BD-PSNR 提升),又把编解码延迟压到 1.26s(比 SOTA 的 BiSIC 快约 62×)。
- ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation
-
ManifoldGD 是一个免训练的扩散式数据集蒸馏框架,它把"朝类别质心吸引"的模式引导向量投影到扩散流形的局部切空间上,剔除会把样本带离数据流形的法向分量,从而在不微调任何模型的前提下让合成数据同时保住语义一致性和几何保真度,FID、ℓ2/MMD 距离与下游分类精度都稳定优于已有的免训练乃至部分训练式蒸馏方法。
- Masking Teacher and Reinforcing Student for Distilling Vision-Language Models
-
Masters 通过"先把大教师按权重幅度掩码、再随训练逐步解掩还原满血"的渐进策略缩小师生容量鸿沟,并叠加一个用准确性奖励 + 蒸馏可迁移性奖励驱动的离线 RL,让小学生 VLM 稳定吸收大教师知识,在 13 个多模态评测上超过同尺寸紧凑模型、部分超过大模型。
- MEMO: Human-like Crisp Edge Detection Using Masked Edge Prediction
-
提出 MEMO 框架,通过掩码边缘训练和基于置信度排序的渐进式推理策略,仅使用交叉熵损失就能生成清晰的单像素边缘图,在 crispness-aware 评估上大幅超越现有方法(BSDS 上 CEval ODS 从 0.749 提升到 0.836)。
- Memory-Efficient Transfer Learning with Fading Side Networks via Masked Dual Path Distillation
-
MDPD提出通过冻结骨干网络与轻量侧网络之间的双向知识蒸馏实现高效微调,训练完成后丢弃侧网络,从而同时实现训练时的参数/内存高效和推理时的速度高效。
- Mining Attribute Subspaces for Efficient Fine-tuning of 3D Foundation Models
-
针对 VGGT 这类 3D 基础模型,作者用受控合成数据为纹理、几何、相机、光照四种 3D 变化各自提炼出一个"共享 LoRA 子空间",证明它们近似正交,把它们拼成一组精简的 LoRA 基底后只需训练一个小矩阵就能高效微调,在 3D 人脸防伪、着衣人体重建、透明物体重建上用更少参数(约 4M 对比 LoRA 16M)取得更优的下游精度。
- Mitigating The Distribution Shift of Diffusion-based Dataset Distillation
-
本文指出"用扩散模型做数据集蒸馏"会同时遭遇训练期与采样期两类分布偏移,提出两阶段框架——训练时用 L1 稀疏正则(RSM)逼扩散模型学一个紧凑稀疏的"蒸馏感知"流形,采样时放弃逐个 i.i.d. 的贪心生成、改为同步去噪整批样本并加 DPP 多样性 + 分布匹配两个协同引导(CGS),在 ImageNet 子集与 ImageNet-1K 上以更低算力取得 SOTA。
- Neural Differentiation in Deep Networks: A Theoretical Framework for Expressivity and Representational Diversity
-
本文提出"神经分化"的数学框架,用一个统一的神经分化指数 NDI(融合谱多样性、熵信息量、二阶曲率敏感度)来量化每个神经元/通道的功能独特性,并据此给出剪枝的可证明误差界;其落地算法 NDP 在 MNIST/CIFAR-10/Tiny-ImageNet/ImageNet 上以更高稀疏率取得与 SOTA 相当甚至更优的精度。
- OneSparse: A Unified Framework for Sparse Activation Layers in Vision Models
-
OneSparse 把 MoE 和记忆模块这两类原本各走各路的稀疏激活层,统一到「dispatch–process–combine」同一套抽象里,并据此设计了混合稀疏层 Nexus Layer——用记忆单元廉价地给所有 token 打底、只让专家单元精修语义关键区域,在 ImageNet / COCO / ADE20K 上以更低算力刷出比纯 MoE、纯记忆更好的精度–效率前沿。
- Otil: Accelerating Diffusion Model Inference via Communication-Efficient Multi-GPU Parallelism
-
Otil 发现扩散去噪相邻两步的 latent 激活只在少数空间区域显著变化,于是在多 GPU 并行推理时只传输变化最大的少数子块,再用动态轮询保证所有区域终会被覆盖,把 GPU-GPU 通信量最多砍掉 87.5%,在 PCIe 互联下实现 1.8×(2 卡 SD1.5)到 2.6×(4 卡 SDXL)的加速,且无需重训、兼容 few-step 采样器和 LoRA。
- Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression
-
提出 OmniParallax Attention Mechanism (OPAM) 用于分布式多视角图像压缩(DMIC),通过两阶段视差注意力显式建模任意视角对之间的相关性和对齐特征,构建的 ParaHydra 框架首次让 DMIC 方法显著超越 SOTA MIC 编码器,同时大幅降低计算开销。
- Perceptual Neural Video Compression with Color Separation and Rank Chain
-
针对现有神经视频压缩只追 PSNR、忽视人眼对亮度/色度感知差异、且可变码率下感知质量不一致两个问题,本文用「亮度-色度分离的双编解码框架(PNVC-C)」+「码率秩链对抗优化(Rc-GAN)」组合出 PNVC-CR,在 LPIPS / DISTS / KID / FID 等感知指标上相对 VTM 取得 77.71% / 53.94% / 54.44% / 42.27% 的 BD-rate 节省,同时仍保留客观保真度。
- Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals
-
针对「一步 DMD 蒸馏容量不足、多样性差,而直接多步扩展又显存爆炸、用随机梯度截断(SGTS)则退化回一步」的困境,本文提出 Phased DMD:把 SNR 区间切成子区间、每个阶段只蒸馏一个专家并渐进推向更高 SNR(中间阶段在中间时刻而非干净样本处停止),再为「无干净样本」推导出无偏的子区间分数匹配目标,从而天然产出少步 MoE 生成器,在 Qwen-Image-20B、Wan2.2-28B 等大模型上同时改善运动动态、视觉保真和生成多样性。
- PlanaReLoc: Camera Relocalization in 3D Planar Primitives via Region-Based Structure Matching
-
首次提出基于平面基元(planar primitives)和 3D 平面地图的相机重定位范式 PlanaReLoc,通过深度匹配器在统一嵌入空间中关联查询图像的平面区域与地图平面基元,实现了无需真实纹理地图、位姿先验或逐场景训练的轻量化 6-DoF 相机重定位。
- Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model
-
提出 CompACT,将每张图像压缩至仅 8 个离散 token(约 128 bits),通过冻结预训练视觉编码器保留规划关键语义信息、生成式解码补充感知细节,使基于世界模型的规划速度提升约 40 倍且精度不降。
- Preference-Aligned LoRA Merging: Preserving Subspace Coverage and Addressing Directional Anisotropy
-
本文从子空间覆盖(subspace coverage)和方向各向异性(anisotropy)两个视角重新审视LoRA合并问题,提出TARA-Merging框架,通过保留LoRA方向并结合偏好加权的交叉熵伪损失进行方向级重新加权,在8个视觉和6个NLI基准上持续超越现有合并方法。
- PRISM: Video Dataset Condensation with Progressive Refinement and Insertion for Sparse Motion
-
本文提出 PRISM,一种整体式视频数据集压缩方法:从仅两个时间锚点(首尾帧)出发,通过检测梯度方向冲突来自适应插入关键帧,在保持内容与运动的耦合完整性的同时实现 SOTA 的存储效率——在 miniUCF 1VPC 上用 20MB 达到 17.9% 准确率,比先前方法的 94MB 少 5 倍。
- PriVi: Towards a General-Purpose Video Model for Primate Behavior in the Wild
-
PriVi 构建了 424 小时的大规模灵长类视频预训练数据集,并通过在 V-JEPA 上进行领域级预训练(非目标数据集级别),首次证明了视频模型的领域级预训练可以跨数据集泛化,在四个灵长类行为识别基准上用仅 220K 参数的冻结分类器超越了全量微调的专用模型。
- Progressive Supernet Training for Efficient Visual Autoregressive Modeling
-
VARiant 发现视觉自回归(VAR)模型存在"尺度-深度非对称依赖"——早期低分辨率尺度极度依赖网络深度、后期高分辨率尺度对深度很鲁棒,据此把一个 30 层 VAR 训成共享权重的弹性深度 supernet(早尺度走全网络、晚尺度走 2–16 层子网),再用三阶段动态比例渐进训练打破固定比例的 Pareto 前沿,在 ImageNet 上让 d16/d8 子网几乎不掉点(FID 2.05/2.15 vs 1.95)却省 40–65% 显存。
- PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference
-
把一个已经预训练好的视频扩散模型(Wan2.1-1.3B)用极低成本微调改造成「金字塔」模型——高噪声阶段在低分辨率上算、低噪声阶段在高分辨率上算——在画质几乎不掉的前提下把推理 FLOPs 砍掉约 78%;再叠加针对金字塔结构定制的步数蒸馏(DMD / 对抗),做到只在目标分辨率上跑 1 步、其余阶段几步即可生成,速度与画质都逼近昂贵基线。
- QKD: Quantum-Gated Task-interaction Knowledge Distillation for Class-Incremental Learning
-
QKD 将量子门控引入类增量学习,通过参数化量子电路在高维 Hilbert 空间中建模样本-任务相关性,引导跨任务知识蒸馏和推理时适配器融合,在 5 个基准上达到 SOTA。
- Rank-Guided Pseudo-Bias Learning for Robust Black-Box Adaptation
-
PLD-Debias 在完全冻结、参数不可见的预训练视觉编码器之上挂一个轻量 adapter,先用秩正则化把潜在的虚假相关方向"放大"出来、再聚类得到 90%+ 保真度的伪偏置标签,最后用对比对齐 + 聚类自适应间隔两路 loss 净化表示,在 CelebA / Waterbirds / CMNIST 上无需任何群体标注就把最差群体准确率刷到 SOTA。
- Real-Time Neural Video Compression with Unified Intra and Inter Coding
-
针对实时神经视频压缩(如 DCVC-RT)在场景切换/新内容处帧内编码能力弱、必须靠"周期刷新"硬切导致质量骤降、比特率突刺和帧间误差累积的问题,本文用"单模型统一帧内/帧间编码 + 同时压缩两帧 + 混合参考训练",让模型按参考可靠性自适应在帧内/帧间间切换,在 DCVC-RT 基础上平均省码率 12.1%(BD-rate),且保持实时编解码、模型更小、无需刷新机制。
- ReFTA: Breaking the Weight Reconstruction Bottleneck in Tensorized Parameter-Efficient Fine-Tuning
-
ReFTA 把跨层权重堆成三阶张量、用 T-SVD 拆出主成分张量并只微调其主成分,再借张量代数的算子可交换性把"乘 \(U_0^\top\)"和"乘输入 \(X\)"换序,从而在前向/反向中彻底免去对张量权重的重复重构,用比 LoRA 少 96% 的可训练参数拿到更高的图像分类与 NLU 平均精度。
- Rethinking Dataset Distillation: Hard Truths about Soft Labels
-
这是一篇"打假"性质的分析论文:作者系统证明了大规模数据集蒸馏(DD)方法看似领先,其实主要是下游训练时用了软标签在撑场面——一旦在不同标签制度下做可扩展性分析,高质量子集相对随机子集的优势几乎消失;据此他们提出计算感知的难度剪枝指标 CAD-Prune 和对齐计算预算的蒸馏方法 CA2D,在 ImageNet-1K 多个 IPC 设置上超过现有 DD 方法。
- S2FT: Parameter-Efficient Fine-Tuning in Sparse Spectrum Domain
-
针对傅里叶类 PEFT 假设"权重变化 \(\Delta W\) 频谱稀疏"实际不成立(频谱接近功率均匀分布)的问题,S2FT 先粗估 \(\Delta W\),再用行列重排找到一个可逆变换把它映射成一个频谱真正稀疏的隐空间矩阵 \(\Delta\bar W\),在这个稀疏频谱域上只训练少量频谱系数,用 0.08% 参数就超过 FourierFT 等基线。
- Sampling-Aware Quantization for Diffusion Models
-
本文指出扩散模型的「快采样器」和「网络量化」两条加速路线一旦合用就会互相打架——量化噪声会扰动高阶采样器每一步的方向估计、把本应平滑的概率流 ODE 退化成方差爆炸的 SDE,于是提出「采样感知量化」,用一个混合阶轨迹对齐(Mixed-Order Trajectory Alignment)目标把量化后的一阶方向轨迹对齐到全精度高阶方向轨迹,让概率流更线性,从而在稀疏步数下同时拿到「采样加速 + 模型压缩」的双重加速而几乎不掉质。
- SANER: Switchable Adapter with Non-parametric Enhanced Routing for Person De-Reidentification
-
SANER 把"选择性遗忘特定行人"的去重识别(De-ReID)从单一特征空间里的矛盾优化拆成两个独立的低秩适配器(遗忘 / 保留),再用一个非参数的测试时路由算法按 query 与原型的相似度决定走哪条分支,从而在几乎不损伤其他身份识别精度的前提下彻底"忘掉"目标身份。
- SelecTKD: Selective Token-Weighted Knowledge Distillation for LLMs
-
SelecTKD 把 LLM 蒸馏的关注点从"用什么散度度量教师-学生差距"转向"在哪些 token 上施加监督",借鉴投机解码用"提议-验证"机制给每个 token 打上 \(\{0,\beta,1\}\) 的权重,只在教师高置信、师生一致的 token 上施加全损失,在指令跟随、数学、代码和 VLM 上即插即用地刷新了小模型 SOTA。
- SG-LoRA: Semantic-guided LoRA Parameters Generation
-
SG-LoRA 用一句任务文字描述作为"语义桥梁",从一组已训练好的专家 LoRA 中加权聚合出任务语义,再用条件 VAE 直接采样生成目标任务的 LoRA 参数,从而在没有目标任务任何数据、且任务空间开放的条件下实现免微调的实时模型适配,在图文检索上达到甚至超过逐任务微调(Oracle)的水平。
- SigLino: Efficient Multi-Teacher Distillation for Agglomerative Vision Foundation Models
-
SigLino 系统研究"把多个视觉基础模型(SigLIP2 + DINOv3)蒸馏成一个聚合式学生模型"的数据效率问题,提出非对称关系蒸馏(ARKD)、token 均衡 batching、层次聚类数据筛选三件套,只用 200M 图(约 RADIO 1/4.7 的 token 预算)就在分类/检索/分割上超过同规模 RADIOv2.5,并把学生直接拿去初始化早融合 grounding VLM 的视觉专家。
- Streamlined Knowledge Distillation
-
本文指出近年 logit 蒸馏越堆越复杂(多知识对齐 + 关系建模)反而带来冗余目标和不当损失,提出极简的 SKD——只传两类知识:用 KL 散度传「实例级」语义、用归一化 logit 的 Gram 矩阵传「方向级」关系,并为后者设计一个经 Tikhonov 正则 + Cholesky 分解稳定化的马氏距离损失(可证等价于协方差白化空间里的 L2 范数),在 CIFAR-100/ImageNet/COCO 上不仅超过所有 logit 蒸馏、甚至超过特征蒸馏,训练还最快。
- TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery
-
提出首个面向 on-the-fly 类别发现(OCD)的测试时自适应框架 TALON,通过语义感知原型更新 + 稳定编码器适应 + 边距感知 logit 校准,摒弃哈希编码在连续特征空间直接建模,大幅缓解类别爆炸并显著提升新类发现精度。
- TAS-LoRA: Transformer Architecture Search with Mixture-of-LoRA Experts
-
针对一次性 Transformer 架构搜索(TAS)中"子网共享权重导致特征坍缩"的顽疾,TAS-LoRA 给冻结的超网挂上一组 LoRA 专家,用一个吃"架构配置"的 LSTM 路由器为每个子网动态组合专家、学到子网专属特征,并靠分组式路由器初始化逼专家从训练初期就学得各不相同,在 ImageNet 上把 AutoFormer 各尺度的搜索结果稳定提升 0.2~1.0 个点且推理零额外开销。
- TaskIT: Memory-Efficient Fine-Tuning of Multi-LoRA LLMs via Cross-Task Importance Transfer
-
TaskIT 在显存受限的端侧设备上为多 LoRA 大模型适配新任务:它先用「跨任务迁移」在不训练任何新模块的前提下预测每个候选 LoRA 位置的重要性,再用「块级显存预测器」准确估出 Transformer 上的激活显存,最后用动态规划调度器在显存预算内挑选 LoRA 的位置、数量和秩,从而拿到比 Zero-FT / non-LoRA / 现有 LoRA 微调更好的精度-显存折中。
- Teacher-Guided Routing for Sparse Vision Mixture-of-Experts
-
用一个冻结稠密教师模型搭出的"教师路由器"产生稳定的专家分配分布,再用 KL 蒸馏去监督稀疏 MoE 学生的路由器,从训练早期就缓解了稀疏 MoE 路由器"只有被选中专家才有梯度"导致的路由抖动问题,在 ImageNet-1K / CIFAR-100 上稳定提点且推理零额外开销。
- Test-time Sparsity for Extreme Fast Action Diffusion
-
本文提出"测试时稀疏(test-time sparsity)",用一个共享编码器的轻量 pruner 在每次前向时动态预测可剪掉的残差块,再配上把历史特征组织成 3D 点阵的"全向复用"策略,在机器人动作扩散上做到 95% 稀疏、92% FLOPs 削减、5× 实际加速,把推理频率从 6Hz 拉到 47.5Hz 且成功率不掉。
- ThinkingViT: Matryoshka Thinking Vision Transformer for Elastic Inference
-
ThinkingViT 把"先用少量注意力头快速预测、不确定就扩大子网重新思考"的渐进机制塞进一个嵌套 ViT,并用 Token Recycling 把上一轮的特征喂回下一轮,在同等吞吐下比 MatFormer / HydraViT 等嵌套基线在 ImageNet-1K 上高出最多 2.0 个点。
- TimeRipples: Accelerating vDiTs by Understanding the Spatio-Temporal Correlations in Latent Space
-
本文从潜在空间的时空相关性出发解释了视频 DiT(vDiT)注意力图为何会呈现各种模式,发现这些模式其实是 token 在 RoPE 划分的「时间 / x / y」通道组上的时空相关性叠加而成,据此提出一种沿通道复用相似 token 部分注意力分数的轻量方法,并用一个把复用比例和误差挂钩的解析模型自适应选阈值,在 4 个 vDiT 上节省约 85% 的注意力计算、端到端最高 2.7× 加速,而 VBench 几乎无损(<0.06%)。
- Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning
-
提出 Image-Adaptive Prompt Learning (IAPL),在推理时根据每张测试图像动态调整 CLIP 编码器的 prompt,通过测试时 token 调优和条件信息学习器实现对未见生成器的强泛化,在 UniversalFakeDetect 和 GenImage 上分别达到 95.61% 和 96.7% 平均准确率的 SOTA 性能。
- Towards Unified Human Perception and Machine Understanding: Token Flow Guided Compression Framework
-
TFGC 把图像压成 1D token 序列,用「token flow」现象做可变码率掩码 + 条件高斯预测来重建缺失 token,再用语义引导模块让 LVLM 直接吃压缩 token(不解码回图像),在 0.02–0.06 bpp 超低码率下同时兼顾人眼感知质量和机器理解任务(caption/grounding/VQA)。
- Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers
-
LLSA 把 Top-K 稀疏注意力的「单层粗选」扩展成「多层级粗到细」的层次结构,让选块阶段和注意力阶段的复杂度同时从 \(O(N^2)\) 降到对数线性,再配上一个不构建稠密 mask 的稀疏索引反传内核,在 256×256 像素 DiT 上把注意力推理加速 28.27×、训练加速 6.09× 且不掉生成质量。
- TWEO: Transformers Without Extreme Outliers Enables FP8 Training And Quantization For Dummies
-
本文提出 TWEO,一个仅靠一项正则损失项就能把 Transformer 激活极端离群值从 10000+ 压到 20 以下的"非侵入式"方法:它先用对照实验和 SVD 分析证明极端离群值并非数据驱动、而是权重共线性导致的"机械产物",再据此设计一个直接惩罚激活幅值的 \(L_p\) 损失,从而让全模型 FP8 预训练(不靠任何混精度工程和架构改动)稳定收敛、达到 BF16 水平并提速 36%,同时让最简单的 per-tensor 静态量化(含残差流)首次可用。
- Ultra-Fast Neural Video Compression
-
本文提出 DCVC-UF,用"把一整段(chunk)多帧编码进单个紧凑 latent、再并行解码回所有帧"的 chunk 编码范式,彻底甩掉逐帧运动估计,配合帧专属解码器和单步熵解码,在 1080p、4090 GPU 上做到 371 编码 / 274 解码 FPS 的同时还把码率比 VTM(LD) 省了 42.2%,刷新神经视频编码的率-失真-复杂度 SOTA。
- Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder
-
本文提出非对称极致图像压缩框架 AEIC,先用理论说明「超低码率(<0.05 bpp)下隐变量方差天然很小、不需要重编码器」,进而把编码端做成一个 0.94M 参数的像素域浅卷积网络、把生成能力全部压进单步扩散解码器,再用双侧特征蒸馏把中等编码器的知识迁给浅编码器,最终在 1080P 上做到 35.8 FPS 实时编码、比同类极致压缩方法快约 19 倍,且感知指标(LPIPS/DISTS/FID/KID)反而领先。
- Understanding and Enforcing Weight Disentanglement in Task Arithmetic
-
本文提出任务特征专业化(TFS)作为权重解耦的充分条件,揭示其几何结果是权重向量正交性,并基于此提出 OrthoReg 正则化方法,通过在微调时强制权重更新矩阵的列向量正交来促进任务向量解耦,显著提升各种任务算术方法的性能。
- UniComp: Rethinking Video Compression Through Informational Uniqueness
-
提出基于信息唯一性(而非注意力)的视频 token 压缩框架 UniComp,通过帧组融合、token 分配和空间动态压缩三个模块在时序-空间-全局维度上最大化保留唯一信息,在仅保留 10% token 时仍能超越未压缩基线性能。
- What Matters in Practical Learned Image Compression
-
Apple 系统性消融了"既要感知质量好、又要端侧跑得快"的学习图像编解码器里每一个建模选择,再对上百万种主干配置做性能感知的 NAS,最终造出 PICO——在 iPhone 17 Pro Max 上 230ms 编码、150ms 解码 12MP 图像,主观用户研究里比 AV1/VVC/JPEG-AI 省 2.3–3 倍码率、比最强学习编解码器还省 20–40%。
- When Lines Meet Textures: Spatial-Frequency Aligned Diffusion Features for Cross-Sparsity Correspondence
-
针对"稀疏线条草图"与"纹理丰富照片"之间难以建立语义关键点对应的问题,本文提出 SFA-DIFT:先用 LoRA 把 CleanDIFT 微调成跨模态统一的"干净扩散特征"对齐空间域,再用基于小波的低频聚合模块(LoFFA)对齐频域,在自建的 MS-PSC6K 基准上把 PCK 全面刷到新 SOTA。
- WPT: World-to-Policy Transfer via Online World Model Distillation
-
WPT 提出世界-策略转移训练范式,通过可训练的奖励模型将世界模型的未来预测知识注入教师策略,再通过策略蒸馏和世界奖励蒸馏转移到轻量学生策略,实现79.23驾驶得分(闭环)且推理速度提升4.9倍。