ICML2026 模型压缩论文解读论文笔记 LLM 压缩/编码扩散模型推理对抗鲁棒

📦 模型压缩¶

🧪 ICML2026 · 116 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (108) · 🔬 ICLR2026 (239) · 💬 ACL2026 (59) · 🤖 AAAI2026 (60) · 🧠 NeurIPS2025 (143) · 📹 ICCV2025 (52)

🔥 高频主题： 模型压缩 ×25 · LLM ×19 · 压缩/编码 ×15 · 扩散模型 ×5 · 推理 ×4

A Language-Guided Bayesian Optimization for Efficient LoRA Hyperparameter Search: 本文把 LoRA 超参数配置写成带领域解释的文本，让冻结 LLM、可学习 token 和投影层共同构造 BO 的连续搜索空间，再用 10% 数据代理评估降低每次试验成本，在 30 次左右搜索内显著优于默认 LoRA 配置和常规 HPO 方法。
A Queueing-Theoretic Framework for Stability Analysis of LLM Inference with KV Cache Memory Constraints: 本文建立首个显式纳入 KV 缓存显存动态的 LLM 推理排队模型，给出闭形稳定性条件 \(\lambda < \mu(1-\delta)\)，使运维人员可直接计算所需 GPU 数；在单 GPU、8 GPU 集群与 LongBench 真实数据上验证误差均 \(\leq 10\%\)。
Active Budget Allocation for Efficient Scaling Law Estimation via Surrogate-Guided Pruning: 本文把 scaling law 实验中的训练预算分配建模为多轮资源选择问题，用 Successive Halving 结合学习曲线 surrogate 预测未来潜力，在 synthetic 和 nanoGPT 学习曲线上以最高 98.7% 的训练成本节省近似完整 scaling law。
Active Tabular Augmentation via Policy-Guided Diffusion Inpainting: 本文形式化了表格增强中的"保真度-效用间隙"问题（生成器优化分布匹配，而增强价值源于低密度区域），提出 TAP 算法通过扩散填补做流形约束提议、策略引导的效用对齐选择、硬约束门控加保守窗口提交，在 7 个真实表格数据集上相比基线最多提升分类精度 15.6%、回归 RMSE 降低 32%。
Advantage Collapse in Group Relative Policy Optimization: Diagnosis and Mitigation: 这篇论文指出 GRPO 在二值可验证奖励下会因为组内奖励全同而失去梯度信号，提出 ACR 指标实时诊断这种“优势坍塌”，并用 AVSPO 注入虚拟奖励样本恢复组内方差，从而在多个 Qwen2.5 数学推理模型上稳定提升 4-6 个百分点。
An Algebraic View of the Expressivity of Recurrent Language Models: 这篇论文把 RNN/SSM 的形式语言表达能力统一为一个代数问题：在固定数值语义后，模型能识别的语言由其层级转移幺半群及其 wreath product 决定，并且同一架构在浮点与无符号整数语义下会得到完全不同的计数能力。
ArcVQ-VAE: A Spherical Vector Quantization Framework with ArcCosine Additive Margin: 作者诊断出 VQ-VAE 的码本坍塌根源是"码本向量 ℓ2 范数失衡 + 几何聚集"，于是提出 SAMP：Ball-Bounded Norm Regularization 把所有码本向量约束在时变 Euclidean 球内、ArcCosine Additive Margin Loss 借鉴 ArcFace 在球面上推开 latent 向量，从而让码本均匀分散、利用率大幅上升，在 ImageNet 重建和生成 FID 上都击败主流 VQ-VAE 变体。
AREA: Attribute Extraction and Aggregation for CLIP-Based Class-Incremental Learning: 这篇论文把 CLIP 类增量学习中的遗忘拆成“属性抽取漂移”和“属性聚合漂移”，提出 Area 用 PGA 在超球面上固定视觉/文本属性锚点，再用轻量任务专家、VIB 正则和 OT 路由稳定属性聚合，从而在九个 CLIP-CIL benchmark 上显著提升平均精度和最终精度。
Auditing and Fixing Economic Validity in Tabular Foundation Models for Discrete Choice: 本文发现TabPFN和Mitra等表格基础模型在离散选择任务中虽然准确率高，却会违反价格-需求单调性和值得信任的时间价值估计，因此提出两阶段行为适配器，把TFM预测嵌入受经济理论约束的效用模型中，在保持100%行为有效性的同时回收大部分准确率收益。
Beyond Temperature: Hyperfitting as a Late-Stage Geometric Expansion: 本文通过控制实验证明 Hyperfitting（在小数据集上将 LLM 训练到近零损失）的本质不是温度缩放式的分布锐化，而是一种动态的、上下文相关的 token 秩重排序（Rank Reordering）机制，该机制集中发生在 Transformer 最后一层的"终端几何扩展"（\(\Delta \text{Dim} \approx +80.8\)），并据此提出仅微调最后 5 层的 Late-Stage LoRA，在减少约 80% 可训练参数的同时保持生成多样性。
Beyond Tokens: Enhancing RTL Quality Estimation via Structural Graph Learning: 提出 StructRTL，在 RTL 设计的控制数据流图（CDFG）上做结构感知的图自监督预训练（掩码节点建模 + 边预测），再配合从后映射网表到 CDFG 的知识蒸馏，大幅超越 LLM 和手工特征方法在面积/延迟预测任务上的 SOTA。
BioArc: Discovering Optimal Neural Architectures for Biological Foundation Models: BioArc 提出了一个面向生物基础模型的异构神经架构搜索框架，通过在包含 CNN/LSTM/Transformer/Mamba/Hyena 五种基本模块的搜索空间中自动发现最优混合架构，以不到 1/25 的参数量超越现有 SOTA 生物基础模型。
Bounded Hyperbolic Tangent: A Stable and Efficient Alternative to Pre-Layer Normalization in Large Language Models: 提出 Bounded Hyperbolic Tanh (BHyT)，一种基于数据驱动输入界定的 \(\tanh\) 变换，作为 Pre-Layer Normalization 的即插即用替代，在抑制深度方向激活增长的同时避免重复方差计算，训练速度比 RMSNorm 快 1.6%、生成吞吐提升 1.77%，且下游性能全面优于现有方法。
Breaking the MoE LLM Trilemma: Dynamic Expert Clustering with Structured Compression: 针对 MoE LLM 的"负载不均–参数冗余–通信开销"三难，本文提出一个统一框架：用"参数 + 激活"双相似度在线聚类把专家分组，组内用"共享基矩阵 + 低秩残差"做结构化压缩 (~5×)，再做"先选组后选 expert"的两级分层路由 + FP16/INT4 异构精度 + 闲置组离线卸载，在 GLUE/WikiText-103 上以约 80% 参数缩减、10–20% 吞吐提升、专家负载方差降 3× 的代价匹配标准 MoE 性能。
Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video: 本文通过识别"帧级单射性"的理论需求，提出 Causal Forcing 方法——用自回归教师模型替代双向教师进行 ODE 蒸馏初始化，避免 Self-Forcing 中的性能坍缩；相比 Self-Forcing 动态度 +19.3%、VisionReward +8.7%、指令遵循 +16.7%，同时保持相同推理延迟（0.69s）。
Compositional Consistency-Guided Decoding for Three-Way Logical Question Answering: 利用三分类逻辑问答中假设 \(H\) 与其否定 \(\neg H\) 之间的确定性否定映射关系，在测试时组合多次 LLM 调用并通过一致性约束消歧，无需训练即可减少认识性弃权（epistemic Unknown）并提升推理准确率。
Compress then Merge: From Multiple LoRAs into One Low-Rank Adapter: 提出 Compress-then-Merge (CtM) 管线，在合并多个 LoRA 之前先学习共享 \(r\) 维子空间并将各 adapter 投影为 \(r \times r\) 坐标矩阵，再在低维空间中执行合并，从而在构造层面保证输出为 rank-\(r\) LoRA，避免了传统 Merge-then-Compress 方法的截断 SVD 性能损失。
Continual Model Routing in Evolving Model Hubs: 当模型 hub 里的可用专家从几百涨到上千、还在持续新增/淘汰时，传统"训一次路由器"或"纯检索 model card"都顶不住；作者把这个问题形式化成"持续分类（label space 不断长大）"，搭出 CMRBench 这个跨 4 期、超过 2000 个候选模型的基准，并提出 CARvE——一个用对比嵌入打分、用 checkpoint anchoring 防漂移、用结构化负样本回放维持判别力的持续路由器，在 D-Acc 上比标准 LoRA 重放高 5 个点、遗忘只有它的 1/2。
Critique-Guided Distillation for Robust Reasoning via Refinement: 让 student 在训练时消费而不是生成 teacher 的 critique——以 (prompt, student 自答, teacher critique) 为条件预测 teacher 的 refined answer，推理时只需一遍 prompt 就能产出更长更准的推理链，且不像 CFT 那样把指令跟随能力毁掉。
DAG-MoE: From Simple Mixture to Structural Aggregation in Mixture-of-Experts: 把标准 MoE 中 top-\(K\) 专家输出的"加权求和"替换为按一个动态学习出来的 DAG 进行结构化聚合，在几乎不增加路由与参数开销的前提下显著提升 MoE 表达能力与下游推理表现。
Decomposing the Basic Abilities of Large Language Models: Mitigating Cross-Task Interference in Multi-Task Instruct-Tuning: 论文针对多任务指令微调中的跨任务梯度冲突问题，提出 Badit：先用 SVD 把预训练权重分解为一组天然正交的高奇异值 LoRA "基础能力"专家，再在训练过程中用球面 K-means 对 rank-1 分量做动态正交分组，从而把"按任务隔离参数"的传统思路改为"按基础能力解耦"，在 6 个 LLM 上平均比 GainLoRA 提升 2.68 Rouge。
Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training: 为了在 LLM 预训练里找最优数据混合比例又不被代理实验拖垮，本文提出 DeMix——只训一次 \(N\) 个 component 模型（每个对应一个候选子集），随后任意候选比例 \(\{\alpha_i\}\) 都通过加权合并 \(\sum_i \alpha_i \Theta_i\) 当作"训练自由"代理，并用 LightGBM 在 simplex 上做迭代回归选最优配方，最终用比 RegMix/CLIMB 少约 \(6\times\) 的算力得到更好的下游分数，并附带开源 22T tokens 的 DeMix Corpora。
Demystifying When Pruning Works via Representation Hierarchies: 论文从"嵌入 → logit → 概率"三段表征层次出发，用 Taylor 局部展开理论证明：剪枝对嵌入空间和 logit 空间的扰动天生很小，但 softmax 这一非线性步骤会按 \(\mathrm{Var}_r(\Delta z)/(2T^2)\) 把扰动放大到概率空间，再经过自回归解码的步间累积，最终导致生成任务崩溃；而非生成任务因为只依赖候选 token 子空间，对剪枝天然鲁棒——这统一解释了为什么剪枝在 MMLU、retrieval 上几乎无损但在 GSM8K、HumanEval 上骤降到 0。
Detecting Fluent Optimization-Based Adversarial Prompts via Sequential Entropy Changes: 作者把"流畅型优化越狱后缀检测"建模成 token-level 熵流上的在线变点检测：用固定系统提示的熵分布算 MAD 鲁棒基线把用户 token 熵标准化，跑一边 Page-CUSUM 累计统计量 \(W_t^+\) 越阈值就报警，在 6 个开源对齐 LLM 上对 GCG / AutoDAN / AdvPrompter / BEAST / AutoDAN-HGA 五类攻击都比窗口困惑度 F1 更高，并能把 79.6% 的报警精确定位到 suffix 内部，还能当 LLaMA Guard 的轻量门，节省 17-42% 的 guard 调用。
Dispersion Loss Counteracts Embedding Condensation and Improves Generalization in Small Language Models: 本文系统观测到 "小语言模型的 token 嵌入会随深度坍缩到一个窄锥体"（embedding condensation）这个普遍现象——大模型反而不会——并设计了一个角度分散损失 \(\mathcal{L}_{\text{disp}}\) 直接逼嵌入散开，无须加参数就让 Qwen3 / GPT2 在 10 个 benchmark 上平均提升 3.3%。
DIVER: Diving Deeper into Distilled Data via Expressive Semantic Recovery: DIVER 把经典数据集蒸馏 (DD) 从"单阶段直接评估"改造成"先蒸馏再用预训练扩散模型救活语义"的双阶段范式，通过语义继承、语义引导、语义融合三步从 ConvNet 蒸馏出来的"乱码"图像中恢复被压抑的高层语义，让同一份蒸馏数据在 ResNet18/ViT 等异构架构上的精度普遍提升 3–10 个百分点，每张图只要 2.48s 和 4GB 显存。
Don't Ignore the Tail: Decoupling top-K Probabilities for Efficient Language Model Distillation: 本文提出 TAD（Tail-Aware Distillation）：在标准 KD 的 KL 散度中显式把教师 top-\(K\) 概率与"尾部"概率拆开并放大尾部贡献，从而在学术级算力（单卡 H100 + 1 周）内完成 LLM 预训练蒸馏，平均效果优于 MiniPLM 等数据中心方法。
DSL-Topic: Improving Topic Modeling by Distilling Soft Labels from Language Models: 作者用小语言模型在"给文档生成一个主题词"提示下产生的下一 token 概率投影到主题模型词表，作为 dense 软标签替换传统的 BoW 重构目标来训练神经主题模型 (ProdLDA / ECRTM / FASTopic)，在 20NewsGroup、TweetTopic、StackOverflow 三个数据集上把分配纯度 (Purity) 拉高一大截，并给出"把 LM 隐式后验预测投影到结构化主题家族"的贝叶斯解释。
Easier to Judge Than to Find: Predicting In-Context Learning Success for Demonstration Selection: 本文把 ICL 示例选择从「在巨大组合空间里搜最优 \(D^\star\)」改造为「对采样到的 \((q,D)\) 对判断是否会成功」，提出 DiSP——一个按查询难度分层、用轻量裁判模型做「采样–判定–接受即停」的框架，在五个分类基准上比强基线最多提升 3.4%，端到端实时延迟最多降 23×。
Effective Model Pruning: Measure the Redundancy of Model Components: 本文借鉴粒子滤波中的「有效样本量」概念，把任意打分向量直接映射到一个自适应保留个数 \(N_{\text{eff}} = \lfloor 1/\sum_i \omega_i^2 \rfloor\)，作为剪枝阈值，避免人工设定稀疏度并给出剪枝前后损失变化的理论上界。
Efficient Learned Image Compression without Entropy Coding: EF-LIC 用"无约束向量量化最大化索引熵 + 表征域上下文重参数化消除潜变量间相关性"两步替代了 learned image compression 流水线里慢且串行的熵编码模块，理论证明其 R–D 性能可逼近熵编码方案，实际在 Kodak/LPIPS 上比 MS-ILLM 省码 67.86% 且解码快 10 倍。
End-to-End Compression for Tabular Foundation Models: TACO 在 TabPFN 类表格基础模型前面接一个可学习的 transformer 压缩器，把 \(N\) 行训练上下文压成 \(K\ll N\) 行的潜在表示后再喂给预测器，并与预测器端到端联合元学习，使得 1% 压缩率下推理快 94 倍、显存省 97% 而 ROC-AUC 几乎无损。
Energy-Structured Low-Rank Adaptation for Continual Learning: E2-LoRA 不在参数空间或输入特征空间做正交约束，而是把视角换到"任务引起的输出特征漂移" \(\Delta \mathbf{Y}_t = \Delta \mathbf{W}_t \mathbf{X}_t\)，对它做 SVD 后把 LoRA 参数重排到能量集中且按秩有序的基上，从而能丢掉低能量秩、把容量回收给新任务，并配合按能量保留率自适应分配秩的策略，在多个持续学习基准上拿到 SOTA。
Entropy-Aware On-Policy Distillation of Language Models: 针对在策略蒸馏中 reverse KL 在教师高熵区域引发多样性坍缩和梯度不稳的问题，提出根据教师 token 级熵值自适应混合 forward KL 与 reverse KL 的蒸馏策略，在六个数学推理基准上 Pass@8 最高提升 +5.05。
EpiCache: Episodic KV Cache Management for Long-Term Conversation on Resource-Constrained Environments: 提出 EpiCache，一个免训练的 KV 缓存管理框架，通过分块预填充控制内存上限、情节式聚类保留话题相关上下文、层级敏感度感知的预算分配优化层间缓存分配，在三个长对话 QA 基准上以 4-6 倍压缩率达到接近全缓存精度，并将峰值内存降低 3.7 倍。
Event2Vec: Processing Neuromorphic Events Directly by Representations in Vector Space: 仿照 word2vec 的思路，把事件相机产生的稀疏异步事件 \((x,y,t,p)\) 直接嵌入到向量空间，用参数化空间嵌入 + 卷积时间嵌入 + K-Means++ 聚合，让标准 Transformer 既能保留事件的稀疏异步特性，又能在 GPU 上高吞吐运行，参数量只有以往 SOTA 的 \(\tfrac{1}{2.8} \sim \tfrac{1}{816}\)。
EVL-ECG: Efficient ECG Interpretation With Multi-Aspect Heterogeneous Knowledge Distillation: EVL-ECG 针对 ECG 解读的 VLM 蒸馏问题（teacher 与 student 在视觉 token 数量、tokenizer、序列长度上都异构），引入"多头交叉注意力对齐 + 最优传输视觉特征匹配 + 几何关系内部匹配"三模块的跨架构蒸馏框架，把 2B 学生模型推到 SOTA，AUC 比已有 KD 高 2.4%、临床准确率高 1.1%。
Exploiting Weight-Space Symmetries for Approximating Curvature: 本文证明只要利用神经网络损失对参数重排/重缩放等"权重空间对称群"的不变性、对单个梯度做轨道平均，就能从一次梯度计算里解析地导出一个高度结构化、可廉价存储与求逆的 Hessian 近似；并且 Shampoo / Muon 恰好对应"对某些层指派恒等群"的特例，从而把这两类经验型优化器纳入统一的对称-曲率框架。
FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models: 针对扩散语言模型（dLLM）"写入即不可改"的脆弱性，FAIR-Calib 先用全精度教师探测出一份"前沿位置先验"，再用这份权重去做逐层加权隐状态 MSE 校准，从而在 W4A4 下专门保护那些一旦被量化误差翻转就会被永久锁死并放大的边界 token，在 LLaDA / Dream 上稳定超过现有量化基线。
FedRot-LoRA: Mitigating Rotational Misalignment in Federated LoRA: 本文指出联邦 LoRA 中朴素 factor-wise 平均的真正"敌人"是旋转不变性导致的潜在子空间错位，提出在客户端用正交 Procrustes 求解出旋转矩阵 \(R_i^t\) 对齐 \(A,B\) 因子后再聚合，理论与实验都证明能显著降低聚合误差且不增加通信开销。
FedSDR: Federated Self-Distillation with Rectification: 针对联邦 LLM 微调中客户端数据分布异质带来的"权重漂移"，本文先用模型自身把原始指令重写到"模型可理解空间"做数据级对齐（FedSD），再用 LoRA-S/LoRA-R 双流结构分别吸收风格噪声和锚定事实正确性、并只聚合 LoRA-R，把对齐与忠实解耦，从而在多种 Non-IID 设置下取得 SOTA。
Finer Parameter Steps for Low-Rank PEFT: A Controlled Study with CP Tensor Adapters: 作者把 LoRA 的"按 rank 增长"换成"按 CP 张量分量增长"，让单步参数增量从 4096 降到 193 (小 21×)，并在 OPT-1.3B / SST-2/RTE/BoolQ 上做严格 controlled study 证明：更细的参数粒度可以作为"诊断 PEFT 预算敏感度"的工具，但本身并不能换来更好的准确率-预算曲线——这是一个清醒的负-中性结论而非"我家方法更强"的宣传。
FlattenGPT: Depth Compression for Transformer with Layer Flattening: 本文提出 FlattenGPT，先把 LLM 中输入相似度高的相邻 transformer 层"扁平化"合并为一个 2× 宽度的层 (保留所有参数知识)，再对合并层做通道剪枝把宽度恢复到原始规模——既享受深度压缩的推理加速，又避免传统层剪枝直接丢知识的性能塌方。
Float8@2bits: Entropy Coding Enables Data-Free Model Compression: EntQuant 把权重以 Float8/Int8 精度保留，但在量化阶段额外加一个 \(\ell_1\) 正则把权重往低熵方向"对齐"，再用 GPU 上并行的 ANS 熵编码无损压到 2 bit 左右，从而在完全不需要校准数据、10 分钟以内、不做恢复训练的前提下，把 70B LLM 压缩到 8× 以上且推理只慢 1.5–2 倍。
FRISM: Fine-Grained Reasoning Injection via Subspace-Level Model Merging for Vision–Language Models: FRISM 把「VLM × LRM 合并」从层级粒度细化到 SVD 子空间粒度：用 LRM 任务向量的 SVD 子空间作为推理先验，再用一个仅含可学习门控的无标签自蒸馏（KL 保视觉 + 谱幅最大化吸收推理）找到最优注入强度，从而在不显著掉视觉的前提下显著提升 VL 推理性能。
From Per-Image Low-Rank to Encoding Mismatch: Rethinking Feature Distillation in Vision Transformers: 作者用 sample-wise SVD + dataset-level PCA + token-level Spectral Energy Pattern (SEP) 三视角揭示了一个看似矛盾的 ViT 表征几何："每张图的特征矩阵都是低秩的，但跨图共享的子空间却几乎要满秩 + 单 token 的频谱带宽接近 100%"，进而提出 Lift（推理时保留 lifting projector）和 WideLast（只把最后一个 block 加宽到 teacher 宽度）两个极简补丁，让普通 MSE 特征蒸馏在 DeiT-Tiny ← CaiT-S24 上从 74.86% 一路涨到 78.23%。
GEMQ: Global Expert-Level Mixed-Precision Quantization for MoE LLMs: GEMQ 把 MoE 大模型的 expert 比特位分配从层内局部 LP 升级成跨层全局 LP，并配合"量化后微调 router 权重"来对齐被量化扭曲的路由分布，再用"渐进式降比特"的迭代框架反复修正重要性估计，在 Mixtral-8×7B 等 4 个 MoE 模型上把每 expert 平均 2.5 bit 的压缩下 MMLU 等 7 项 zero-shot 平均掉点压在 7% 以内，同 bit 预算下显著超过 PMQ / SpQR / MoEQuant / EAQuant。
Geo-Expert: 用 LoRA 把 8B 模型微调成专家级地质推理 LLM: Geo-Expert 把 11,518 条从五本地质学经典教科书蒸馏出的 CoT-enhanced 指令数据用 LoRA 微调 Qwen3-8B/32B 和 Gemma-3-27B；在 Geo-Eval（387 hard boundary 题）上 Qwen3-8B-geo 平均 6.27 超过 Llama-3.1-70B-Instruct（4.12）和 GPT-4o（5.93），Qwen3-32B-geo 6.82 接近 GPT-5.4（7.15）；证明 high-quality domain alignment 比 scaling 重要。
Global Convergence of Adaptive Sensing for Principal Eigenvector Estimation: 本文建立压缩流式 PCA 的最优收敛率——使用每步两个自适应测量的 Oja 算法在有噪声观测下的误差上界与信息论下界匹配（均为 \(\Theta(\lambda_1 \lambda_2 d^2 / (\Delta^2 t))\)），首次揭示压缩相对完全观测的根本代价是额外的 \(d\) 因子，而自适应相对非自适应又救回一个 \(d\) 因子。
GradPower: Powering Gradients for Faster Language Model Pre-Training: GradPower 在喂给任意梯度优化器之前对原始梯度做一次逐元素的"符号保留幂次"变换 \(\varphi_p(g_i)=\mathrm{sign}(g_i)\,|g_i|^p\)，仅多一行代码、不动 AdamW/Muon 内部逻辑和超参，就能在 LLaMA / Qwen2MoE 从 66M 到 2B 的多个规模上一致拿到更低的终末 loss，尤其在 MoE + wsd 学习率调度下增益最显著。
Hard Labels In! Rethinking the Role of Hard Labels in Mitigating Local Semantic Drift: 针对大规模数据集蒸馏中"每张图存大量软标签"导致的天价存储成本，本文证明在每图软标签数 \(s\) 受限时会发生局部视图语义漂移 (LVSD)，并提出 soft→hard→soft 三阶段训练范式 HALD，用平滑后的硬标签作为语义锚把训练拉回正轨——ImageNet-1K 上 285M 软标签存储取得 42.7% 准确率，比 SOTA LPLD 涨 9.0%、软标签存储压缩 100 倍。
Hierarchical Image Tokenization for Multi-Scale Image Super Resolution: H-VAR 把"残差量化做多尺度生成"的 VAR 范式重新切片成层次化的图像 tokenization (HIT)，让一个 310M 的小模型只跑一次前向就能输出 128 / 256 / 512 三个有意义的中间分辨率，再配一个不需要外部奖励模型的 DPO 正则项推动输出偏向 HR，在标准 ISR 数据上对打 1B 参数的 VARSR。
IDLM: Inverse-distilled Diffusion Language Models: 本文把连续扩散的"反向蒸馏 (Inverse Distillation)"扩展到离散文本扩散模型，通过证明 IDLM 损失在 SEDD/MDLM/Duo 下的唯一最优解就是真实数据分布，再配合 simplex 松弛与 Gaussian 重参数化解决离散反传不稳定问题，把 1024 步教师 DLM 压到 16 步甚至 4 步而保持 GenPPL/Entropy 与 MAUVE 几乎不掉。
Images as Tables: In-Context Learning with TabPFN for Low-Data Detection of AI-Generated Images: 作者把 AI 生成图像检测改写成"先用冻结的 DINOv3 把每张图压成 768 维 CLS 向量、再 PCA 降到 500 维当作一行表格、最后扔给 TabPFN 做上下文推断"的三段式流水线，从而把"换一个新生成器要重训分类头"变成"只换 TabPFN 上下文样本"，在 GenImage 低数据与跨生成器场景下相比强基线 LATTE 最高领先 8.2%，在 64 对生成器迁移里 54 对胜出。
Jailbreak to Protect: Buffering and Reinforcing via Temporary Jailbreaking for Safe Fine-Tuning in Large Language Models: 在 Fine-tuning-as-a-Service 场景下，作者把"先把模型临时越狱再让用户微调"重新解读为一种梯度饱和机制，并基于这一观察设计 Buffer-and-Reinforce 框架：用一个可拆卸的 BufferLoRA 在用户微调时吃掉有害梯度，再用 ReinforceLoRA 通过 QR 正交合并补回安全性，无需任何用户侧安全数据就把有害评分压到约 8.5，同时把下游任务准确率维持在 76 以上。
LEAP: Learnable End-to-End Adaptive Pruning of Large Language Models: LEAP 把可学习掩码剪枝里"对每个分组的所有合法稀疏模式打一个 logit"的参数化（MaskLLM/PATCH）换成"对每个权重一个 Gumbel-Sigmoid 伯努利门"，绕开非结构化稀疏下组合爆炸的死结，从而第一次把端到端掩码学习搬到非结构化 LLM 剪枝上，在 0.5B–8B 五个模型、50%/60% 稀疏下平均零样本精度比最强逐层基线 ADMM 高 +2.59 分。
Learned Subspace Compression for Communication-Efficient Pipeline Parallelism: 针对低带宽网络下流水线并行训练「跨段激活通信」的瓶颈，本文提出 MAPL：让每个流水线段在 Stiefel 流形上学习自己的正交投影来压缩边界激活，配合因子化锚点嵌入剥离 token 偏移、再叠加残差向量量化，在 150M–1B 的 LLaMA 上实现 4–16× 通信压缩、性能仅比未压缩基线掉 1% 左右，远优于固定子空间的 SSN。
LFQ: Logit-aware Final-block Quantization for Boosting the Generation Quality of Low-Bit Quantized LLMs: 针对 block-wise PTQ 在生成任务上的质量退化问题，LFQ 将最后一个 Transformer block 的量化目标从 MSE 替换为 logit 级交叉熵损失，使量化模型的 token 分布与全精度模型对齐，在 IFEval/GSM8K/MATH500/AIME 等生成基准上一致提升精度。
LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection: LiftQuant 通过"高维 1-bit lattice → 低维 weight 空间投影"的 lift-then-project 机制，把 LLM 量化 bit-width 从离散整数（2/3/4 bit）解耦为连续分数（如 2.4-bit），让 70B 模型精准塞进 24GB 显卡且 PPL 显著优于 2-bit baseline，整个解码路径只用线性变换 + 1-bit 均匀量化器，硬件友好。
LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding: 本文指出推测解码训练时长期用 KL 散度作为接受率的 proxy 是次优的——小容量 draft 模型在有限容量下 KL 最小化不蕴含接受率最大化；提出 LK losses（直接最大化负 log 接受率 + 与 KL 的 trust-region 混合）作为 plug-in 替代，4 个 draft 架构 × 6 个 target 模型（8B-685B）一致提升 8-10% 平均接受长度。
LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws: 本文把 LLM 训练重新解释为 Shannon-Hartley 噪声信道——参数量对应带宽、训练 token 对应信号功率、数据/模型噪声对应信道噪声；从该框架推出 Shannon Scaling Law \(C_{\text{LLM}} = aN^\alpha \log_2(1 + bD^\beta / (c(DN)^\gamma + dD^\delta + e))\)，能统一解释经典单调 scaling 与近期发现的 U 形退化（catastrophic overtraining、quantization-induced degradation），并在 Pythia/OLMo2 上从 ≤6.9B 数据外推到 12B 模型 307B token 上 \(R^2 = 0.847\)。
LoRA-DA: Data-Aware Initialization for Low-Rank Adaptation via Asymptotic Analysis: LoRA-DA 把"如何初始化 LoRA 的 \(A\)、\(B\) 矩阵"重新表述成一个最小化微调模型与目标模型参数差距期望的优化问题，通过渐近分析把目标拆成方差项 + 偏置项两部分，用 Fisher 信息既刻画采样随机性又保留参数空间的各向异性，从而给出比"只看一步梯度"更优的初始化，在多个 NLP 基准上稳定超过现有初始化方法。
Making Models Unmergeable via Scaling-Sensitive Loss Landscape: TRAP² 把「不可合并性」在微调阶段直接写进发布的权重更新里——通过对「更新缩放因子 \(s\)」做对抗优化，让模型在授权的 \(s=1\) 处保持高可用、却在 \(s\neq1\)（合并管线普遍引入的离标缩放）处迅速崩坏，从而既不依赖 Transformer 的架构对称性、也不需要完整权重访问，对 LoRA 适配器和全量 checkpoint、Transformer 和非 Transformer 骨干一视同仁地防止未授权的模型合并。
Memory-Efficient Partitioned DNN Inference on Resource-Constrained Android Crowds: 本文给出 CROWDio 框架中"DNN 流水线调度子系统"的设计：在不修改模型本身（不剪枝、不量化、不蒸馏）的前提下，把一个完整 ONNX 模型按层切成多段，分发到 RAM 仅 3.3–7.4 GB 的多台 Android 手机上做流水线推理，靠 JIT 延迟加载 + 单分区驻留约束 + 4 级亲和度调度 + zlib 压缩张量传输 + 流式 1:1 依赖 五条机制把每台设备峰值 RSS 压到 \(43\pm 2\) MB，并让批延迟比传统屏障同步快 34%。
MIC: Maximizing Informational Capacity in Adaptive Representations via Isotropic Subspace Alignment: 本文提出 MIC，在 Matryoshka 表征学习 (MRL) 之上加两个几何正则——SCR (限制 prefix/residual 子空间之间的相关) 和 SIR (强制 prefix 的方差均匀 + 超球面均匀)，让模型在被截断到 16/32/64 维这种极低维度时仍保持高判别性，平均超越 MRL/ESE 等基线。
Mind Your Margin and Boundary: Are Your Distilled Datasets Truly Robust?: 本文提出 C2R 框架，把数据集蒸馏中的鲁棒性问题重新拆解成"最小鲁棒边距"问题，用"攻击感知课程 (AAC) + 对比鲁棒损失 (CRL) + 线搜索 PGD (LS-PGD)"三件套，让合成集训练出的模型在六种攻击上平均比之前的鲁棒蒸馏 SOTA 高出约 2.8% 鲁棒准确率。
Model Merging Scaling Laws in Large Language Models: 作者用 10,866 个合并模型实测出一条形如 \(L=L_*+BN^{-\beta}+A_0 N^{-\gamma}/(k+b)\) 的双轴幂律：基座规模 \(N\) 决定 floor，专家数 \(k\) 决定 tail，且四种主流合并方法（Average、TA、TIES、DARE）都共用同一条曲线，从而把"合多少个专家、合到哪一步停"变成一个可预测、可预算的工程问题。
Multi-Adapter Representation Interventions via Energy Calibration: MARI 指出现有「表征干预」方法都依赖一个线性表征假设——单条全局 steering 向量加到所有输入上——既因为最优校正方向随样本剧烈变化而不可靠，又会在良性输入上误伤通用能力；它把单 adapter 换成多个低秩 adapter 并用「竞争训练 + 熵路由」做样本自适应干预，再用一个独立训练的低秩 probe 算「传播能量」做阈值门控，决定是否启用干预，从而在 TruthfulQA/BBQ/Safety 上大幅领先 ReFT、同时在 MMLU/ARC 上不掉甚至略升。
NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models: NanoQuant 把权重量化重新表述为「低秩二值分解」问题，用 Hessian 感知的 ADMM 精确初始化 \(\pm 1\) 因子和浮点尺度，再做块级 STE 重建与全局尺度 KL 校准，在仅 0.26M token 校准数据和单卡 H100 上首次让 PTQ 把 LLM 压到真正的 1-bit 乃至亚 1-bit，把 Llama2-70B 从 138 GB 压到 5.35 GB 并能跑在 8 GB 消费级 GPU 上。
NeUQI: Near-Optimal Uniform Quantization Parameter Initialization for Low-Bit LLMs: 本文指出主流后训练量化 (PTQ) 方法都沿用了 Min-Max 公式来初始化 scale 与 zero-point，而这套老公式隐含了"由极值决定参数 + zero-point 必须是整数"两个被长期忽视的约束；作者提出 NeUQI，用"给定 scale 解析地求最优 zero-point + 由粗到细搜 scale"两步把约束打掉，在 LLaMA-2 7B 2-bit 通道量化下把 C4 困惑度从 SOTA 的 47.55 (MagR) 砍到 17.50，并使轻量蒸馏后超越成本高得多的 PV-tuning。
OSAQ: Outlier Self-Absorption for Accurate Low-bit LLM Quantization: OSAQ 利用 LLM 各层 Hessian 在不同输入下保持一致的低秩零空间，将零空间向量线性组合成一个加性权重扰动 \(\Delta W\)，在不改变二阶任务损失的前提下把离群权重「自吸收」掉，使 2 比特仅权重量化的困惑度比朴素 GPTQ 降低 40% 以上。
PADD: Path-Aligned Decompression Distillation for Non-Router Teacher to Guide MoE Student Learning: PADD 把"用一个没有路由器的稠密教师去指导已预训练的 MoE 学生学会高质量路由"这件事拆成两阶段四步骤的统一流水线——先用教师 FFN 神经元聚类来初始化并热身学生专家，再在一次训练里同时做在线自适应蒸馏、路径精炼的策略优化（PR-GRPO）和奖励增强的负载均衡——在数学推理上让小激活量的 MoE 学生在相同推理成本下追平甚至反超 7B 稠密教师。
Parameters as Experts: Adapting Vision Models with Dynamic Parameter Routing: 作者把"参数本身当成专家"——在每个 stage 维护一个跨层共享的可训练参数矩阵池 (shared expert center)，让每一层的 ParaX 适配器通过一个轻量路由器为当前输入动态合成低秩投影和多尺度深度卷积的权重，从而同时解决传统 adapter 的"输入无关"和"跨层冗余"两大缺陷，在密集预测任务上以 <5% 可训练参数稳定超越 full fine-tuning。
Partial Fusion of Neural Networks: Efficient Tradeoffs Between Ensembles and Weight Aggregation: 作者提出 Partial Fusion：用部分最优传输 (partial OT) 只合并两个网络中"最相似"的神经元、保留剩余神经元独立存在，从而在"权重聚合 (1× 参数量)"与"全集成 (2× 参数量)"之间得到一条平滑、单调、可调的精度–参数量曲线；并进一步把它统一到"对集成做广义剪枝"的视角，让同一套工具也能压缩单个模型。
Persona-Pruner: Sculpting Lightweight Models for Role-Playing: 不给每个角色都配一个完整通用大模型，而是只用一段文字 persona 描述，先合成 persona 专属校准数据、再在 FFN 中间维度上学一个二值掩码，把"承载这个角色身份"的子网络从大模型里"雕刻"出来——50% 稀疏下角色扮演评分相比最强剪枝基线最多回收 93.8% 的性能损失，同时不伤通用能力。
Plug-and-Play Spiking Operators: Breaking the Nonlinearity Bottleneck in Spiking Transformers: 作者把 Transformer 里最难脉冲化的三个非线性算子（Softmax、SiLU、RMSNorm）拆成"除法 / 指数 / \(\ell_2\) 范数"三个公共原语，分别用 LIF 神经元群体计算 + 位移缩放实现成 spike-friendly 模块，再像积木一样拼回原算子，全程不需要任何微调就能即插即用到现有 ANN-to-SNN 流水线里，对 LLaMA-3-8B / Qwen3-8B / BERT 等模型的精度损失 <1%。
Post-Hoc Merging is Not Enough: Many-Shot Model Merging with Loss-Gap Balancing: 本文指出主流模型合并都是"训练完只合一次"的 post-hoc 合并、易因任务干扰造成信息擦除，转而提出多轮（many-shot）迭代合并框架，并在其上设计 METIS——用任务级 loss-gap 加权补偿被擦除的任务、用共识掩码定位兼容更新，从而在保住单任务知识的同时显著提升多任务能力，尤其救回了"最差任务"。
Preserve-Then-Quantize: Balancing Rank Budgets for Quantization Error Reconstruction in LLMs: 作者提出 SRR（Structured Residual Reconstruction），把 QER（Quantization Error Reconstruction）中固定用于补偿量化残差的低秩预算 \(r\) 显式地拆成"先保留 \(k\) 个主奇异方向再量化"和"用 \(r-k\) 个秩去拟合残差"两部分，并给出一个只需一次随机探针的闭式准则来逐层选 \(k^\star\)，在 2/3 bit PTQ 和 QPEFT 上一致优于 LQER/QERA。
PRISM: Synergizing Vision Foundation Models via Self-Organized Expert Specialization: PRISM 把 CLIP / SAM / DINOv2 三个异质视觉基础模型蒸馏进同一个 ViT 学生时,用"双流条件 MoE"（一条共享 anchor 流稳梯度、一条上下文路由的稀疏专家流解冲突）让专家自组织地分工——共识知识共享、冲突知识分支,在 PASCAL-Context 上比此前 SOTA SAK 在全部 5 个任务上都更好。
Procedural Pretraining: Warming Up Language Models with Abstract Data: 在标准语言/代码/数学预训练之前插入一段极轻量的"程序化数据"（形式语言、栈、元胞自动机等）"预热"，仅 0.1–0.3% 额外 token 就能稳定提升下游性能，并让模型用 55–86% 的原始数据复现同等 loss——是一种把"推理脚手架"和"知识"解耦的预训练策略。
ProjQ: Project-and-Quantize for Adapter-Aware LLM Compression: ProjQ 把 PTQ 的量化噪声主动"塑形"到一个低秩子空间里、并把这部分让给后续 LoRA 适配器去消除，从而保住 LoRA 容量学下游任务，在 LLaMA-2 / Qwen2.5 / Qwen3 上用 3 bit 就能追平标准 4 bit baseline。
Provably Learning Attention with Queries: 作者证明单头 softmax attention 在 value-query 访问下可以惊人简洁地被精确恢复 —— 只需 \(O(d^2)\) 次查询，比同等结构的 ReLU MLP 容易得多；当头维 \(r\ll d\) 时还能借压缩感知降到 \(O(rd)\)，并把结论扩展到带噪 oracle、membership query 以及多头不可识别性。
QHyer: Q-conditioned Hybrid Attention-mamba Transformer for Offline Goal-conditioned RL: QHyer 用 Normalizing Flows 估计的状态依赖 Q 值取代 Decision Transformer 中的轨迹依赖 RTG，再叠加门控式 Attention-Mamba 混合骨干以实现内容自适应的历史压缩，在 OGBench/D4RL 的非马尔可夫与马尔可夫离线目标条件 RL 数据集上同时刷新 SOTA。
Quantifying the Uncertainty of Foundation Models with Singular Value Ensembles: Singular Value Ensemble（SVE）把"集成多样性"做成纯粹由 SVD 奇异值的不同重新加权来表达——冻结预训练权重的左右奇异向量（共享的"知识基底"），只为每个集成成员训一组独立的奇异值，参数开销 \(\lesssim1\%\) 而校准质量接近真正的 Deep Ensemble，把 UQ 带进了 PEFT 友好的资源受限场景。
RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs: 本文针对残差二值化 LLM 中"并行二值路径学到冗余特征"这一被作者命名为 inter-path adaptation 的失败模式，提出 RaBiT——用单一共享的全精度权重在线派生所有二值路径并配合函数感知初始化，从而结构性地强制残差层级，使 2-bit Llama2-7B 在 matmul-free 架构下首次反超 VQ 强基线（Wiki2 PPL 5.78 vs QTIP 5.86），同时获得 4.49× 推理加速。
ReQAT: Achieving Full-Precision Reasoning Accuracy with 4-bit Floating-Point Quantization-Aware Training: 这篇论文发现大推理模型 FP4 量化失败集中在「低熵 token」（数字、运算符这类确定性符号承诺）上，于是提出 ReQAT——用三件套（轨迹对齐 QAT + 选择性熵最小化 + KV cache 量化友好初始化）专攻这些 token，在 W4A4KV4 全量化下不仅追平、甚至超过 BF16 微调精度，同时拿到最高 3.9× 吞吐加速。
ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation: ReSpinQuant 在低比特 LLM PTQ 中同时保留"全局旋转可与权重融合"和"层间旋转可适配各层离群点"两大优点，靠的是把残差连接处不可消去的旋转过渡矩阵 \(\mathbf{T}=\mathbf{R}_{out}\mathbf{R}_{in}^{\top}\) 用一个秩 \(r\!\approx\!32\) 的子空间正交近似替代，在线开销只增加 \(\sim0.2\%\)，W4A4/W3A3 上同时压过 SpinQuant 和 FlatQuant。
RQ-MoE: Residual Quantization via Mixture of Experts for Efficient Input-Dependent Vector Compression: RQ-MoE 用「两级 MoE + 双流量化」的设计，让残差向量量化（RQ）的码本随输入动态生成，又通过把指令流与重建流解耦实现 6–14× 解码加速，在四个 retrieval benchmark 上 MSE/Recall 持平或超越 QINCo。
Saliency-Aware Model Merging: SA-Merging 把结构化剪枝里的 SynFlow 连接性分数搬到数据无关模型合并场景，对每个专家的 task vector 计算"端到端通路敏感度 × 聚合方向一致性"作为显著度，迭代地去掉低显著度更新，从而在视觉/语言/LoRA 多任务上把数据无关 merging 推到接近 test-time adaptation 的水平。
ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning: 作者证明 LoRA 累加更新被困在固定低秩子空间，提出 ScaLoRA：每步把旧 \(AB^\top\) 合并到 \(W^{pt}\) 后，用一个可解析求得的最优"列缩放" 重启 adapter，使 AdamW 一阶/二阶动量可以 \(O((m+n)r)\) 等变传递 (不需要重置/warm-up)、累加更新自然变高秩——在 DeBERTaV3、LLaMA2-7B、LLaMA3-8B、Gemma3-12B 上一致打过 LoRA / MoRA / HiRA / ReLoRA / LoRA-GA。
Selective Coupling of Decoupled Informative Regions: Masked Attention Alignment for Data-Free Quantization of Vision Transformers: MaskAQ 把 ViT 的数据无关量化重新定义为"在合成样本的稀疏 informative region 上对齐全精度模型 \(P\) 与量化模型 \(Q\) 的注意力"，用差分熵最大化解耦前景 patch、用自适应掩码对齐注意力、并以周期性刷新让样本跟随 \(Q\) 演化，在 3-bit DeiT-T 上把 ImageNet Top-1 比此前最佳再抬 3.1%。
Semantic Cache Distillation: Efficient State Transfer via Reuse and Selective Patching: 针对"基座模型当生产者、微调模型当消费者"的分离式 LLM 服务场景，本文提出 SCD：把跨设备传输的原始 KV Cache 换成离线学好的低秩语义码，大多数层用 Reuse 做低秩重建省带宽、少数关键层用 Patch 重算前置归一化输入截断误差累积，在 200 Gbps 带宽下相对 Oracle 拿到 2.65× 的 TTFT 加速、F1 仅掉 3% 以内。
Semantic Integrity Matters: Benchmarking and Preserving High-Density Reasoning in KV Cache Compression: 本文先用新基准 KVFundaBench 系统揭示「检索类长上下文压得动、推理类压不动」的关键不对称，并把原因归结到 KV 压缩破坏了少样本示例这一「语义单元」的完整性；据此提出 ShotKV——在 prefill 阶段保留整个 shot 作为不可分割单元、在 decoding 阶段做动态 token 级压缩，让 LG-GSM8K 在 40% 压缩率下从 baseline 46.0 提升到 47.33，并在长输入设置下端到端延迟降低 11.3%。
SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding: SPEED-Bench 是一个面向投机解码（Speculative Decoding, SD）的统一基准，它通过 Qualitative split（最大化语义多样性的 880 条样本）与 Throughput split（按 1k–32k 输入长度桶组织、覆盖三档熵的大批量数据）配合一套对接 vLLM / TensorRT-LLM / SGLang 的测量框架，揭示了过去 SD 论文里被"小数据 + 单批 + HuggingFace"评测掩盖的真实部署行为。
SSR-Merge: Subspace Signal Routing for Training-Free LoRA Merging in Diffusion Models: 把多个 LoRA 合并这件事从"参数空间做算术"改成"在统一子空间里路由内部信号"：先沿 rank 维拼出统一子空间，再用一个由二阶统计闭式构造的路由器 \(R=\mathbf{Q}\mathbf{G}^{-1}\)（去相关 + 定向引导）把混叠信号导向各自任务，理论上等价于最小二乘最优解，免训练、流式更新、零推理开销，在 FLUX.1-dev 上显著超过 TIES/DARE 等 SOTA。
SURGE: Surrogate Gradient Adaptation in Binary Neural Networks: SURGE 给每个二值化层并联一个"全精度辅助分支"，前向输出不变但反向能从全精度分支额外回传一份"非 STE 截断"的高阶梯度，并用 AGS 按梯度范数比动态平衡两路贡献，让 BNN 在 ResNet-18/ImageNet 上做到 62.0% top-1，比 ReCU 高 1.0%、比 IR-Net 高 3.9%。
Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression: 针对「现有 SVD 低秩压缩要么重构误差次优、要么虽最优但要 Cholesky + 多次 SVD 导致慢且数值不稳」的两难，本文证明了一个闭式谱解定理——对 \(Y=XW\) 做一次特征分解即得最优激活感知压缩——并配上增量协方差聚合和「层重要性 ↔ 局部可压缩性负相关」驱动的动态秩分配，在 6 个 LLM、8 个数据集上达到最优压缩精度的同时把端到端压缩耗时加速 3–70×。
Task-Driven Subspace Decomposition for Knowledge Sharing and Isolation in LoRA-based Continual Learning: LoDA 把 LoRA 的下投影矩阵按「投影能量」拆成一个跨任务共享的通用子空间和一个真正只激活新任务的隔离子空间，再用梯度对齐训练上投影、并在融合时给通用分支闭式重标定，从而在多个持续学习 benchmark 上稳定刷过现有 LoRA-CL 方法。
The Bridge-Garden Dilemma in LLM Distillation: Why Mixing Hard and Soft Labels Works: 作者发现 LLM 蒸馏里"软标签 + 硬标签线性混合"几乎总是打过纯软标签，并把原因从直觉上的"硬标签信息更少但优化更易"修正为"硬标签压低了暴露偏差"，进一步用 Bridge-Garden 分解把生成序列拆成"必须精确的桥"和"可灵活替换的花园"两类位置，从而把 mix coefficient 与上下文风险绑定起来，提出 4 种自适应混合策略并以 9.7× 训练成本优势在 7 对 teacher-student 上超越主流 on-policy / divergence-based KD。
The Shape of Addition: Geometric Structures of Arithmetic in Large Language Models: 作者在 Qwen3-4B 的最后一层残差流里发现 LLM 做多操作数加法时，激活被组织成「数字盆 × 进位纤维」的分层流形，并把"算错一位"重新解释成沿着等原始和轨迹（IRST）滑过一个连续进位势的量化阈值，由此提出双流一致性检查，在推理期把"内部还知道但输出选错"的 off-by-one 错误纠回来。
ToaSt: Token Channel Selection and Structured Pruning for Efficient ViT: ToaSt 把 ViT 的压缩"解耦"成两套针对性策略：对占不到 40% FLOPs 的多头自注意力 (MHSA) 用耦合的逐头结构化权重剪枝、保住注意力的数学完整性；对占 60%+ FLOPs 的前馈网络 (FFN) 用免训练、推理时即插即用的"Token Channel Selection (TCS)"过滤冗余噪声通道，在九个 ViT 模型上拿到更优的精度–效率折中，例如 ViT-MAE-Huge 上 88.52% Top-1（+1.64%p）同时砍掉 39.4% FLOPs。
Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection: 作者发现 token 的"重要性"在层间和头间剧烈变化，传统 token eviction 一次性删除是不可逆的早期决策错误；他们提出 Token Sparse Attention，每层每个 attention head 独立选 \(L' \ll L\) 个 token 做密集 attention，输出再 scatter 回原始序列长度，配上残差路径让被略过的 token 在下一层重新有机会被选中——既保留头/层级动态选择，又能直接调用 FlashAttention 等密集 kernel，在 128K 上下文上叠加 FlexPrefill 后达到 ×3.23 注意力加速、精度损失 <1%。
Toward Understanding Adversarial Distillation: Why Robust Teachers Fail: 本文识别出对抗训练数据中存在一个跨方法稳定的「鲁棒不可学习集」，并通过两层网络的特征学习理论证明：当强鲁棒教师在这些样本上给出高置信监督时，会迫使学生记忆伪噪声进而触发鲁棒过拟合，反之教师在这些样本上保持高熵即可抑制噪声梯度，由此给出基于不可学习样本预测熵的教师选择准则。
Towards Resource-Efficient LLMs: End-to-End Energy Accounting of Distillation Pipelines: 作者搭了一套基于 NVML 的分阶段 GPU 能耗采集框架，把蒸馏流水线拆成"教师侧 + 学生侧 + 评估"逐段计量，发现一次性运行时教师 logit 缓存 / 合成数据生成才是大头，让 KD 和 synthetic SFT 在 1B–13B OLMo-2 学生上反而比直接 SFT 多耗约 \(2.4\times\) 能量，并给出闭式 break-even 公式说明只有当教师产物被复用 \(N^*\) 次以上时蒸馏才真"省电"。
Towards Steering without Sacrifice: Principled Training of Steering Vectors for Prompt-only Interventions: 作者用神经网络无穷宽缩放理论推出 steering vector 的 factor / direction 联合训练应满足 \(\eta_{\mathbf{v}}\eta_{\alpha}=\Theta(1)\) 这一缩放约束，从而消掉推理时人工选 \(\alpha\) 的环节；同时受 ReFT 启发只在前 4 个 prompt token 上做加性干预（PrOSV），在 AxBench 上既能维持模型实用性，又能在三档 Gemma2/Qwen2.5 模型上一致超过全序列 FSSV。
T3S: 训练轨迹感知的 token 选择，破解推理蒸馏的「Imitation Shock」: 论文发现强 student（如 Qwen3-8B）继续从 DeepSeek-R1 蒸馏时存在通用的「Imitation Shock」——loss 单调下降但 acc 先暴跌再恢复，根因是早期「Imitation-Anchor Tokens」梯度统治优化压制了真正负责推理的 token；T3S 用训练轨迹找出 anchor token 并把它们 mask 掉，让 yet-to-learn 推理 token 提前学习，在 AR 和 dLLM 两个 setting 都涨分（Qwen3-8B 反超 DeepSeek-R1，Qwen3-32B 逼近 Qwen3-235B，LLaDA-2.0-Mini 反超 AR baseline 拿到 16B no-think SOTA）。
Turning Stale Gradients into Stable Gradients: Coherent Coordinate Descent with Implicit Landscape Smoothing for Lightweight Zeroth-Order Optimization: 本文把"陈旧的"块循环坐标下降梯度估计存进 FIFO buffer，配上 momentum 衰减重用，并证明这等价于带 warm-start 的 BCCD；同时给出反直觉结论——更大的有限差分步长 \(\epsilon\) 会隐式平滑 loss landscape、降低有效 Lipschitz 常数，从而让 stale gradient 反而能换来稳定下降。
TWLA: Achieving Ternary Weights and Low-Bit Activations for LLMs via Post-Training Quantization: TWLA 是首个能同时把权重压到 1.58-bit（三值）、激活压到 4-bit 的后训练量化框架——靠"欧氏→流形两阶段三值校准 + Kronecker 正交旋转把权重塑成三峰分布并顺手压激活离群值 + 层间感知的激活混合精度分配"三件套，在 W1.58A4 下仍保住高精度并真正实现端到端推理加速。
UB-SMoE: Universally Balanced Sparse Mixture-of-Experts for Resource-Adaptive Federated Fine-tuning of Foundation Models: 作者发现把 Sparse MoE 直接搬进异构联邦 LoRA 微调会出现「专家利用失衡」与「Top-K 不可导」两个致命问题，并通过 Dynamic Modulated Routing (DMR) 重平衡专家激活、Universal Pseudo-Gradient (PG) 给未激活专家补伪梯度，构成自强化循环，使低算力客户端在节省 45% 计算的同时性能提升 8.7×。
Unifying Dataset Pruning and Distillation for Efficient Large-scale Compression: 本文先用一个统一的数据集压缩基准戳破"数据集蒸馏（DD）优于剪枝"的假象——DD 的增益主要来自软标签而非合成图像，然后提出只用硬标签的 PCA（Prune-Combine-Augment）框架，在 ImageNet-1K 的极限压缩比下大幅超越现有 DD 与 DP 方法，同时省掉占图像存储 40 倍的软标签。
UniSVQ: 2-bit Unified Scalar-Vector Quantization: UniSVQ 用"整数格点的仿射变换"把标量量化（SQ）和向量量化（VQ）统一起来，得到一种 2-bit 后训练量化方案：每个权重矩阵只需 20 个额外参数就拿到接近 VQ 的精度，却保持 SQ 的整数算子结构与推理吞吐。
When Shared Knowledge Hurts: Spectral Over-Accumulation in Model Merging: 这篇论文指出模型合并不仅会有任务冲突，还会把跨任务共享的谱方向重复累加成过大的奇异值，并提出无需训练和数据的 Singular Value Calibration，在不改奇异向量的情况下重标定奇异值，从而稳定提升视觉与语言任务的合并效果。
WinQ: Accelerating Quantization-Aware Training of Language Models Around Saddle Points: WinQ 把低比特语言模型 QAT 的慢收敛解释为权重陷在低曲率鞍点附近，并用周期性权重量化插值重初始化加噪声扰动梯度，在几乎不增加训练开销的情况下把 1-2 bit QAT 加速到 1.5-4 倍，并在相同训练预算下提升多种 LLaMA/Qwen 量化配置的困惑度和零样本准确率。
WUSH: Near-Optimal Adaptive Transforms for LLM Quantization: WUSH 为 LLM 的 weight-activation 低比特量化推导出闭式、数据自适应的 blockwise 线性变换，把 Hadamard 的均匀扩散能力和权重/激活二阶统计结合起来，在 W4A4 尤其是 MXFP4 场景下显著提升精度且几乎不牺牲 FP4 kernel 吞吐。
xKV: Cross-Layer KV-Cache Compression via Aligned Singular Vector Extraction: xKV 发现 LLM 不同层的 KV-cache 虽然逐 token 余弦相似度不高，但主奇异向量高度对齐，因此用跨层共享低秩基同时压缩多层 KV-cache，并结合选择性重构在长上下文推理中取得最高 8 倍压缩和 4.23 倍端到端吞吐提升。
ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling: ZipMoE 面向移动和边缘设备上的 MoE 大模型推理，把 BF16 专家参数拆成可压缩的 exponent bits 与高熵 sign-mantissa bits，通过无损压缩、分层缓存和 cache-affinity 调度，把原本受 SSD I/O 卡住的专家加载改造成可被多核 CPU 并行隐藏的解压与重组流程，在不改模型语义的前提下降低延迟并提升吞吐。