跳转至

📦 模型压缩

🔬 ICLR2026 · 239 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (108) · 💬 ACL2026 (59) · 🧪 ICML2026 (116) · 🤖 AAAI2026 (60) · 🧠 NeurIPS2025 (143) · 📹 ICCV2025 (52)

🔥 高频主题: 模型压缩 ×75 · LLM ×42 · 压缩/编码 ×23 · 扩散模型 ×14 · 推理 ×11

A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA

用信息论推导出 LLM 单次推理在多跳 QA 中的 Fano 式准确率上界,揭示当任务信息需求超过模型输出容量时准确率会"悬崖式"骤降的现象,并据此设计多轮推理框架 InfoQA,通过容量感知分解、依赖显式工作流和迭代查询压缩来突破单次推理瓶颈。

A Recovery Guarantee for Sparse Neural Networks

证明了 ReLU 神经网络的首个稀疏恢复保证:对两层标量输出网络,当训练数据为高斯随机采样时,基于凸重构的迭代硬阈值 (IHT) 算法可精确恢复稀疏网络权重,且内存需求仅与非零权重数线性增长。

A universal compression theory for lottery ticket hypothesis and neural scaling laws

本文证明了一个通用压缩定理:任意置换不变函数可以被渐近压缩至 polylog(d) 规模且误差趋近于零(这是最优压缩率),由此直接推导出动态彩票假说的证明——任何网络可被压缩至多对数宽度同时保持学习动力学不变,以及数据集可被压缩至多对数大小同时保持损失景观不变,并且幂律缩放定律可被加速至任意快的衰减率。

ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models

提出 ABBA 适配器,将权重更新参数化为两个独立可学习的低秩矩阵的 Hadamard 积 \(\Delta W = s(B_1A_1) \odot (B_2A_2)\),在相同参数预算下实现远高于 LoRA 的有效秩(\(r_1 \cdot r_2\) vs \(r\)),并通过 Khatri-Rao 重构实现与 LoRA 相当的内存效率,在算术和常识推理任务上显著超越现有 PEFT 方法。

Achieving low-bit Muon through subspace preservation and grid quantization

本文首次研究 Muon 优化器状态的 4-bit 压缩,发现 Newton-Schulz 正交化会把量化误差主要放大在动量矩阵的 top 奇异子空间上,于是提出 4-bit-Muon-GRASP:用 8-bit 温和保留 top 子空间、4-bit 压残差子空间,并用沿行列双向归一化的网格量化抑制双维度离群值,在 LLaMA 130M~1.1B 预训练与 Qwen2.5-7B 微调上几乎无损精度,训练显存最多降 28%。

ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning

构建 ACPBench Hard——基于 PDDL 形式化系统的 8 类开放式生成规划推理 benchmark(13 域 × 8 任务 = 1040 题),配备具有严格正确性保证的符号验证器,系统测评 15 个 LLM 后发现:即使最强推理模型 o1-preview 在半数任务上准确率 ≤66%,所有模型在最基本的"列举可执行动作"任务上几乎完全失败,暴露了当前 LLM 在规划推理方面的根本不足。

Adaptive Nonlinear Compression for Large Foundation Models

NLA 用分段线性核把权重矩阵做"非线性低秩近似",再配一个免拼接全矩阵的前向算法和按重要度分配压缩率的自适应预算调度,让低秩压缩在相同参数量下信息损失更小、压缩率更高。

Adaptive Width Neural Networks

提出AWN框架,通过变分推断在训练过程中自动学习每层的无上界宽度(神经元数量),利用单调递减的重要性函数对神经元施加软排序,实现宽度自适应于任务难度,并支持零成本的训练后截断压缩。

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

提出 AdaRank,用可学习二值掩码自适应选择 task vector 的奇异分量(取代启发式 top-k),结合测试时熵最小化优化,大幅缓解多任务模型合并中的任务间干扰,在 ViT-B/32 上达到 89.4% 准确率。

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in LVLMs

通过 erank(有效秩)和注意力熵的系统性实证分析,揭示了视觉 token 剪枝中注意力方法和多样性方法的互补特性——注意力方法抑制幻觉但覆盖有限,多样性方法覆盖全面但易引入幻觉——并据此提出基于图像复杂度自适应切换剪枝策略的 AgilePruner,在 9 个 benchmark 上表现稳健。

AIRE-Prune: Asymptotic Impulse-Response Energy for State Pruning in State Space Models

AIRE-Prune 为对角状态空间模型(SSM)的每个状态算出一个闭式的"无限时域脉冲响应能量"分数,再用前缀归一化把不同层的分数拉到同一尺度,仅凭一个全局阈值、无需重训就能剪掉平均 60.8% 的状态,而精度只掉 0.29 个百分点。

Alignment-Enhanced Integration of Connectivity and Spectral Sparsity in Dynamic Sparse Training of LLM

本文首次把动态连接稀疏(CHTs)与动态低秩谱稀疏真正融合到一个统一的稀疏预训练框架里,发现两个分支朴素相加会产生输出"互相抵消"的现象,并用一个简单的对齐损失把它们拉到同一方向协作,得到的 CHTsL 在 LLaMA-60M/130M 上仅保留 10%~30% 参数即逼近 dense 训练。

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization

提出MetaAPO框架,用一个轻量级meta-learner(两层MLP)动态估计offline/online数据的对齐差距,既指导"在哪些prompt上做在线采样"(解决分布不匹配),又在训练时自适应加权offline/online数据(优化学习效率),在AlpacaEval 2/Arena-Hard/MT-Bench上超越DPO/Online DPO等基线,同时减少42%在线标注成本。

AnyBCQ: Hardware Efficient Flexible Binary-Coded Quantization for Multi-Precision LLMs

提出AnyBCQ,基于二进制编码量化(BCQ)的多精度LLM量化框架,通过渐进式精度扩展(冻结已有bit-plane+添加残差bit-plane)支持单个模型在2-4bit之间动态切换,专设CUDA内核直接在bit-plane级别计算避免查表/转置开销,在2-bit下准确率大幅超越Any-Precision LLM(MMLU 35.3% vs 24.7%),吞吐量最高达到FP16的3.0x。

ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

ARMOR 把 2:4 半结构化剪枝重新表述成「分解」问题——不直接删权重,而是把每个权重矩阵分解成一个 2:4 稀疏核外加两个轻量级块对角「包裹矩阵」当误差校正器,用块坐标下降联合优化,理论上保证代理损失不差于 SOTA,实验里在 Llama / Qwen 上把 2:4 剪枝与稠密模型的困惑度差距缩小近 50%,同时几乎保住了 2:4 的加速和省显存收益。

Asymmetric Synthetic Data Update for Domain Incremental Dataset Distillation

本文提出"域增量数据集蒸馏(DIDD)"新问题——把陆续到来的不同域数据持续蒸馏进同一个固定大小的合成集,并用基于元学习双层优化的非对称合成数据更新策略为每张合成图分别学习稳定性梯度与可塑性梯度的更新率,从而在固定存储预算下缓解灾难性遗忘。

Automated Stateful Specialization for Adaptive Agent Systems

ASPEC 提出一套全自动的"有状态专家智能体团队"生命周期框架:先用进化搜索离线发现一批领域专家算子、再让它们在经验中反思培养出持久记忆,最后在线用一个轻量的 "retain-then-escalate"(先保留、再升级)元控制器决定每个查询是沿用现有团队还是重新搜索架构,从而在专家级科学基准 GPQA 上把 Gemini 2.0 Flash 从 56.3% 拉到 62.8%,同时训练+推理成本远低于同类自动框架。

Batch Pruning by Activation Stability

提出 B-PAS——在训练过程中监控每个 batch 跨 epoch 的 ReLU 激活方差变化,把"激活已经稳定下来、不再贡献有效学习"的整批数据动态丢掉,在 ResNet/CvT/GPT-2 上最多省掉 57% 的训练数据和 61% 的 GPU 节点小时,且精度不降反略升。

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

BEP 提出了反向传播链式法则的纯二值离散版本:让误差信号以 ±1 二值向量的形式逐层反向传播,整个前向和反向过程只用 XNOR、Popcount 和加减 1 这些位运算完成,从而首次实现了二值 MLP 和二值 RNN 的端到端全二值训练,相比之前的局部学习规则在 MLP 上提升最多 +6.89%、在 RNN 上平均提升 +10.57%。

Beyond Outliers: A Study of Optimizers Under Quantization

作者第一次系统地把"优化器选择"和"量化鲁棒性"放到一起研究:在 50M–1.5B 的 LLM 上用 6 种优化器训练,发现传统的离群值指标(MMR、Kurtosis)根本预测不了量化后的精度,转而提出一套可解析的 ABC 误差传播分解和新指标 \(R_L\),并得出反直觉结论——离群值最严重的 Shampoo 反而在 PTQ/QAT 下掉点最少、参数效率最高。

Beyond Student: An Asymmetric Network for Neural Network Inheritance

不再训练一个小容量学生网络去逼近老师,而是直接对老师权重做非对称低秩分解、用 SVD 初始化继承主成分知识,再以 MoE 风格的"一降维 + 多升维专家头"结构重建出一个又宽又深却轻量的"继承网络",在同等参数下收敛更快、精度反超传统学生网络。

Beyond Uniformity: Sample and Frequency Meta Weighting for Post-Training Quantization of Diffusion Models

本文提出一种面向扩散模型后训练量化的样本与频率元加权方法,不再把所有校准样本和频率成分一视同仁,而是通过双层优化自动学习哪些样本、哪些时间步频率成分更该影响量化校准,从而在低比特扩散模型上稳定降低 FID。

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

提出BeyondBench评估框架,通过算法化动态生成数学问题(44个任务/117个变体/3个难度级别),确保每次测试不被训练数据污染,评估了101个语言模型(0.5B-141B参数),发现即使最强模型在Hard Suite上也仅达56%准确率,且不使用工具时性能大幅下降。

Biologically Plausible Learning via Bidirectional Spike-Based Distillation

本文提出 BSD(双向脉冲蒸馏),用一个前馈脉冲网络(刺激→概念,对应感知决策)和一个反向脉冲网络(概念→刺激,对应记忆回忆)互相蒸馏脉冲特征来训练,全程只用离散二值脉冲和无符号误差信号,在图像分类/生成、文本预测、时序回归上都做到了和反向传播相当的精度,同时满足五条生物可塑性准则。

Boomerang Distillation Enables Zero-Shot Model Size Interpolation

提出"回旋蒸馏"范式——只训练一个小 student 模型,通过将 teacher 的 transformer 层块逐步贴回 student,零训练代价地构建出一整族中间尺寸模型,性能在 student 与 teacher 之间平滑插值,匹配甚至超越逐个蒸馏的同等规模模型。

Boosted Trees on a Diet: Compact Models for Resource-Constrained Devices

ToaD(Trees on a Diet)在 GBDT 训练时加入鼓励"复用特征和阈值"的正则项,并配合一套无指针、按位编码、全局共享阈值/叶值的内存布局,在保持精度不变的前提下把 LightGBM 模型压缩 4–16 倍,让提升树能塞进 KB 级微控制器。

Boosting Entropy with Bell Box Quantization

提出 Bell Box Quantization (BBQ),首个同时满足"信息论最优"(ITO) 和"计算高效"(compute-efficient) 的量化方法,核心洞察是学习的域无关性——量化器输出域不必与输入域相同,由此在输入域做 ITO 量化以最大化熵,在输出域映射到硬件可加速的数据类型,在 1-4 bit QAPT 场景下全面超越 QuEST 和 LSQ。

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

从柯尔莫哥洛夫复杂度理论出发,提出了"渐近最优描述长度目标"的理论框架,证明了 Transformer 存在这样的目标函数(基于其计算通用性的新证明),并通过构造基于自适应高斯混合先验的可微变分目标进行了实证验证,揭示了重要的优化挑战。

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

这篇论文第一次系统地拆穿了硬件原生 4-bit 浮点格式 MXFP4/NVFP4 "免费提速又保精度" 的承诺,从量化误差理论证明了为什么现有量化技巧在这两种格式上失灵,并提出针对 FP4 特性定制的 MR-GPTQ 算法 + QuTLASS GPU 内核,在 B200/RTX5090 上拿到 2.2x~4x 端到端加速的同时把 MXFP4 精度从掉 10% 拉回到接近 NVFP4 的水平。

Cannistraci-Hebb Training on Ultra-Sparse Spiking Neural Networks

CH-SNN 把脑科学里的 Cannistraci-Hebb 链路预测理论搬进脉冲神经网络(SNN)的稀疏训练,用「相关性拓扑初始化 + 脉冲感知权重初始化 + 混合打分剪枝 + CH3-L3 拓扑重生」四阶段流程,在所有线性层做到 97.75% 的结构稀疏度还比全连接网络高 0.16% 精度,部署到边缘神经形态芯片上更是 98.84% 稀疏度、突触操作减少 97.5×、能耗平均降 55×。

CAR-LoRA: Training Compression-Aware and Robust LoRA Adapters for Evolving LLMs

CAR-LoRA 通过在训练时随机注入量化 / 剪枝 / 跳层等压缩扰动(前向用压缩权重、反向用全精度梯度),训练出一个「压缩感知 + 时间鲁棒」的通用 LoRA 适配器,让单个适配器无需重训就能直接部署到各种压缩格式的边缘设备以及未来演化的基座模型上,性能逼近为每种配置单独重训的 QLoRA。

CARE: Covariance-Aware and Rank-Enhanced Decomposition for Enabling Multi-Head Latent Attention

CARE 用"激活协方差加权 SVD + 逐层自适应秩分配"把预训练的 GQA/MHA 一次性转换成同等 KV 预算的 MLA,把误差最小化目标从"权重空间"换到"激活空间",one-shot 困惑度最多降低 215×,平均准确率最高提升 1.70×。

Channel-Aware Mixed-Precision Quantization for Efficient Long-Context Inference

ChanMix 发现 KV cache 不同通道的量化敏感度差异巨大——检索通道和离群通道脆弱、亚正常通道鲁棒,据此把比特按通道敏感度非均匀分配(检索 4 bit / 离群 3 bit / 正常 2 bit / 亚正常 1 bit),用自定义 Triton kernel 实现 8-bit 对齐打包,在 2-bit 平均预算下显著缓解长上下文检索的精度崩塌。

CodeQuant: Unified Clustering and Quantization for Enhanced Outlier Smoothing in Low-Precision Mixture-of-Experts

CodeQuant 把"可学习旋转把激活离群值挪到权重侧"和"用聚类质心吸收权重离群值"统一进一个针对 MoE 的后训练量化框架,再配一个 LUT 内核落地,在 A4W4 下把 Qwen3-30B-A3B 的平均精度比 QuaRot 提升 11.3%,并取得最高 4.15× 的推理加速。

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

提出 COMI,一种基于边际信息增益(MIG = 查询相关性 - 语义冗余度)的粗到细自适应上下文压缩框架,在 32x 压缩率下 NaturalQuestions EM 比次优方法提高约 25 分,核心在于同时优化保留信息的相关性和多样性。

Compute-Optimal Quantization-Aware Training

本文通过 757 组 QAT 实验(86M-2.2B 参数,1-6 bit)发现:QAT 的最优训练比例随总计算量增长而增大(与先前认为固定 10% 的结论相反),并提出 tokens-per-parameter-byte 统计量和新的 loss scaling law 来精确预测最优 QAT 分配策略和最终损失。

Constraint-guided Hardware-aware NAS through Gradient Modification

CONNAS 把硬件约束从"加在 loss 里的正则项"换成"直接改架构权重的梯度方向",让梯度搜索过程自动绕开不可行架构,从而省掉可微硬件指标与正则权重调参,在 NATS-Bench 上找到的架构与最优可行解的差距最小仅 0.14%。

Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

提出 Expert-Router Coupling (ERC) Loss,一种轻量级辅助损失函数,通过将路由器参数视为聚类中心的代理 token 并约束专家对其激活范数,实现路由器决策与专家能力的紧密耦合,仅需 \(n^2\) 次激活计算即可显著提升 MoE-LLM 性能。

Cross-Tokenizer Likelihood Scoring Algorithms for Language Model Distillation

本文挖掘 BPE 分词的递归 merge 结构,提出"相对字母表"框架,让教师模型能在与自己分词器不同的学生词表上算出精确的序列似然,从而把经典 KL 蒸馏直接搬到跨分词器场景,在 GSM8K 蒸馏上比 SOTA 高 2%+、在词表裁剪上省 12% 显存的同时还涨点。

Cross-Domain Lossy Compression via Rate- and Classification-Constrained Optimal Transport

将跨域有损压缩(编码器观测退化源、解码器重建不同目标分布)形式化为带压缩率和分类损失双重约束的最优传输问题,推导Bernoulli源(Hamming失真)和Gaussian源(MSE)的闭式DRC/RDC及DRPC权衡函数,通过深度端到端压缩模型在超分/去噪/修复任务上验证理论预测与实验行为一致。

Cut Less, Fold More: Model Compression through the Lens of Projection Geometry

将结构化剪枝和模型折叠(model folding)统一为正交投影框架——剪枝是坐标轴对齐投影,折叠是聚类子空间投影——并证明在秩差为1的条件下折叠的参数重建误差严格更小,在1000+个 checkpoint 上验证折叠在中-高压缩率下通常优于剪枝。

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

提出 Dataset Color Quantization(DCQ)框架,通过色度感知聚类、注意力引导调色板分配和纹理保持优化三个机制,在数据集层面减少颜色冗余实现存储压缩,同时保持训练效果。

Dataset Distillation as Pushforward Optimal Quantization

将解耦式数据集蒸馏重新形式化为最优量化问题,证明通过扩散先验的潜空间聚类+权重可收敛逼近真实数据分布,提出 DDOQ 算法在 ImageNet-1K 上以极低额外计算量超越 D4M 等基线。

DiCache: Let Diffusion Model Determine Its Own Cache

DiCache 提出一种训练无关的扩散模型自适应缓存策略,让 DiT 在推理时用浅层在线探针自己判断何时复用缓存、如何组合历史缓存,在 WAN 2.1、HunyuanVideo 和 Flux 上同时提升速度与生成结果相对原始模型的保真度。

Differentiable JPEG-based Input Perturbation for Knowledge Distillation Amplification via Conditional Mutual Information Maximization

在冻结教师前面插一层可微 JPEG 压缩层,只训练 128 个量化参数来扰动教师输入、直接最大化教师的条件互信息(CMI),从而让教师输出更"软"更有信息量的监督信号——一个即插即用、不改教师权重的蒸馏增益器,学生 Top-1 最高提升 4.11%。

Diffusion Models as Dataset Distillation Priors

本文把"代表性"形式化为合成样本与真实样本在扩散模型特征空间里的 Mercer 核距离,并以能量引导的形式注入反向扩散过程,从而免训练地让预训练扩散模型同时输出多样性、泛化性、代表性兼备的蒸馏数据集,在 ImageNet-1K 及子集上超过一众 SOTA 生成式蒸馏方法。

DiffVax: Optimization-Free Image Immunization Against Diffusion-Based Editing

DiffVax 训练一个前馈免疫器(UNet++),对任意图像仅需一次前向传播(~70ms)即可生成不可感知的对抗扰动,使基于扩散模型的恶意编辑失败,相比先前逐图优化方法实现 250,000× 加速,并首次将免疫扩展到视频内容。

DisTaC: Conditioning Task Vectors via Distillation for Robust Model Merging

本文揭示了模型合并的两个隐藏失效模式——任务向量范数差异和源模型低置信度,并提出 DisTaC:在合并前用知识蒸馏对任务向量做"预调理"(重缩放范数 + 提升置信度),让现有 SOTA 合并方法在原本会崩盘的现实场景下也能正常工作。

Distillation of Large Language Models via Concrete Score Matching

提出 Concrete Score Distillation (CSD),一种基于离散 score matching 的 LLM 知识蒸馏损失,通过匹配 student 和 teacher 在所有词表对之间的相对 logit 差异,同时克服了 softmax 平滑和直接 logit 蒸馏的解空间限制问题。

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

提出CAZI-MBN框架,通过融合领域特定LLM序列嵌入、拓扑感知图分词器、上下文感知跨层注意力和教师-学生蒸馏,实现多重生物网络中未见实体的零样本交互预测,在5个基准数据集上AUROC较最优baseline提升3.1-20.4%。

Distribution-Aware Multi-Granularity Phase Coding: Towards Lower Conversion Error for Spike-Driven Large Language Models

针对脉冲大模型转换时"激活分布非均匀、却被均匀离散化"导致的潜在转换误差,本文提出分布感知的多粒度相位编码——用多个可学习的相位基把离散值密度对齐到激活分布,再配一套只训神经元、不动权重的交替优化转换范式,在 LLaMA-2-7B / LLaMA-3-8B 上以极短转换时间(约 2 分钟)拿到接近 ANN 的精度与最低困惑度,同时 MAC+AC 能耗降低 42%。

Draft-based Approximate Inference for LLMs

提出 Draft-based Approximate Inference 框架,利用小型 draft 模型的前瞻(lookahead)预测来更准确地估计 token/KV pair 重要性,包含 SpecKV(KV cache dropping)、SpecPC(prompt 压缩)和 SpecKV-PC(级联压缩)三种方法,在长上下文 benchmark 上一致优于现有基线。

Dr.LLM: Dynamic Layer Routing in LLMs

给冻结的预训练 LLM 每层挂一个轻量路由器,让它决定该层「跳过 / 执行 / 重复」,用离线 MCTS 搜出的高质量路径做监督训练,在不改 base 权重、不做推理期搜索的前提下同时提升精度并节省计算。

DTO-KD: Dynamic Trade-off Optimization for Effective Knowledge Distillation

DTO-KD 把知识蒸馏里"任务损失 vs 模仿教师"的权衡当成一个多目标优化问题,在梯度层面用闭式解动态算出两个损失的权重,自动消解梯度冲突与梯度支配,免去手调 loss 权重,在 ImageNet-1K 分类和 COCO 检测上都刷到 SOTA,且收敛更快(240 epoch 即追平别人 300 epoch)。

DTP: Delta-Guided Two Stage Pruning for Mamba-based Multimodal Large Language Models

DTP 针对 Mamba-based 多模态大模型的视觉 token 冗余问题,用 Mamba 内部的输入相关参数 \(\Delta_t\) 估计 token 重要性,并在早期层选择性剪枝、晚期层完全剪枝,在接近减半 FLOPs 的同时尽量保住多模态任务性能。

DVD-Quant: Data-free Video Diffusion Transformers Quantization

DVD-Quant 提出一套完全免标定(data-free)的视频扩散 Transformer 训练后量化框架,用权重网格细化(BGR)、自动缩放旋转量化(ARQ)和 δ 引导比特切换(δ-GBS)三件套,首次让 Video DiT 在 W4A4 下不掉画质,并在 HunyuanVideo 上实现约 2× 加速。

Efficient Orthogonal Fine-Tuning with Principal Subspace Adaptation

PSOFT 把正交微调从「全参数空间」搬到「预训练权重的低秩主子空间」里做,用 SVD 构造维度兼容的投影、给出一个严格保持子空间几何(角度+范数)的理论条件,再加两条可调向量松弛正交性,从而第一次让 OFT 在参数量、显存、算力三个维度上都追平甚至超过 LoRA。

Efficient Quantization of Mixture-of-Experts with Theoretical Generalization Guarantees

本文提出一个有理论保证的逐专家混合精度量化方法:用「训练中路由器 \(\ell_2\) 范数的变化量 \(\Lambda_s\)」给 MoE 的每个专家分配比特宽度——范数变化小的专家(学到低频但关键特征)给高精度、变化大的给低精度,再用「最大神经元内方差 MaxVar」做微调重排,使 Switch Transformer / Mixtral 能压到 2 比特出头仍几乎不掉点,且分配开销可忽略。

Efficient Reasoning with Balanced Thinking

提出 ReBalance,一个无需训练的框架,通过基于置信度的动态隐状态导向(steering vector),同时缓解大推理模型(LRM)的过度思考和欠思考问题,实现推理效率与准确率的双重提升。

Enhancing Multivariate Time Series Forecasting with Global Temporal Retrieval

提出 Global Temporal Retriever(GTR),一个轻量级即插即用模块,通过维护自适应全局周期嵌入并利用绝对时间索引检索对齐全局周期信息,使任意预测模型突破回看窗口限制,有效捕获远超输入长度的全局周期模式。

Ensembling Pruned Attention Heads for Uncertainty-Aware Efficient Transformers

Hydra Ensembles 通过对同一预训练 Transformer 进行差异化注意力头剪枝,再将多个剪枝子网络融合为单一前向传播的集成模型,在接近单模型推理开销(仅 1.07×)的条件下实现与 Deep Ensembles 相当甚至更优的不确定性量化性能。

Entropy-Based Block Pruning for Efficient Large Language Models

本文提出 EntroDrop,用隐状态的"熵增"代替传统的余弦相似度来衡量 Transformer 计算块的冗余度,发现 LLM 隐状态熵呈"先压缩后扩张"的两阶段规律,于是只在扩张阶段剪掉熵增最小的若干块,在 Llama3.1-8B 上剪掉 37.5% 注意力层仍保留 95%+ 性能,且全面优于余弦相似度类剪枝方法。

Entropy-Monitored Kernelized Token Distillation for Audio-Visual Compression

不直接蒸馏 teacher 的隐空间特征或输出,而是用核函数(Gram 矩阵)蒸馏 token 之间的两两相似关系,并用每个模态的预测熵自适应地调节蒸馏权重,从而做到架构无关、压缩 94% 参数还能保住 ~97% 性能的音视频模型压缩。

ERTACache: Error Rectification and Timesteps Adjustment for Efficient Diffusion

ERTACache 把"缓存加速带来的画质下降"形式化拆成特征偏移误差步长放大误差两类,再用"离线策略标定 + 轨迹感知步长调整 + 闭式残差线性化校正"三件套同时压制这两类误差,在视频/图像扩散模型上做到 2× 以上加速且画质几乎无损。

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

针对扩散大语言模型(dLLM)推理中大量 token 计算冗余的问题,提出无需训练的 Early-Skipping 加速框架 ES-dLLM,通过估计 token 重要性并在早期层跳过低重要性位置,在 LLaDA-8B 和 Dream-7B 上实现 5.6×–16.8× 加速且不损失生成质量。

Evolution and compression in LLMs: On the emergence of human-aligned categorization

通过 Information Bottleneck (IB) 框架和迭代上下文语言学习 (IICLL) 范式,证明 LLM 能够在未经 IB 目标训练的情况下,自发涌现出与人类语义分类系统高度对齐的、近最优压缩效率的类别结构。

Expert Merging: Model Merging with Unsupervised Expert Alignment and Importance-Guided Layer Chunking

用 5–10 条无标签校准样本,学一组逐层系数把合并模型的隐藏状态与 logits 对齐到各领域专家,再按层重要性做分块加权(Expert Merging++),在 LLM/MLLM 上超越免训练与训练型合并基线,甚至胜过有监督混合训练。

Exploring Knowledge Purification in Multi-Teacher Knowledge Distillation for LLMs

针对多教师蒸馏中"教师越多反而越差"的知识冲突问题,本文提出"知识净化"概念——把多个教师 LLM 的 rationale 合并成单条统一 rationale 再蒸馏,并系统比较了聚合、路由、RL 选择三类共五种净化方法,发现路由类方法在域内域外都最稳。

Expressive yet Efficient Feature Expansion with Adaptive Cross-Hadamard Products

本文把"逐元素相乘(Hadamard product)"打造成一个可学习的高效特征扩展算子 ACH,通过可微分离散采样自动挑选参与交叉相乘的通道、用动态 softsign 归一化稳住梯度,从而几乎零卷积参数地把通道维度扩张开,并经 NAS 集成进 Hadaptive-Net,在 ImageNet/CIFAR-100 上取得更优的精度/速度折中。

E²LoRA: Efficient and Effective Low-Rank Adaptation with Entropy-Guided Adaptive Sharing

用基于梯度的"代理熵"探测预训练模型的层间相似性与逐层信息异质性,据此自适应地把相邻相似层划进同一个共享区间、并按信息量给每个区间分配 LoRA 秩,在可训练参数减半的同时持平甚至超过 LoRA / ShareLoRA。

FASA: Frequency-Aware Sparse Attention

本文发现RoPE中频率块(FC)级别的功能稀疏性——少数"主导FC"可有效预测token重要性,据此提出FASA框架,通过主导FC预估token重要性+聚焦注意力计算两阶段实现无训练的KV缓存压缩,在LongBench上仅保留256个token接近100%全KV性能,AIME24上用18.9%缓存实现2.56×加速。

Faster Vision Transformers with Adaptive Patches

APT(Adaptive Patch Transformer)让一张图里用多种 patch 尺寸——平坦区域用大 patch、复杂区域用小 patch,从源头减少 token 数量,给任意预训练 ViT 带来 30~50% 加速且几乎不掉点,微调 1 个 epoch 即可收敛。

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization

提出QZO方法,通过对量化缩放因子(而非离散权重)做零阶扰动来估计梯度,配合方向导数裁剪稳定训练,实现4-bit/2-bit LLM的极致内存高效微调,总内存降低18倍以上。

FlexHiNM-GP: Flexible Hierarchical Pruning via Region Allocation and Channel Permutation

把每层权重自适应切成「稠密(4:4)/N:M(2:4)/全剪(0:4)」三块区域,再配上一种感知 HiNM 结构的陀螺式通道置换 (Gyro-Permutation) 和可微 2:4 掩码学习,让结构化剪枝在保持 GPU Sparse Tensor Core 硬件兼容的前提下逼近非结构化剪枝的精度。

FlexLoRA: Entropy-Guided Flexible Low-Rank Adaptation

FlexLoRA 用「谱能量熵」在矩阵级别度量每个 LoRA 低秩更新的重要性,在全局秩预算下既能剪掉冗余秩又能给关键层扩展新秩,并用「零影响初始化」保证扩容时训练稳定,从而比固定秩 LoRA 和单向剪枝的 AdaLoRA 更充分地利用参数预算。

FlyPrompt: Brain-Inspired Random-Expanded Routing with Temporal-Ensemble Experts for General Continual Learning

受果蝇蘑菇体稀疏扩展和模块化集成的神经生物学启发,提出 FlyPrompt 框架用于通用持续学习(GCL),通过随机扩展解析路由器(REAR)实现非迭代的专家选择,结合多时间尺度 EMA 输出头的时序集成(TE²)提升专家能力,在 CIFAR-100/ImageNet-R/CUB-200 上分别取得最高 11.23%/12.43%/7.62% 的增益。

FreqKV: Key-Value Compression in Frequency Domain for Context Window Extension

提出 FreqKV,一种无参数、架构无关的 KV 缓存压缩方法,通过在频域中迭代压缩 KV 状态(保留低频丢弃高频),仅需 8K 长度的少量微调即可将 LLaMA-2-7B 的上下文窗口扩展至 256K,同时保持稳定的困惑度。

FutureMind: Equipping Small Language Models with Strategic Thinking-Pattern Priors via Adaptive Knowledge Distillation

提出FutureMind无训练框架,将LLM的结构化推理和检索策略蒸馏为可复用的思维模式先验,通过四阶段pipeline(问题分析→逻辑推理→策略规划→检索指导)和三种检索范式,使SLM在多跳QA上达到SOTA。

GAPrune: Gradient-Alignment Pruning for Domain-Aware Embeddings

GAPrune 用 Fisher 信息衡量参数的领域重要性、用通用-领域梯度的余弦相似度衡量参数的跨域对齐性,把两者融进一个 Domain-Alignment Importance (DAI) 评分里做一次性剪枝,使压缩后的嵌入模型在金融/化学领域基准上既保住通用语言能力又强化领域专长。

Generative Diffusion Prior Distillation for Long-Context Knowledge Transfer

把"全序列教师 → 部分序列学生"的蒸馏重新建模成一个逆问题:学生的短上下文特征被视为目标长上下文特征的"退化观测",用扩散模型作为教师特征的生成先验做后验采样,给每个学生特征供给一组"动态、多样、可聚合"的教师信号,从而让只能看到序列前缀的分类器获得近似全序列模型的泛化能力。

GlowQ: Group-Shared Low-Rank Approximation for Quantized LLMs

GlowQ 把"给每一层都挂独立低秩误差校正模块"改成"同输入分组共享一个右因子 B、只缓存一次投影 BX 再各模块复用",并按收益挑选性恢复部分组/层,从而在几乎不掉精度的前提下把量化 LLM 的首字延迟降一截、吞吐拉一截。

GmNet: Revisiting Gating Mechanisms From A Frequency View

从频域视角首次系统解释门控线性单元(GLU)为何有效——逐元素乘对应频域卷积可拓宽频谱、非光滑激活保留高频能量——据此设计出极简的 GmNet,用最简单的 \(\sigma(x)\cdot x\) 门控修正轻量模型的低频偏置,在 ImageNet 上刷新高效模型 SOTA。

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching

GPTailor 把 LLM 结构化剪枝重新定义为「在同一基座的一族微调变体上做层级裁剪与缝合」的零阶优化问题——支持删层、跨模型选层、层融合三种操作,用 ParEGO 多任务目标 + SMAC 多保真搜索自动找配置,在不做任何后训练修复的前提下,让 Llama2-13B 删掉约 25% 的层后仍保留 97.3% 的原始性能,显著超过此前 SOTA。

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

通过元学习给不同时间步的校准样本学习一组重要性权重,使量化模型在各时间步上的梯度方向对齐、缓解梯度冲突,从而把扩散模型的训练后量化(PTQ)做得更好。

Gradient Intrinsic Dimensionality Alignment: 弥合 LoRA 与全量微调之间的鸿沟

本文指出 LoRA 与全量微调(FFT)性能差距的根本原因是 LoRA 的低秩子空间维度远小于 FFT 梯度真正有效的更新方向数(梯度内在维度 GID,二者最多差 100 倍),并提出用基于熵的估计器度量逐层 GID,再用 RaLoRA / RaLoRA-Pro 在不增加参数量的前提下把 LoRA 的等效秩对齐到 GID,从而在 GLUE、GSM8K、HumanEval、MT-Bench 和图像分类上一致逼近甚至超过 FFT。

GradPruner: Gradient-guided Layer Pruning Enabling Efficient Fine-Tuning and Inference for LLMs

GradPruner 用 LoRA 微调最初 1% 步累积的梯度算出每层重要性(IGIA-Matrix)来做层剪枝,再把被剪层"同符号合并"进保留层,从而在下游任务上同时省训练和推理:剪掉 40% 参数只掉 0.99% 精度。

Grounding and Enhancing Informativeness and Utility in Dataset Distillation

提出InfoUtil框架,用博弈论Shapley Value最大化样本信息量(找到最重要的patch),用梯度范数最大化样本效用(选择对训练最有价值的样本),在ImageNet-1K上比前SOTA提升6.1%。

HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space

HEAPr 把 MoE 的每个专家拆成不可再分的"原子专家"(W_up/W_gate 的一列 + W_down 的一行),用 Optimal Brain Surgeon 的二阶信息衡量每个原子专家的重要性,并通过"参数空间→输出空间"的两步化简把 Hessian 存储复杂度从 \(O(d^4)\) 降到 \(O(d^2)\),只需两次前向 + 一次反向即可在小校准集上对全模型原子专家做全局排序剪枝,在 20%~25% 剪枝比下接近无损。

HiFo-Prompt: Prompting with Hindsight and Foresight for LLM-based Automatic Heuristic Design

提出 HiFo-Prompt 框架,通过 Hindsight(回顾式知识池)和 Foresight(前瞻式进化导航器)两个协同模块提升 LLM 驱动的自动启发式设计(AHD),在 TSP 和 FSSP 等任务上显著超越现有方法。

Highly Efficient and Effective LLMs with Multi-Boolean Architectures

提出一种用多核布尔参数(multi-kernel Boolean parameters)表示 LLM 权重的新框架,首次实现在布尔域中直接微调大语言模型,无需全精度潜在权重,在表征能力和计算效率上同时超越现有超低比特量化和二值化方法。

IDER: IDempotent Experience Replay for Reliable Continual Learning

将幂等性(idempotence)引入持续学习,通过标准幂等模块和幂等蒸馏模块两个组件强制模型在学习新任务时保持输出自一致性,在提升预测可靠性(降低校准误差)的同时显著减少灾难性遗忘。

IGU-LoRA: Adaptive Rank Allocation via Integrated Gradients and Uncertainty-Aware Scoring

针对 AdaLoRA 用瞬时梯度打分导致秩分配不稳的问题,IGU-LoRA 把"积分梯度(Integrated Gradients)"搬进参数空间来度量每个奇异值方向的重要性,再用 EMA 平滑 + 偏差跟踪算出一个信噪比式的不确定性感知分数来指导剪枝,在相同参数预算下稳定超过 LoRA / AdaLoRA / DoRA。

Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations

本文重新审视 QLoRA 中常用的块级 absmax 量化(NF4 / AF4),用一个 Lloyd 式 EM 算法直接求解端到端权重误差最优的 4-bit 码本(BOF4),再配上「带符号归一化」(BOF4-S)和「离群值保留量化」(OPQ)两个简单改动,在三大 LLM 家族上把量化误差和困惑度都压到了 4-bit 块级量化方法里的最好水平。

In Good GRACES: Principled Teacher Selection for Knowledge Distillation

提出轻量打分 GRACE——只用学生在教师生成数据上的梯度分布,无需 verifier、教师 logits、教师内部状态或测试数据,就能在蒸馏前预测哪个教师最适配某个学生与任务,在 GSM8K/MATH 上与蒸馏后性能达到高达 86% 的 Spearman 相关。

Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning

提出 TIR-Judge,一个端到端的 RL 框架,训练 LLM 评判模型在评估过程中交替使用推理和代码执行工具,在7个公开基准上以 8B 参数超越 32B 推理奖励模型,且无需蒸馏的 TIR-Judge-Zero 可自举提升。

Inconsistency Biases in Dynamic Data Pruning

本文指出动态数据剪枝长期被两类"不一致偏差"拖累——跨模型状态比较重要性分数的分数上下文漂移、以及逐 epoch 非均匀采样累积出的时序梯度偏差,并用 RePB 框架(局部窗口剪枝 + 均匀重采样 + 累积时序重加权)从结构上消除这两类偏差,在 16 数据集 / 17 模型 / 13 任务上以约 30% 剪枝率逼近甚至超过全量训练精度。

InfoScan: Information-Efficient Visual Scanning via Resource-Adaptive Walks

InfoScan 给 Mamba 类视觉骨干换掉了固定的栅格/Hilbert 扫描顺序,用「熵+局部方差」量化每个 patch 的信息量,再用强化学习学一条「先看信息密集区」的自适应扫描路径,在分类/检测/分割上以更少参数同时拿到更高精度。

InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

InfoTok 把 Shannon 信源编码定理引入视频离散 tokenization,用 ELBO 估计每段视频的信息量来自适应分配 token 数,证明了固定/数据无关的 tokenizer 在表示长度上是有偏次优的,并在同等重建质量下把 token 量省下约 20%~50%、压缩率比启发式自适应方法(ElasticTok)高 2.3×、推理额外开销少 11×。

Inheriting Generalizable Knowledge from LLMs to Diverse Vertical Tasks

本文提出 MASA(Matrix-level Alignment and Scalable Adaptation),用一组极小的"基因矩阵"对齐 LLM 的 FFN 权重以抽取其中的通用知识(输出对齐 + 谱对齐),再通过 SVD 自适应缩放把这些矩阵重塑成任意尺寸去初始化轻量模型的 FFN 层,使得 877M 的小模型在多个垂直任务上达到 7B 源模型 85%+ 的性能,且比随机初始化/蒸馏/剪枝需要更少预训练数据、收敛更快。

Inlier-Centric Post-Training Quantization for Object Detection Models

InlierQ 把目标检测激活分成"任务相关 inlier"和"背景杂波/传感器噪声造成的 anomaly",用梯度感知的体素显著性分数 + EM 拟合后验把两者分开,只对 inlier 集合做量化误差最小化,从而在低比特(W4A4)下显著提升 2D/3D 相机与 LiDAR 检测精度。

INSTANT: Compressing Gradients and Activations for Resource-Efficient Training

INSTANT 把反向传播中的激活 \(x\) 和输出梯度 \(g_y\) 同时投影到各自校准出来的低秩子空间里,用低秩乘法替代全秩矩阵乘,在几乎不掉点的前提下把反传计算量降 15×、激活显存降 32×。

Is Finer Better? The Limits of Microscaling Formats in Large Language Models

发现并解释了微缩放(microscaling)量化中"更细粒度反而更差"的反直觉异常——当block size减小到阈值以下时,FP8 UE4M3 scale的有限动态范围导致窄分布张量的量化误差反而增大,并提出 FP8 UE5M3 scale格式作为硬件友好的解决方案。

KBVQ-MoE: KLT-guided SVD with Bias-Corrected Vector Quantization for MoE Large Language Models

提出 KBVQ-MoE,首个专为MoE架构设计的向量量化框架,通过KLT引导的SVD消除专家间冗余共享(IDRE),以及偏差校正的输出稳定化(BCOS),在2-bit量化下比现有方法提升10%+准确率。

KDP: Simplifying Representation Dynamics in Kernel Space

把 LLM 的前向传播看成离散动力系统,发现相邻层进入"慢流形"后表征高度相似,于是把表征投影到核空间——非线性的层间变换在那里近似变成线性,再用一个简单网络学逆变换,从而把整块连续 Transformer 层折叠掉,无需全模型微调即可剪掉约 25% 参数。

KLAS: Using Similarity to Stitch Neural Networks for Improved Accuracy-Efficiency Tradeoffs

KLAS 用 KL 散度 度量预训练模型中间表示的相似性,自动从 \(O(k^2n^2)\) 种缝合配置里挑出最优的"锚点+块对",在与基线相同的微调成本下把缝合网络的精度-效率曲线整体抬高(ImageNet-1K 同算力下 +1.21% top-1,或同精度下省 1.33× FLOPs)。

Knowledge Distillation as Decontamination? Revisiting the "Data Laundering" Concern in Classification Tasks

作者在 8 个分类基准上系统检验"数据洗钱"(污染过的教师通过蒸馏把测试集知识偷渡给干净学生)这一担忧的严重程度,发现洗钱带来的精度虚高远小于直接污染、且多数情况下统计不显著,并进一步证明洗钱与直接污染是机制不同的两种现象、主要在训练-测试分布间隙大的基准上才显现——结论是知识蒸馏总体上更像一道"净化"过滤器,而非泄漏放大器。

Knowledge Distillation for Large Language Models through Residual Learning

针对白盒蒸馏中"教师本身会出错"的问题,本文提出残差学习:让学生只在教师预测错误的位置去学习自身表征与教师表征之差,从而吸收教师有用知识、规避教师偏差,并配套低维投影、MoE 专家融合与跨分词器注意力,在同/异分词器蒸馏上全面超越现有白盒方法。

Knowledge Fusion of Large Language Models Via Modular Skillpacks

提出GraftLLM——将异构源模型的能力提取为紧凑可迁移的"SkillPack"(模块化技能包),通过模块感知自适应压缩策略存储参数增量,支持知识迁移、异构模型融合和无遗忘持续学习,在多个场景下显著优于现有PEFT和参数融合方法。

Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models

提出 Landscape of Thoughts (LoT),首个将LLM推理轨迹可视化为二维地形图的工具,通过困惑度特征和t-SNE投影揭示推理行为模式,并可适配为轻量验证器提升推理准确率和测试时扩展效果。

LaplacianFormer:用拉普拉斯核重新思考线性注意力

LaplacianFormer 指出现有线性注意力默认采用高斯核缺乏理论依据且会过度抑制中等相关的 token,改用衰减更慢、梯度不消失的拉普拉斯核(基于 \(\ell_1\) 距离),再配合单射归一化、Nyström 低秩近似与 Newton–Schulz 求逆,在 ImageNet 上以线性复杂度取得更优的精度-效率权衡。

Large Language Model Compression with Global Rank and Sparsity Optimization

本文提出 CAP——一个两阶段 LLM 压缩框架,先用鲁棒主成分分析(RPCA)把权重矩阵分解成低秩与稀疏两个候选子空间,再用基于 Bernoulli 概率 + 策略梯度的全局预算分配,自动跨层决定保留哪些奇异值和稀疏项,无需人工阈值也无需对原始权重反传。

LD-MoLE: Learnable Dynamic Routing for Mixture of LoRA Experts

提出 LD-MoLE,用 Sparsegen 闭合形式投影替代传统 TopK 路由,实现可微分、动态、token自适应的 LoRA 专家分配,配合轻量 MLP 预测稀疏因子和解析稀疏损失,在多个基准上超越固定路由和 ReLU 路由基线。

Learnable Sparsity for Vision Generative Models

EcoDiff 用一个跨越整个去噪轨迹的端到端可微掩码目标来给扩散/流匹配模型做结构化剪枝,配合"时间步梯度检查点"把显存从 O(T) 压到 O(1),仅用 100 条样本、10 个 A100 小时就能在 SDXL/FLUX 上剪掉 20% 参数且几乎不掉质量。

Learning Semi-Structured Sparsity for LLMs via Shared and Context-Aware Hypernetwork

用一个跨层共享、靠层/组件嵌入做条件的轻量超网络,逐层一次性地为 LLM 直接生成 n:m 半结构化稀疏掩码,把"启发式快但糙"和"优化精但贵"两条路线的优点合到一起——单张 A100 上就能把 LLaMA-2 从 7B 剪到 70B 并拿到最好的精度-稀疏权衡。

LeSTD: LLM Compression via Learning-based Sparse Tensor Decomposition

LeSTD 把一层多头注意力的 Q/K/V/O 权重打包成一个四阶张量做"跨头共享"的 Tucker 分解,再用一个有闭式重要性分数支撑的剪枝把稠密核张量稀疏化,从而突破张量分解方法的"稠密核瓶颈",在更高压缩率下保住精度,并能直接在压缩域上推理。

Light Differentiable Logic Gate Networks

本文指出可微逻辑门网络(DLGN)的梯度消失、离散化误差与高训练成本的根源在于逻辑门神经元本身的"按函数枚举"参数化方式,提出一种"按输入"的无冗余重参数化(IWP),把每个门的参数量从 \(2^{2^n}\) 对数级降到 \(2^n\)(二元输入即缩小 4 倍),并配合负号非对称的重尾残差初始化,使网络更省内存、收敛快 8.5 倍、反向传播快至 1.86 倍,且 CIFAR-100 精度持平甚至更优。

LightMem: Lightweight and Efficient Memory-Augmented Generation

提出 LightMem,一个受人类 Atkinson-Shiffrin 记忆模型启发的三阶段轻量记忆系统,通过认知感觉记忆预压缩、主题感知短期记忆整合、睡眠时离线更新三个模块,在 LongMemEval 上准确率提升最高7.7%,同时 token 消耗降低高达38倍。

LipNeXt: Scaling up Lipschitz-based Certified Robustness to Billion-parameter Models

提出LipNeXt——首个无约束、无卷积的1-Lipschitz架构,通过正交流形优化学习正交矩阵 + 由Theorem 1理论驱动的Spatial Shift Module实现空间混合,成功扩展到十亿参数规模,在CIFAR-10/100、Tiny-ImageNet和ImageNet上全面刷新认证鲁棒精度(CRA) SOTA,ImageNet上 \(\varepsilon=1\) 时CRA提升达+8%。

LLM DNA: Tracing Model Evolution via Functional Representations

从生物学 DNA 类比出发,将 LLM DNA 数学定义为模型功能行为的低维双 Lipschitz 表示,证明其满足遗传和基因决定性属性,并设计了无需训练的 RepTrace 管道在 305 个 LLM 上提取 DNA、构建进化树。

LoFT: Low-Rank Adaptation That Behaves Like Full Fine-Tuning

提出 LoFT,一种通过对齐优化器内部动态(动量和二阶矩)与全参微调行为一致的低秩适配方法,由六个构建模块组成,在全秩极限下可精确恢复 AdamW,在多项基准上显著缩小 LoRA 与全参微调的性能差距。

LogART: Pushing the Limit of Efficient Logarithmic Post-Training Quantization

LogART 首次把"可学习舍入"引入对数域后训练量化(log-PTQ),再配上一个支持动态多底数、非对称、抗离群的对数量化器和高效超参搜索,把对数 PTQ 推到 3/4-bit 超低位宽,在 LLM、CNN、ViT 上同时拿到 SOTA 精度和更省面积/功耗的乘法器无关硬件。

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

提出 LookaheadKV,通过可学习的前瞻token和选择性激活的LoRA模块预测真实响应的注意力重要性分数,实现无需生成草稿的快速精确KV缓存淘汰,在多个长上下文基准上超越现有方法,驱逐开销降低最高14.5倍。

Lookup multivariate Kolmogorov-Arnold Networks

把 KAN 的可训练函数从一维换成二维、并用 B-样条查找表实现 O(1) 求值,得到一个能直接替换线性层的 lmKAN 模块——在同等精度下把推理 FLOPs 砍掉 1.6–78×,并配套 CUDA kernel 实现 H100 上 1 个数量级的实测加速。

LoRA-Mixer: Coordinate Modular LoRA Experts Through Serial Attention Routing

把多个独立训练的 LoRA 专家"串联"进注意力模块的输入/输出投影矩阵,而不是替换 FFN 或并联分支,再配一个用熵正则把"负载均衡"和"输入感知专精"统一起来的 RSL 路由损失,从而用 48% 的可训练参数在 15 个多任务基准上超越 LoRA-MoE SOTA。

LS-Merge: Merging Language Models in Latent Space

把 LLM 的权重张量编码进一个平滑的潜空间,在潜空间里做插值合并再解码回权重,从而支持「单模型自合并」与「跨架构(不同宽度/深度/模型家族)异构合并」——这两件事在传统权重空间合并里要么做不了、要么很脆弱。

LSA: Layer-wise Sparsity Allocation for Large Language Model Pruning Based on Minimal Linear Reconstruction Error

LSA 用「假设剪掉每层 50% 最不重要权重后的最小线性重建误差」直接刻画各 Transformer 层的冗余度,从而免去 Wanda 式权重打分和人工 reduce 函数,给不同层(乃至 block/projection)分配非均匀稀疏率,在 70% 高稀疏下超越 OWL、DLP 等方法。

Many Eyes, One Mind: Temporal Multi-Perspective and Progressive Distillation for Spiking Neural Networks

针对脉冲神经网络(SNN)"时序蒸馏用一个固定 ANN 输出监督所有时间步、且截断推理会丢信息"两大痛点,本文用掩码重加权造出多样化时序教师信号(Many Eyes)+累积平均预测逐步对齐全长预测(One Mind),在 CIFAR/ImageNet 上取得 SOTA 且支持任意时间步可靠推理。

MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on LLMs

把学习型 (N:M) 半结构化稀疏的 logits 存储从 MaskLLM 的 \(O\!\left(\binom{M}{N}\frac{d}{M}\right)\) 压到线性的 \(O(d)\),再用一个纯前向、无需反向传播的策略梯度(配 loss-residual + 滑动均值 tracker 降方差)来训练掩码,从而以接近规则法的显存、远低于 MaskLLM 的训练成本,学到逼近 MaskLLM 的 (2:4) 稀疏掩码。

MASS: MoErging through Adaptive Subspace Selection

MASS 把每个任务更新的低秩奇异子空间存进一个共享模型,推理时用一个无需数据、无需训练的"投影残差"路由器,在不知道任务身份的情况下自动选出最匹配输入的任务子空间和分类头,把模型合并的精度推到单独微调模型的约 98%。

Memba: Membrane-driven Parameter-Efficient Fine-Tuning for Mamba

提出 Memba,一种受生物神经元膜电位启发的参数高效微调方法,通过在 Mamba 门控分支引入泄漏积分膜(LIM)神经元实现时序自适应,结合 LoRA 放置优化和跨层膜传递,以极少参数在语言和视觉任务上超越现有 Mamba PEFT 方法。

MergOPT: A Merge-Aware Optimizer for Robust Model Merging

把"合并"提前到微调阶段考虑——MergOPT 在微调时把"将要被合并进来的其他专家"建模成权重空间里的对抗性扰动,用分布鲁棒优化训练出一个对合并更稳健的专家模型,几乎不增加训练成本就让后续合并涨点 3.5%(最高 9.5%)。

Metis: Training LLMs with FP4 Quantization

Metis 把"权重/激活/梯度奇异谱的各向异性"识别为 FP4 训练失败的根因,提出在谱域把谱拆成"少数主导分量 + 长尾残差"分别量化,并用稀疏采样 + 随机投影把 SVD 开销压到可忽略,从而在 LLaMA-3 8B 上实现 W4A4G4 全 FP4 训练,训练损失仅比 BF16 差 0.4%、下游精度差 0.1%。

MicroMix: Efficient Mixed-Precision Quantization with Microscaling Formats for Large Language Models

MicroMix 把 LLM 的权重-激活量化建在 NVIDIA Blackwell 的 MXFP4/MXFP6/MXFP8 微缩放格式上,按"量化误差阈值"逐层自适应地给激活通道分配 4/6/8 比特,并配套一个融合了重排-量化与去量化的 CUTLASS GEMM 算子,以约 5 比特的平均精度做到近 FP16 精度且相比 FP16 加速 2.3–3.4 倍。

MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

MoBE 把 MoE 专家的 up/gate 矩阵做秩分解 \(W=AB\),再把较大的 \(B\) 表示成一层内所有专家共享的少量基矩阵的线性组合,仅靠最小化重建误差即可把 DeepSeek-V3、Kimi-K2 等万亿级 MoE 压缩 24%–30%,精度只掉 1%–2%。

MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes

通过精心的数据筛选和自适应混合策略,仅用4.2T token(Qwen3的11.7%)预训练出亿级参数的推理模型 MobileLLM-R1-950M,在AIME等推理基准上匹配或超越 Qwen3-0.6B,同时完全开源数据源和训练配方。

Modality-free Graph In-context Alignment

提出 MF-GIA,首个同时满足无后训练、跨域对齐和模态无关三个条件的图上下文学习框架,通过梯度指纹捕获域特征、FiLM条件化变换对齐特征和标签,在多个图域的few-shot任务上实现SOTA性能。

MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE

提出 MoNE(Mixture-of-Novices-and-Experts),通过联合评估专家的访问频率和输出方差来识别冗余专家,并用其输出均值("新手"常量向量)替换之,在5种MoE模型上实现比现有剪枝方法更有效且更鲁棒的压缩,25%剪枝率下平均准确率下降仅0.14。

MoSA: Mosaic Shared Adaptation of Large Language Models

MoSA 用「把权重矩阵随机切成若干小块、每块共享一个可学标量」的镶嵌式参数共享,替代 LoRA 的低秩分解,在完全相同的参数预算下实现全秩、逐元素的权重更新,并配套自定义反向 kernel 实现零推理开销与高效训练。

MOSS: Efficient and Accurate FP8 LLM Training with Microscaling and Automatic Scaling

MOSS 用「两级微缩放」量化敏感激活、用「自动缩放」预测权重缩放因子,让 7B 模型的 FP8 训练在精度无损追平 BF16 的同时把吞吐拉高到 1.34×。

Multi-View Encoders for Performance Prediction in LLM-Based Agentic Workflows

提出 Agentic Predictor,一种多视图工作流编码框架,通过联合建模图结构、代码语义和提示信息来预测 LLM Agent 工作流的性能,显著减少昂贵的试错评估。

Navigating the Accuracy-Size Trade-Off with Flexible Model Merging

提出 FLEXMERGE:一个数据无关的模型合并框架,把每个微调模型拆成顺序块、按块级余弦相似度贪心地两两合并,从而生成"1× 单一合并模型 → M× 保留全部微调模型"之间任意(含小数)大小的模型,并首次系统刻画了不同合并算法的"精度-体积"权衡曲线。

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

提出 NerVE,一个轻量级的特征谱分析框架,通过四个互补指标(频谱熵、参与比、特征值早期富集、JS 散度)系统揭示了 LLM 中 FFN 非线性如何重新注入方差、重塑特征谱,以及架构和优化器选择如何印刻独特的频谱签名。

NLI: Non-uniform Linear Interpolation Approximation of Nonlinear Operations for Efficient LLMs Inference

把"在 FP16 网格上给非线性函数选分段切点"建模成动态规划问题,求出全局最优、无需校准的非均匀分段线性插值表,再配一套两级寻址硬件电路,让 SiLU/Softmax/RMSNorm 等非线性算子在 LLM 上几乎零精度损失,同时硬件效率比 SOTA 高 4 倍。

No Outlier Channels but with Outlier Blocks

本文指出非均匀量化的离群值不再像均匀量化那样集中在"离群通道"上,而是以"离群块(block)"的形式分散出现,并据此提出灵活任意比特宽度的 NuBitQ 量化框架,外挂一个免 Hessian、免微调的 OCP 离群补偿插件,在 4-bit 近无损、2-bit 显著领先现有非均匀量化方法。

Null-Space Filtering for Data-Free Continual Model Merging: Preserving Stability, Promoting Plasticity

提出 NUFILT 框架,利用"任务向量与表示子空间近似对齐"的几何性质,通过零空间滤波压制对旧任务的干扰、投影感知 LoRA 恢复新任务可塑性,在完全不访问数据的条件下实现持续模型合并,在视觉/NLP/多模态基准上比 OPCM 提升 4-8%,逼近独立微调的上界。

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

OBS-Diff 把经典的 Optimal Brain Surgeon(OBS)剪枝复活并改造到大规模文生图扩散模型上,通过「时间步感知 Hessian」让剪枝准则对去噪早期步骤更敏感、用「模块包(Module Packages)」把昂贵的逐层标定摊薄,在完全免训练、免微调的前提下支持非结构化 / N:M 半结构化 / 结构化三种粒度,并在 50%–70% 这类高稀疏度下大幅领先 Wanda、DSnoT 等基线。

ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment

提出基于常微分方程(ODE)的统一激活操纵理论框架,将传统激活加法解释为ODE的Euler离散化,操纵方向识别等价于定义障碍函数;据此设计ODESteer方法,通过多步自适应求解ODE实现精细操纵,在TruthfulQA上提升5.7%、UltraFeedback上提升2.5%、RealToxicityPrompts上提升2.4%。

Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs

本文提出免训练框架 OBR(Optimal Brain Restoration),用一个基于二阶 Hessian 的群组误差补偿闭式解,把剪枝和量化之间相互冲突的权重分布需求"调和"开来,首次实现 W4A4KV4 + 50% 稀疏的 LLM,在 Llama2-7B 上相对 FP16 稠密基线仅掉 1.4 困惑度,却带来最高 4.72× 加速与 6.4× 显存压缩。

OrderDP: A Theoretically Guaranteed Lossless Dynamic Data Pruning Framework

OrderDP 把动态数据剪枝重写成"每轮先均匀采一个候选池、再取损失最高的 Top-q 样本训练"的简单两阶段流程,并证明它其实是在无偏地最小化一个由序统计量加权构成的代理损失,从而首次给动态剪枝配上收敛与泛化的理论保证,在 CIFAR/ImageNet 上以 40%+ 的训练成本节省做到近乎无损。

Otters: An Energy-Efficient Spiking Transformer via Optical Time-to-First-Spike Encoding

这篇论文把光电器件"信号自然衰减"这个本来被当作缺陷的物理现象,直接当成 TTFS 编码所需的时间衰减函数来用,配上一套阶梯式动态阈值和 QNN→SNN 无损转换算法,造出一个 1-bit KV 的脉冲 Transformer,在 GLUE 七个任务上拿到 SNN 中的 SOTA,同时能效比此前最好的脉冲语言模型再提升 1.77 倍。

Paper Copilot: Tracking the Evolution of Peer Review in AI Conferences

构建 Paper Copilot——跨数十个 AI/ML 会议的同行评审持久数字档案与分析平台:通过 OpenReview API、网页抓取、社区贡献三源混合收集评审数据,实时归档评分时间快照(含 rebuttal 前后动态变化),揭示 ICLR 2025 年决策熵反常下降——评审体系从概率性分层转向近确定性分数驱动决策的结构性变化,并通过 LLM 驱动的作者-机构元数据提取支持人才轨迹追踪。

Parallel Token Prediction for Language Models

提出 Parallel Token Prediction (PTP),通过将采样随机性从后处理移至模型输入(辅助变量),使未来 token 成为确定性函数,从而在单次前向传播中联合预测多个 token。

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

提出 ParoQuant,通过硬件高效且可优化的独立 Givens 旋转与通道缩放相结合来消除权重异常值,在推理 LLM 上实现高精度低开销的 4-bit 权重量化。

PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery

提出PASER,一种针对剪枝LLM恢复的后训练数据选择方法,通过流形学习+谱聚类识别能力相关指令集,按能力退化程度自适应分配数据预算,仅用4%-20%原始数据即可显著超越全量数据恢复效果。

Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation

提出 IOA(Identifier-Organizer-Adapter)框架,借鉴 Bloom 掌握学习原则和 Vygotsky 最近发展区理论,通过诊断知识缺陷、设计渐进课程、适配认知水平三个阶段,实现教育学驱动的 LLM 知识蒸馏。

π-Flow: Policy-Based Few-Step Generation via Imitation Distillation

提出 π-Flow,通过修改学生流模型的输出层使其预测一个"策略"(policy),该策略在单个网络评估内通过多个子步生成动态流速度进行精确 ODE 积分,并采用模仿蒸馏(imitation distillation)方法在学生自己的轨迹上匹配教师速度,从而实现稳定可扩展的少步生成并避免质量-多样性权衡。

PiCa: Parameter-Efficient Fine-Tuning with Column Space Projection

PiCa 证明了把微调更新量 \(\Delta W\) 投影到预训练权重的主列空间(top-\(r\) 左奇异向量张成的子空间)是一种有理论支撑的有效归纳偏置,并在此基础上让同一功能组的各层共享一份可训练矩阵,从而用比 rank-1 LoRA 还少的参数,在 NLP 与视觉任务上稳定超过 SVFT 等 SOTA。

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

CEM 通过离线建模"时间步×缓存间隔"的内在缓存误差,再用动态规划求出在给定加速预算下累积误差最小的缓存策略,作为零额外开销的即插即用插件接到各种缓存加速 / 量化方法上,显著提升 DiT 的生成保真度。

PM-KVQ: Progressive Mixed-Precision KV Cache Quantization for Long-CoT LLMs

针对长链思维(long-CoT)推理大模型 KV Cache 显存爆炸的问题,PM-KVQ 用「渐进式降位宽 + 按 block 分配位宽」吃满显存预算来压低累积量化误差,再用「短数据 + 位置插值」的校准近似长序列分布,在相同显存下把推理 benchmark 准确率最多拉高 8%,同时相对 16-bit 原模型获得 2.73–5.18× 吞吐。

Post-Training Quantization for Video Matting

本文提出 PTQ4VM——首个专为视频抠图模型设计的后训练量化框架,用「分块初始量化 + 全局仿射校正 + 光流辅助」三件套,在 4-bit 下把误差比现有 PTQ 方法再降 10%–20%、逼近全精度,同时省下 8× 的计算量。

Prune-then-Quantize or Quantize-then-Prune? Understanding the Impact of Compression Order in Joint Model Compression

当把剪枝和量化拼在一条流水线上时,先做哪个后做哪个会显著影响最终精度;本文把"压缩顺序优化"这个长期被忽视的问题形式化,提出"渐进强度假设"(弱扰动先做、强扰动后做),并给出理论证明与跨语言/视觉模型的大量实证支持。

PTQ4ARVG: Post-Training Quantization for AutoRegressive Visual Generation Models

提出 PTQ4ARVG,首个针对自回归视觉生成(ARVG)模型的系统化 PTQ 框架,通过增益投影缩放(GPS)、静态 Token 级量化(STWQ)和分布引导校准(DGC)解决 ARVG 特有的三大量化挑战。

Q&C: When Quantization Meets Cache in Efficient Generation

本文首次系统研究"量化 + 缓存"两种加速机制的联合效应,指出二者叠加会破坏 PTQ 校准集的样本有效性、并放大采样分布的曝光偏差,进而提出温度感知并行聚类(TAP)重选校准样本、方差补偿(VC)免训练校正分布方差,最终在 DiT 上实现最高 \(12.7\times\) 加速且几乎不掉生成质量。

QKV Projections Require a Fraction of Their Memory

提出 PAMM(Point-Approximate Matrix Multiplication),一种激活压缩技术,通过随机选取少量代表性 token 来近似 QKV 投影层激活,实现高达 512× 压缩率且不影响模型性能。

Qronos: Correcting the Past by Shaping the Future... in Post-Training Quantization

Qronos 是一种新的训练后量化(PTQ)取整算法,逐列、逐元素地交替执行"误差校正"和"误差扩散",不仅校正当前权重/激活的量化误差,还显式校正前面已量化层累积下来的残差误差;论文证明它存在一个等价的高效实现,把 Llama3-8B 的峰值显存降低 18 倍、单层运算加速最高 13.8 倍,并在 Llama3/Qwen3 上 4-bit 及更低比特时一致超过 OPTQ/GPFQ/GPTAQ 等 SOTA 取整方法。

Quant-dLLM: Post-Training Extreme Low-Bit Quantization for Diffusion Large Language Models

本文提出 Quant-dLLM,一套专为扩散大语言模型(dLLM)设计的 2-bit 仅权重后训练量化框架:用掩码校准模拟(MCS)让校准数据对齐扩散去噪时的时间步—掩码分布,用数据感知任意阶量化器(DAQ)把权重表示成多个二值矩阵的叠加,再用自适应分块混合精度(ABMP)在严格 2-bit 平均预算下按重要性分配比特,使 2-bit 下的平均精度从 SOTA 的 40.9% 提升到 51.3%。

Quantized Gradient Projection for Memory-Efficient Continual Learning

本文提出 QGPM,把持续学习中用来防遗忘的"梯度投影记忆"(GPM)里的基向量量化压缩存储,并用一套抗异常值的量化(CINF)、误差感知的梯度投影(QEA)和稀疏草图加速三件套,把记忆开销压到原来的 1/4~1/6,同时几乎不掉精度(8-bit 相比全精度 GPM 掉点 <0.5%)。

QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization

QVLA 指出把 LLM 的「统一位宽量化」直接搬到 VLA 模型上会因动作误差累积而崩溃,于是提出以动作空间敏感度为指针、给每个权重通道单独分配 \(\{0,2,4,8,16\}\) 位(0 位即剪枝)的细粒度量化框架,在 LIBERO 上让 OpenVLA-OFT 只用 29.2% 显存就保住 98.9% 的成功率并提速 1.49×。

QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models

QWHA 把 Walsh-Hadamard 变换(WHT)当作适配器的变换核,配合一套"按通道分配预算 + 取最大幅值 + 数值精修"的量化感知初始化方案,让基于傅里叶类变换的稀疏适配器第一次真正适配低比特量化场景,在 2~4 bit 下精度稳定超过 LoRA 类与其它 FT 适配器,同时训练速度比现有 FT 适配器快数倍。

RAPID\(^3\): Tri-Level Reinforced Acceleration Policies for Diffusion Transformer

给冻结的扩散 Transformer 挂三个轻量策略头(跳步 / 缓存复用 / 稀疏注意力),用 GRPO 在线训练它们逐时间步、逐图像地决定怎么加速,再用一个对抗判别器堵住 reward hacking,在 SD3 和 FLUX 上做到约 3× 提速且画质几乎不掉。

RCPU: Rotation-Constrained Error Compensation for Structured Pruning of Large Language Models

RCPU 在结构化列剪枝之后,用一个"旋转约束"的闭式参数更新(正交 Procrustes 问题)把剪枝后子空间重新对齐到原始输出,从而在只有少量校准数据时既补偿误差又不破坏预训练表示的几何结构;配合一个考虑输入方差的列重要性打分,在 Llama-7B / Llama-2-13B 上的困惑度和下游任务准确率都稳定优于 WANDA-sp、FLAP 等基线。

REAP the Experts: Why Pruning Prevails for One-Shot MoE Compression

本文从理论上证明「合并专家」会因丢失路由器对专家的独立、输入相关调制能力而引入不可消除的误差,进而提出 REAP——一种同时考虑路由器门控值和专家激活范数的一次性剪枝准则,在 20B 到 1T 的多种 SMoE 上、尤其在生成式任务和 50% 压缩率下显著优于合并与其他剪枝方法,对 Qwen3-Coder-480B、Kimi-K2 在代码生成上做到接近无损。

Reasoning Models Can be Accurately Pruned Via Chain-of-Thought Reconstruction

作者发现把标准 LLM 剪枝方法(如 SparseGPT)直接套到 DeepSeek-R1 这类长思维链推理模型上会严重掉点、甚至更慢,根因是这些方法只用「输入提示」做校准、而推理是「解码主导」任务;他们提出 RAC(Reasoning-Aware Compression),在剪枝校准时让模型自己生成思维链、把这些 on-policy 激活一并塞进重建目标,作为一个即插即用的补丁让 SparseGPT 在 50% 稀疏度下仍保住稠密模型约 95% 的精度。

Reassessing Layer Pruning in LLMs: New Insights and Methods

这篇论文花了数千 GPU 小时把 LLM 层剪枝的"层选择指标"和"剪枝后微调方法"系统地重新测了一遍,得出两个反直觉结论——最朴素的"逆序剪掉最后几层"胜过一众复杂指标、用"只微调 lm head + 最后三层"的部分层微调胜过被奉为标配的 LoRA,并用 Pre-LN 梯度流理论解释了为什么,最终在 Llama-3.1-8B/Llama-3-8B/Llama-3-70B 上超过现有 SOTA 剪枝方法 2.36%–19.45%。

Rectified Decoupled Dataset Distillation: A Closer Look for Fair and Comprehensive Evaluation

提出 RD3(Rectified Decoupled Dataset Distillation),系统揭示现有解耦数据集蒸馏方法的性能差异主要源于不一致的后评估设置而非蒸馏质量差异,建立了统一公平的评估框架,将报告的 27.3% 性能差距校正为 6.7%。

Rejuvenating Cross-Entropy Loss in Knowledge Distillation for Recommender Systems

理论证明 CE 损失在推荐系统 KD 中最大化 NDCG 下界需满足"闭合性假设"(子集需包含学生 top 项目),但实际目标是蒸馏教师 top 项目的排序——两者冲突导致 vanilla CE 表现差。据此提出 RCE-KD:将教师 top-K 项目按是否在学生 top-K 中分两组,分别用精确 CE 和采样近似闭合性 CE,自适应融合权重随训练动态调整。

Rethinking Continual Learning with Progressive Neural Collapse

提出 ProNC 框架,通过渐进式扩展等角紧框架(ETF)目标替代固定预定义 ETF,在持续学习中实现最大类间分离与最小遗忘的平衡。

Rethinking Residual Errors in Compensation-based LLM Quantization

这篇论文重新审视了 GPTQ / GPTAQ 这类「逐列量化 + 补偿剩余权重」方法的列级校准目标,指出它们错误地把「已补偿权重的输出」当成对齐基准,并由此推导出一个被遗漏的残差项——补偿感知误差(Compensation-aware Error),用 GPTAQ 的神经元分解把它高效地塞进权重更新公式,几乎零改动地嵌入 GPTQ / GPTAQ 后在 2~3 bit 量化上一致提升困惑度与下游精度。

Revisiting Weight Regularization for Low-Rank Continual Learning

在低秩持续学习中重新引入弹性权重巩固(EWC),通过在全维空间估计 Fisher 信息矩阵来正则化共享 LoRA 模块,实现恒定存储开销下的有效遗忘缓解。

Robust Selective Activation with Randomized Temporal K-Winner-Take-All in Spiking Neural Networks for Continual Learning

针对脉冲神经网络(SNN)持续学习中的灾难性遗忘,本文把传统基于发放率的确定性 K-WTA 升级为「随机化时序迹 K-WTA(RTK-WTA)」——用神经元的时序迹(trace)而非瞬时发放率来排序,并在 Top-K 选择里注入受控随机性 \(\alpha\),从而扩大有效特征空间、拉大类间间隔,在 splitMNIST/splitCIFAR100 上比确定性 K-WTA 提升 3.07–10.05%。

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

这篇论文指出超低比特量化训练不稳定的根因不是"量化不可导",而是 STE 的反向传播看不见量化误差;作者把量化重写成加性噪声,并用一个从岭回归推出的去噪反量化变换 \(g\) 把误差显式接回梯度通路,从而在标准训练配方下稳定训练出 A1W1 乃至亚 1-bit 网络。

S2R-HDR: A Large-Scale Rendered Dataset for HDR Fusion

提出 S2R-HDR,首个大规模高质量合成 HDR 融合数据集(24,000 样本),并设计 S2R-Adapter 域适应方法弥合合成-真实域差距,在真实数据集上达到 SOTA HDR 融合性能。

SAES-SVD: Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression

SAES-SVD 在逐层 SVD 低秩压缩的目标里显式加入"对齐全精度参考输出"的累积误差补偿项,推出只依赖二阶激活统计量的闭式解,并自适应地为每层挑选最优补偿权重,让压缩后模型的逐层输出始终贴近全精度基线——在 LLaMA-7B 0.2 压缩率下把平均精度跌幅从 >0.05 压到 0.02 左右,且无需微调或混合秩分配。

SAFA-SNN: 面向端侧小样本类增量学习的稀疏感知快速自适应脉冲神经网络

本文提出 SAFA-SNN,用「稀疏感知动态阈值 + 零阶优化 + 原型正交子空间投影」三件套,让脉冲神经网络(SNN)能在资源受限的边缘设备上完成小样本类增量学习(FSCIL),在 Mini-ImageNet 最后一个 session 比次优方法高 4.01%,并在 CIFAR-100 上把训练能耗降低约 20%。

Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models

系统性揭示了 LLM 在推理跳步泛化(reasoning hop generalization)中失败的内部机制——正确与错误推理轨迹间的注意力头竞争,并提出 TCR(Test-time Correction of Reasoning),通过动态识别和停用错误处理头(ep heads)在测试时纠正推理错误,平均提升 5-7% 准确率。

ScalingCache: Extreme Acceleration of DiTs through Difference Scaling and Dynamic Interval Caching

ScalingCache 是一个免训练的 DiT 推理加速框架,通过离线估计「差分缩放系数 \(\alpha\)」自适应融合零阶(直接复用)与一阶(线性外推)缓存特征,再配合运行时的动态缓存间隔策略,在 Wan2.1、HunyuanVideo 上实现约 2.5× 加速、VBench 仅掉 0.5%,在 FLUX 上做到 3.1× 近无损加速。

Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning

本文提出 OSFT(Orthogonal Subspace Fine-Tuning):对每层权重做 SVD,把大奇异值对应的"高秩子空间"当作旧知识冻结,只在与之正交的"低秩子空间"里做全参数更新,从而在固定参数量、不存任务梯度的前提下持续学新任务,几乎不遗忘旧任务——在 15 任务基准上比 O-LoRA 高 1.7 个点,在 TRACE 上平均准确率高出约 7 个点。

SeeDNorm: Self-Rescaled Dynamic Normalization

提出 SeeDNorm,一种自适应动态归一化层,通过将输入自身作为条件来动态调整缩放系数,从而在前向传播中保留输入范数信息,同时在反向传播中保持类似 RMSNorm 的自适应梯度调整能力,以极少额外参数在语言建模和视觉任务上全面超越 RMSNorm、LayerNorm 和 DyT。

SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models

提出 SERE 方法,通过预计算专家相似度矩阵,在批量解码时将次要专家动态重路由到最相似的主要专家,实现最高 2.0 倍加速且质量损失极小,并提供即插即用的 vLLM CUDA 内核。

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

SERQ 把激活离群值和权重显著性统一进一个低秩补偿矩阵,靠静态激活平整 + 显著行误差重建 + 离线权重置换三步,让线性层在 W4A4 下走纯 4-bit 端到端计算路径,精度超过此前 LoRA 式误差重建方法和旋转类方法,同时几乎不增加推理延迟。

SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs

本文系统性地重新审视了领域特定SFT对LLM通用能力的影响,发现使用较小学习率即可大幅缓解通用能力退化,并提出Token-Adaptive Loss Reweighting (TALR)方法通过自适应下调低概率token的损失权重进一步优化领域适配与通用能力之间的权衡。

SGD-Based Knowledge Distillation with Bayesian Teachers: Theory and Guidelines

本文从贝叶斯视角把知识蒸馏(KD)看作"用类后验概率(BCP)而非 one-hot 标签做监督",严格分析了学生用 SGD 训练时的收敛行为,证明从精确 BCP 学习能消除收敛界里的"邻域项"(方差归零、可用更大学习率),并据此给出一条实践指南——用校准更好的贝叶斯教师做蒸馏,实验上学生精度最高提升 +4.27%、收敛噪声最多降 30%。

Shift-and-Sum Quantization for Visual Autoregressive Models

本文针对 Visual Autoregressive Models 的后训练量化提出 Shift-and-Sum 量化与校准数据重采样:前者专门压低高注意力 value token 在 attention-value 乘积中的误差,后者让小校准集里的 VQ-VAE codebook 采样频率更接近模型预测概率,从而在低比特 VAR / Infinity 生成任务上稳定优于 BRECQ 和 LiteVAR。

SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse–Linear Attention

作者发现扩散 Transformer 的注意力权重可以拆成"少量高秩 + 大量极低秩"两部分,于是提出 SLA——对关键块用精确稀疏注意力、对边缘块用线性注意力、对可忽略块直接跳过,三者融进同一个 GPU kernel,只需几千步微调就把注意力计算量砍掉约 95%、端到端视频生成提速 2.2×,且画质几乎无损。

SliderQuant: Accurate Post-Training Quantization for LLMs

SliderQuant 发现 LLM 的浅层/深层(尤其是第一层和最后一层)对量化远比中间层敏感,于是用「层间滑动窗口(浅层渐扩、中间固定、深层渐缩)+ 层内增量量化」这套自适应滑动量化框架,在 W4A4、W2A16 等极低比特设置下显著超过 GPTQ / OmniQuant / CBQ 等现有 PTQ 方法。

SMixer: Rethinking Efficient-Training and Event-Driven SNNs

针对脉冲神经网络(SNN)"高性能架构不是真·事件驱动、训练开销又大"的两难,本文以可在异步芯片上落地的 Spiking-token Mixer(SMixer)为骨干,再叠加一套零可训练参数的动态时空脉冲剪枝框架 DSTSP,在保持精度的同时把训练显存和能耗砍掉一半左右。

SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables

提出 SPARTA,一个端到端自动构建大规模表格-文本多跳问答基准的框架,通过参考事实数据库、来源引导的修复和现实结构约束生成高质量嵌套 SQL 查询,SOTA 模型在 SPARTA 上 F1 下降超过 30 分。

SPR\(^2\)Q: Static Priority-based Rectifier Routing Quantization for Image Super-Resolution

SPR\(^2\)Q 面向图像超分辨率模型的极低比特后训练量化,在量化前用一组低秩 rectifier 学习补偿权重增量,再通过离线静态优先级路由把最合适的增量融合进各层权重,从而在 4-bit、2-bit 甚至 1-bit 下显著缓解 MambaIRv2-light 的细节恢复损失且不增加推理开销。

SSDi8: Accurate and Efficient 8-bit Quantization for State Space Duality

SSDi8 是首个专门针对 Mamba-2 状态空间对偶(SSD)模块的训练后量化框架,通过"稀疏感知重构 + 持久 INT8 状态通路 + 维度分解感知的通道量化 + 均值校正"四件套,在 W8A8 / W4A8 下保持接近 FP16 的精度,同时把 SSD 推理加速最多 1.4×。

Stable-LoRA: Stabilizing Feature Learning of Low-Rank Adaptation

本文从特征学习稳定性的角度分析 LoRA 的训练动力学,证明 LoRA 在合适超参与初始化下能"自稳定",但常用的非零初始化 \(A_0\) 会长期破坏这种稳定性;为此提出 Stable-LoRA——在训练最初若干步对 \(A\) 做指数收缩,既保留非零初始化的好处又消除其引入的不稳定,在多模型多任务上稳定优于 AdamW 等基线,且几乎不增加显存与计算。

STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization

STaMP 提出沿序列维度做可逆线性变换(用 DCT/小波把激活能量集中到少数 token),再给这些高能量 token 分配更高比特,从而在固定平均比特预算下大幅降低低比特激活量化误差;它与现有沿特征维度的变换(Hadamard/QuaRot)正交互补,在 LLM 与 LVM 上即插即用地改善 W4A4 量化。

STAR: Similarity-guided Teacher-Assisted Refinement for Super-Tiny Function Calling Models

提出 STAR 框架,通过约束知识蒸馏(CKD)和相似度引导的强化学习(Sim-RL)协同工作,将大模型的 function calling 能力有效迁移到 0.6B 级别的超小模型,在 BFCL 和 ACEBench 上大幅超越基线。

Steering MoE LLMs via Expert (De)Activation

提出 SteerMoE,通过对比配对输入检测行为关联专家,在推理时通过激活/去激活特定专家来引导 MoE LLM 的行为(安全性提升 +20%,忠实性提升 +27%),同时揭示 MoE 模型的安全对齐脆弱性(安全下降 -100%)。

Study of Training Dynamics for Memory-Constrained Fine-Tuning (TraDy)

针对端侧设备内存极度受限、无法做完整反向传播的问题,本文先用三条关于微调训练动态的观察(梯度重尾、层重要性由架构决定、通道重要性由任务决定)把"该更新哪里"拆成离线选层 + 在线动态选通道两步,提出 TraDy——在架构预选出的高重要层内、每个 epoch 重新随机采样输入通道来更新,在严格内存预算下逼近全梯度,做到最高 99% 激活稀疏、95% 权重导数稀疏、97% 反向 FLOPs 削减,且精度反超确定性 oracle。

SumRA: Parameter Efficient Fine-Tuning with Singular Value Decomposition and Summed Orthogonal Basis

SumRA 把预训练权重 SVD 得到的全部奇异向量按"不相交且负载均衡"的方式求和压缩进 LoRA 的下投影矩阵 \(A\),再冻结 \(A\) 只训上投影矩阵 \(B\),从而在可训练参数减半、且 \(A\) 可跨任务共享的前提下,把 Whisper 适配五个新语种的 WER 从 LoRA 的 14.42% 降到 12.41%。

SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning

提出 SwiReasoning,一种免训练的 LLM 推理框架,通过基于熵趋势的块级置信度估计,动态切换显式(chain-of-thought)和隐式(latent space)推理模式,在 Pareto 意义上同时改善准确率(+1.8%~3.1%)和 Token 效率(+57%~79%)。

Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation

揭示动量 EMA 更新等价于在线线性回归的梯度下降,基于此提出 LoRA-Pre,通过低秩分解压缩优化器动量,实现显存高效的 LLM 预训练和微调,在所有模型尺度上达到最优性能且仅需基线方法 1/8 的秩。

TD-MoE: Tensor Decomposition for MoE Models

TD-MoE 把 MoE 一层里所有专家的权重堆成一个三维张量做联合 Tucker 分解,再配上多线性白化与自适应 3D 秩分配,从而捕捉到逐专家方法忽略的「专家间结构冗余」,在 20% 压缩下几乎无损、40%/60% 压缩下比 SVD 类 SOTA 高出 11%~14%。

Tequila: Trapping-free Ternary Quantization for Large Language Models

针对三值量化(权重压到 {-1, 0, +1})中大量权重被卡在"死区"边界、收不到有效梯度的问题,本文提出 Tequila,把这些"死权重"重新激活成可微的动态偏置,让它们既能在前向贡献信号、又能在反向收到直接梯度,几乎零推理开销下把 ARC 上的精度比 SOTA 三值方法提升 >4%,逼近全精度(差距 <1%)并获得 3.0× 推理加速。

Textual Equilibrium Propagation for Deep Compound AI Systems

提出文本平衡传播(TEP),一种基于局部学习原理的复合AI系统优化方法,通过自由阶段和微扰阶段的两阶段设计,避免全局文本反向传播中的梯度爆炸/消失问题,在深层工作流上显著优于 TextGrad。

The Curious Case of In-Training Compression of State Space Models

本文提出 COMPRESSM,把控制论里的「平衡截断 + Hankel 奇异值分析」搬到 SSM 的训练过程中,在训练早期就识别并砍掉对输入输出贡献低的状态维度,让模型「从大开始、训练中变小」,既加速训练又保留了直接训小模型会丢掉的关键结构。

The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

首次证明 GPTQ(从后向前执行时)在数学上等价于经典格理论中的 Babai 最近平面算法,由此获得几何解释和层级误差上界,并基于此设计了无裁剪的改进量化方法。

The Lattice Geometry of Neural Network Quantization -- A Short Equivalence Proof of GPTQ and Babai's Algorithm

独立于 Chen et al. (2026),以更简洁优雅的方式证明 GPTQ 等价于 Babai 最近平面算法,并阐明格基约减可能改进神经网络量化的前景。

The Unseen Frontier: Pushing the Limits of LLM Sparsity with Surrogate-Free ADMM

提出 Elsa 方法,通过无代理目标的 ADMM 约束优化直接求解稀疏性约束问题,突破 LLM 剪枝 50-60% 的"稀疏墙"瓶颈,在 90% 稀疏度下仍保持高模型保真度。

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

为了让小尺寸 plain ViT 既快又准,本文用一个比 patch token 宽 \(J\) 倍的 "Jumbo token" 替换原来的 CLS token,并给它配一个跨层共享、只处理单个 token 的专属宽 FFN,在几乎不增加计算/显存的前提下把全局表示容量补上去——在 ImageNet-1K Nano 尺度比 ViT+Registers 提升 13%,同时保持纯 ViT 的全部生态兼容性(MAE、SAR、分割头、多模态、时间序列)。

TiTok: Transfer Token-level Knowledge via Contrastive Excess to Transplant LoRA

提出 TiTok 框架,通过 token 级对比超额分数(contrastive excess)实现 LoRA 适配器跨模型高效迁移,无需额外判别器模型,在推理和个性化任务上一致超越 TransLoRA 和知识蒸馏基线。

To Compress or Not? Pushing the Frontier of Lossless GenAI Model Weights Compression with Exponent Concentration

本文发现训练后 GenAI 权重的浮点指数普遍呈现「指数集中」(低熵)现象,从 α-稳定分布理论上证明指数熵有界、对应约 FP4.67 的压缩极限,并据此设计了无损 FP8 压缩框架 ECF8(熵感知 Huffman 编码 + GPU 并行解码 + 即时张量管理),在最多 671B 参数的 LLM 与 DiT 上实现最高 26.9% 显存节省、177.1% 吞吐提升,且输出逐比特无任何偏差。

Token Distillation: Attention-Aware Input Embeddings for New Tokens

提出 Token Distillation 方法,通过蒸馏 Transformer 各层编码的多子词交互信息到单一 token 嵌入中,实现高质量的新 token 嵌入初始化,无需预训练超网络且优于现有方法。

Topology and Geometry of the Learning Space of ReLU Networks: Connectivity and Size

从代数几何和代数拓扑的视角,系统研究了基于一般 DAG 架构的前馈 ReLU 网络参数空间的连通性和奇异性,揭示了瓶颈节点和平衡条件在决定参数空间拓扑结构中的关键作用,并建立了奇异性与可微剪枝的理论联系。

Towards Efficient Constraint Handling in Neural Solvers for Routing Problems

提出 Construct-and-Refine (CaR) 框架,通过联合训练构造模块和轻量改进模块实现高效的可行性修复,首次为硬约束路径问题提供通用、高效的神经约束处理方案,在 TSPTW 和 CVRPBLTW 上大幅超越经典和神经 SOTA 求解器。

Towards Lossless Memory-efficient Training of Spiking Neural Networks via Gradient Checkpointing and Spike Compression

针对脉冲神经网络(SNN)用 BPTT 直接训练时 \(O(LT)\) 显存爆炸的痛点,本文把「逐层梯度检查点 + 无损二值脉冲压缩 + 多阶段检查点结构调整」打包成一个自动优化 pass,在不改精度、慢不超过 20% 的前提下把峰值显存压到原来的 0.12×~0.47×。

Towards Quantization-Aware Training for Ultra-Low-Bit Reasoning LLMs

针对超低比特(≤2 bit)量化会严重摧毁推理能力的问题,本文提出一套面向推理 LLM 的两阶段 QAT 流水线——第一阶段用「80% 推理 + 20% 预训练」的混合域数据做块级量化校准,第二阶段用教师引导的奖励修正损失做微调,让 2-bit 量化的 Qwen3-8B 在五个推理基准上平均超过 PTQ 基线 50.45%。

Towards Reliable Benchmarking: A Contamination Free, Controllable Evaluation Framework for Multi-step LLM Function Calling

提出 FuncBenchGen 框架,通过将多步函数调用建模为 DAG 图遍历问题,实现无数据污染、可精细控制任务难度的 LLM 工具使用能力评估,并揭示了推理模型在长调用链和连接型干扰函数下的关键失败模式。

TP-Spikformer: Token Pruned Spiking Transformer

针对脉冲 Transformer 部署开销大的问题,本文提出一种免训练、不改结构的 token 剪枝方法 TP-Spikformer:先用受神经科学启发的「时空信息保留准则」(IRToP) 给每个 token 打分,再用「块级早停架构」(IR-Arc) 让不重要的 token 跳过后续计算而非直接删除,在 ImageNet 等多个架构与任务上以零微调换来最高约 48% 的算力下降而精度仅掉 0.5–1.5%。

TRAC: Tensor-Train Based Across-Layer Compression for Parameter-Efficient Fine-Tuning

TRAC 把 LoRA 的低秩增量矩阵 \(A,B\) 改写成 Tensor-Train(TT)张量核序列,再在「跨层冻结/共享部分张量核 + 轻量向量控制器恢复层间灵活性」的策略下,把可训练参数压到比 LoRA 小一个数量级(LLaMA2-13B 上 20×、ViT-Large 上 14×),同时在 NLU / NLG / 常识与数学推理 / 图像分类上保持甚至超过 LoRA。

Training Dynamics Impact Post-Training Quantization Robustness

作者在最大 32B 参数、15T token 的开源大模型训练轨迹上系统测量了 GPTQ 后训练量化(PTQ)误差,发现量化误差的激增并非由"训练数据量变大"导致,而是由学习率衰减等训练动态主导;据此提出"保持更大学习率""沿轨迹做权重平均"两类干预,可在不损失精度的前提下显著改善量化鲁棒性,并用损失曲面的平坦度(曲率/Hessian)给出统一解释。

TurboBoA: Faster and Exact Attention-aware Quantization without Backpropagation

TurboBoA 提出了一种无需反向传播的 LLM 后训练量化方法,通过多 out-channel 联合量化、前层误差补偿和自适应网格选择三大创新,在保留 BoA 精度优势的同时实现了 3 倍以上加速。

TurboQuant: Online Vector Quantization with Near-Optimal Distortion Rate

TurboQuant 是一个 data-oblivious(无需数据校准、可在线即时使用)的向量量化算法:先随机旋转把任意输入向量的坐标"洗"成近独立的 Beta 分布,再对每个坐标套用预先解出的 Max-Lloyd 最优标量量化器,从而在所有码率/维度下都把 MSE 失真压到信息论下界的常数倍(≈2.7)以内;针对内积估计的偏差,再叠一层 1-bit QJL 处理残差得到无偏估计,在 KV cache 压缩与 ANN 检索上都超过现有 product quantization。

Understanding Dataset Distillation via Spectral Filtering

本文提出 UniDD 谱滤波框架,将多种数据集蒸馏方法统一为在特征-特征相关矩阵(FFC)上应用不同滤波函数来匹配特征-标签相关矩阵(FLC)的频率信息,并基于此洞见提出了课程频率匹配(CFM)方法。

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

提出通用统一 tokenizer UniFlow,通过层级自适应自蒸馏保留语义理解能力 + 轻量 patch-wise 像素流解码器实现高保真重建,在 13 个基准上实现理解与生成的双赢,7B UniFlow-XL 用 40% 更少数据超越 14B TokenFlow-XL 6.05%。

UniQL: Unified Quantization and Low-Rank Compression for Adaptive Edge LLMs

UniQL 把后训练量化和结构化低秩剪枝统一到一条"云端跑一次、端侧按需裁"的流水线里,通过免伪逆的权重排序、量化感知 SVD 和状态感知排序,让 Transformer、SSM、混合模型都能在一次压缩后按设备实时负载在端上配置 0–35% 的剪枝率,做到 4×–5.7× 显存压缩和 2.7×–3.4× 吞吐提升,精度仍贴近原模型。

UNITE: Universal Knowledge Integration from Task-Specific Experts

针对 MoE 大模型里专家知识"碎片化、跨层冗余"的问题,UNITE 先用 Fisher 信息把每层多个专家加权融合成一个专家,再用 Tucker 分解把跨层共享的低秩输入/输出子空间(作为"通用知识 / learngene")从层特有系数中剥离出来,最后用这套共享子空间一次抽取、反复重组,搭建任意深度的轻量目标模型——在推理类任务上比随机初始化基线高出 +6% 以上,参数量却只有压缩基线的几分之一。

Unveiling Super Experts in Mixture-of-Experts Large Language Models

本文首次发现并系统研究了 MoE LLM 中的"超级专家"(Super Experts)——数量极少但对模型推理至关重要的专家子集,它们通过 down_proj 中的极端激活异常值驱动 massive activations 和 attention sinks 机制。

Vulcan: 为边缘智能裁剪紧凑的类特定视觉 Transformer

Vulcan 发现 ViT 里 FFN 存「类相关知识」、MHA 存「类无关模式」,于是用一套「先训后剪」(train-then-prune) 的后训练方法,在 FFN 上把神经元向高激活的锚神经元坍缩、在 MHA 上用截断核范数正则把投影矩阵压成低秩,从而能在给定算力预算下近乎无损地剪出一个又小又强的「只认目标类」的边缘 ViT——只用原模型 20%–40% 的体积,类特定精度反而比原 ViT 高出最多 15.12%。

What Layers When: Learning to Skip Compute in LLMs with Residual Gates

提出 GateSkip——在 decoder-only Transformer 每个 Attention/MLP 分支输出处插入一个 sigmoid-linear 门控,微调时联合学习门控稀疏性与语言建模目标,推理时按门控值用分位数阈值确定性跳过低重要性 token,实现 token 级逐层自适应深度;在 Llama 8B 上节省 15% 计算保持 >90% 精度,指令微调模型全计算反而提升精度、约 50% 节省仍匹配基线,且与 INT4 量化/结构化剪枝/自推测解码正交可组合。

Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

本文提出 TAPPA 框架,从时间连续性视角统一解释了 LLM 中多种注意力模式(attention sink、对角线、周期性等)的形成机制,并通过 query 自相似性(q-similarity)指标指导 KV cache 压缩和模型剪枝任务。

WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference

WINA 在免训练稀疏激活中把"权重列范数"和"隐藏状态幅值"一起纳入门控判据——用 \(|x_i \cdot c_i|\) 而非单纯的 \(|x_i|\) 选 top-K 神经元,在理论上给出更紧的近似误差上界,并在 Llama/Mistral/Phi-4 上以相同稀疏度取得比 TEAL/CATS/R-Sparse 更高的精度,尤其在 65% 这种极端稀疏下优势显著。

WSVD: Weighted Low-Rank Approximation for Fast and Efficient Execution of Low-Precision Vision-Language Models

WSVD 把传统对整张 K/V 投影矩阵做的 SVD 改成"逐注意力头"做、再用 Fisher 重要度加权微调补回精度、最后叠加 W8A8 量化,并写了一个把低秩重建直接融进 Flash Decoding 的 Triton 算子,让视觉语言模型(VLM)在解码阶段相对 Flash Decoding 拿到 1.8× 以上的真实加速、几乎不掉点。

Zeros Can Be Informative: Masked Binary U-Net for Image Segmentation on Tensor Cores

作者发现给二值 U-Net 的权重加一个显式的「零」状态能让稀疏度飙到 90%+ 并大幅回血精度,于是提出按"性价比"挑选关键层做零掩码的 MBU-Net,再用一套"减法位编码"把这种掩码二值权重直接映射到 GPU 的二值 Tensor Core(BMMA)上,在 3 个分割数据集上做到接近全精度的精度(平均掉 3%)的同时相比 FP16 U-Net 提速 2.04×、能耗降 3.54×。