跳转至

📦 模型压缩

💬 ACL2025 · 64 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (42) · 📷 CVPR2026 (57) · 🔬 ICLR2026 (92) · 🤖 AAAI2026 (54) · 🧠 NeurIPS2025 (137) · 📹 ICCV2025 (48)

🔥 高频主题: 模型压缩 ×19 · LLM ×18 · 压缩/编码 ×14 · 知识蒸馏 ×4 · 对抗鲁棒 ×3

500xCompressor: Generalized Prompt Compression for Large Language Models

提出 500xCompressor,将最多约 500 个自然语言 token 压缩为最少 1 个特殊 token 的 KV 值,实现 6x 到 480x 的压缩比,仅增加约 0.25% 的参数,LLM 在压缩后保留 62.26%-72.89% 的原始能力,显著超越 ICAE 基线。

Accurate KV Cache Quantization with Outlier Tokens Tracing

发现 KV Cache 的 outlier channel 中存在少量异常 token 偏离先前假设的均匀分布,提出 OTT(Outlier Tokens Tracing)方法,在量化过程中动态追踪并排除这些 token,在 2-bit 量化下实现 6.4x 内存压缩和 2.3x 吞吐提升,同时显著提高精度。

AlignDistil: Token-Level Language Model Alignment as Adaptive Policy Distillation

AlignDistil 证明了 RLHF 目标函数与 token 级蒸馏过程的理论等价性,并据此设计了一种简单的蒸馏方法:用 DPO 模型和反向 DPO 模型的 logit 分布线性组合构造教师分布,配合 token 自适应外推机制实现 token 级奖励优化,在 AlpacaEval 2.0、MT-Bench 和 Arena-Hard 上优于现有方法且收敛更快。

APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs

APB 提出了一种分布式长上下文推理框架,通过在序列并行框架中引入本地 KV cache 压缩和跨 GPU 传递压缩上下文块的机制,在不损失任务性能的前提下实现了相比 FlashAttn/RingAttn/StarAttn 分别高达 9.2x/4.2x/1.6x 的 prefill 加速。

Assigning Distinct Roles to Quantized and Low-Rank Matrices Toward Optimal Weight Decomposition

提出ODLRI (Outlier-Driven Low-Rank Initialization),为联合量化+低秩优化(Q+LR)框架中的低秩分量赋予明确角色——捕获激活异常值敏感权重,使量化分量处理更平滑的残差,在Llama2/3和Mistral的2-bit极端量化场景下持续降低困惑度和提升零样本精度。

Basic Reading Distillation

本文提出基础阅读蒸馏(BRD),通过让教师LLM在通用语料上生成基础阅读行为数据(包括NER和问答),训练小型学生模型模仿这些行为,使564M参数的小模型在不接触下游任务数据的情况下就能在多种NLP任务上达到或超过20倍大的教师模型性能。

BeamLoRA: Beam-Constraint Low-Rank Adaptation

BeamLoRA 发现 LoRA 模块中不同 rank 的重要性存在显著差异且随训练动态演变,受 beam search 启发,提出在训练过程中动态评估 rank 重要性、剪枝不重要的 rank 并将参数空间扩展给重要 rank,在固定总 rank 下提升性能,在三个基座模型的 12 个数据集上持续优于 LoRA 及其变体。

Beyond Logits: Aligning Feature Dynamics for Effective Knowledge Distillation

本文提出一种超越 logit 匹配的知识蒸馏方法,通过对齐教师和学生模型在训练过程中的特征变化动态(而非静态特征快照),实现更有效的知识转移,显著提升了 NLP 任务上的蒸馏效果。

Beyond Text Compression: Evaluating Tokenizers Across Scales

本文系统评估了 6 种 tokenizer 在 350M 和 2.7B 参数模型上的影响,发现 tokenizer 选择对英文任务影响极小但对多语言任务(如机器翻译)有显著且跨尺度一致的影响,并提出了基于 Zipf 定律的新型内在评估指标,比文本压缩率能更好地预测多语言场景下的下游性能。

"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization

这是迄今最全面的 LLM 量化实证研究,在 Llama-3.1 全系列(8B/70B/405B)上对 FP8/INT8/INT4 进行了超过 50 万次评估,发现 FP8 几乎无损、INT8 仅降 1-3%、INT4 出奇地有竞争力,并给出了不同部署场景的量化格式选择建议。

BlockPruner: Fine-grained Pruning for Large Language Models

提出 BlockPruner,将 Transformer 层分解为 MHA 和 MLP 两个最小残差块,基于困惑度评估块重要性并通过迭代搜索进行细粒度剪枝,实现比层级剪枝更优的压缩效果。

BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation

提出 BrainECHO 三阶段框架(自编码—对齐—微调),通过向量量化离散表示将脑信号映射到 Mel 频谱图空间,再借助 Whisper 完成非侵入式脑信号到文本的高质量解码。

CAMI: A Counselor Agent Supporting Motivational Interviewing through State Inference and Topic Exploration

本文提出CAMI(Counselor Agent for Motivational Interviewing),一个基于动机式访谈(MI)原则的咨询Agent,通过STAR框架(状态推断、话题探索、回复生成)来引导来访者产生改变谈话(change talk),在自动化和人工评估中均优于现有方法。

Capture the Key in Reasoning to Enhance CoT Distillation Generalization

提出 EDIT(mistakE-Driven key reasonIng step distillaTion),通过构造正确/错误配对的 dual CoTs 数据,利用最小编辑距离算法定位关键推理步骤,并以 token 级细粒度损失函数引导小模型聚焦学习这些关键步骤,而非简单模仿教师的推理形式。

CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information

本文提出CFSP框架,利用粗粒度(block间)和细粒度(block内)的激活信息作为重要性准则指导LLM的结构化剪枝,仅需一次前向传播即可完成剪枝,在多个模型和稀疏度预算上优于现有方法。

ClaimPKG: Enhancing Claim Verification via Pseudo-Subgraph Generation with Lightweight Specialized LLM

提出 ClaimPKG 框架,通过轻量级专用 LLM 将文本声明转换为伪子图表示,再从知识图谱中检索相关子图作为证据,最终由通用 LLM 进行推理验证,在 FactKG 数据集上比 SOTA 高出 9%-12% 准确率。

Compact and Compressible Representations for LLMs Using Structured Sparse Decomposition

本文提出一种结构化稀疏分解方法,将LLM权重矩阵分解为低秩部分和结构化稀疏部分的组合,实现高压缩比的同时保持模型性能,使大模型在资源受限环境下高效部署成为可能。

Compression in Transformer Language Models Has a Surprising Relationship with Performance

本文从信息论角度研究Transformer语言模型中压缩(权重的可压缩性)与模型性能之间的关系,发现了一个反直觉的现象:在一定范围内,更容易被压缩的模型反而具有更好的泛化性能,这与最小描述长度(MDL)原理的预测一致。

DAC: A Dynamic Attention-aware Approach for Task-Agnostic Prompt Compression

DAC 提出动态注意力感知的 prompt 压缩方法,通过融合信息熵和注意力分数作为 token 重要性度量,并动态感知压缩过程中的熵偏移来进行细粒度压缩,在 LongBench 上比 SOTA 方法提升平均 1.33 分。

Data Laundering: Artificially Boosting Benchmark Results through Knowledge Distillation

本文揭示了知识蒸馏可被滥用来人为提高基准测试分数的漏洞——通过"数据洗白"(Data Laundering)方法,将教师模型在测试集上学到的知识通过看似合法的中间训练步骤隐蔽地传递给学生模型,使一个2层BERT即可在GPQA上达到73.94%(接近OpenAI o1的77.30%),而该模型并未真正学会推理。

DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking

提出面向复杂工程方案设计的新基准 SolutionBench 和新系统 SolutionRAG,通过树搜索探索+双视角思维(设计-审查交替)在 RAG 框架下逐步生成满足多约束的可靠工程方案,在 8 个工程领域达到 SOTA。

Direct Behavior Optimization: Unlocking the Potential of Lightweight LLMs

提出 DeBoP 范式,将轻量级 LLM(LwLLM)的行为优化转化为对离散执行序列的优化,通过无梯度蒙特卡洛树搜索(MCTS)自动寻找最优 demonstration,使 LLaMA3-8B 在多数任务上超越 GPT-3.5 并减少约 60% 计算时间。

Disentangling the Roles of Representation and Selection in Data Pruning

本文将数据剪枝(data pruning)系统性地拆解为"数据表示"和"选择算法"两个独立维度,通过理论分析和大规模实验发现:表示质量(尤其是训练梯度)对剪枝效果起决定性作用,而不同选择算法在不同场景下各有优劣,且常常偏离其设计目标。

DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization

DRPruning 将分布稳健优化(DRO)引入 LLM 结构化剪枝,通过 scaling law 预测各领域最终 loss 作为参考、动态调整训练数据分布来平衡剪枝后各领域性能,在单语和多语设置下分别以 -5.59% PPL 和 +2.95% 下游任务的提升超越 Sheared LLaMA。

Efficient Long Context Language Model Retrieval with Compression

提出 CoLoR(Compression for Long context Retrieval),通过偏好优化和长度正则化联合训练段落压缩模型,在保持长上下文语言模型检索性能提升 6% 的同时将上下文长度压缩 1.91 倍。

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

EfficientQAT 提出两阶段 QAT 框架——先逐块训练所有参数(Block-AP)提供良好初始化,再端到端训练量化参数(E2E-QP)捕获跨块交互,在单张 A100 上 41 小时完成 Llama-2-70B 的 2-bit 量化,精度仅降 3 点。

Explaining Puzzle Solutions in Natural Language: An Exploratory Study on 6×6 Sudoku

评估五个LLM在求解和解释6×6数独谜题上的能力,发现即使o1-preview能解出65%的题目,其推理解释在忠实性、清晰度和教育价值方面仍严重不足。

FedEx-LoRA: Exact Aggregation for Federated and Efficient Fine-Tuning of Large Language Models

FedEx-LoRA 发现联邦学习中独立平均 LoRA 的 A 和 B 矩阵会导致不精确的全局更新("乘积的均值≠均值的乘积"),通过在冻结权重矩阵中加入残差误差项实现精确聚合,在多个推理和 NLU 任务上一致优于 FedIT 和 FFA-LoRA。

Flipping Knowledge Distillation: Leveraging Small Models' Expertise to Enhance LLMs in Text Matching

本文提出"反向知识蒸馏"范式——让 LLM 从微调过的小模型学习文本匹配的领域专家知识,通过将 decoder-only LLM 重新解释为 encoder-decoder 架构(用 LoRA 的压缩矩阵做 encoder)并设计 Margin-aware Contrastive Loss 来对齐表示相似度。

A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

对基于 Gist Token 的上下文压缩方法进行全面系统研究,发现细粒度 KV Cache 架构在 RAG/QA 等任务上接近无损,但在精确回忆任务上存在明显差距,并识别出三种关键失败模式和两种有效改进策略。

GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning

GSQ-Tuning 提出了一种基于"组共享指数整数"(Group-Shared Exponents Integer)格式的全量化微调框架,在推理和训练中完全消除浮点运算,结合 LoRA 适配器实现了精度接近 BF16 微调、内存降低 1.85x、功耗降低 5x、芯片面积缩小 11x 的边端 LLM 微调方案。

IAM: Efficient Inference through Attention Mapping between Different-scale LLMs

发现不同规模 LLM 的注意力矩阵具有高度相似性,提出 IAM 框架——在 prefill 阶段建立小模型与大模型注意力头之间的余弦相似度映射,decode 阶段用小模型的注意力矩阵替代大模型映射层的注意力计算,实现 KV cache 减少 22% 和推理加速 11%,且与现有 KV cache 压缩方法正交。

L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models

提出 L4Q,将量化感知训练 (QAT) 与 LoRA 深度整合:先合并权重与LoRA参数再统一量化,通过定制反向传播路径消除权重梯度存储开销,实现联合优化量化与微调参数,在4-bit和3-bit量化下显著超越现有方法。

Lacuna Inc. at SemEval-2025 Task 4: LoRA-Enhanced Influence-Based Unlearning for LLMs

提出 LIBU(LoRA 增强的影响函数遗忘算法),分两阶段实现 LLM 机器遗忘:Phase 1 用对角 Fisher 信息矩阵加权的影响函数更新参数精准遗忘,Phase 2 用 Sophia 二阶优化器稳定化训练,在 SemEval-2025 Task 4 的 OLMo-7B 上达到 0.283 遗忘率同时维持 0.469 MMLU 准确率。

Language Models Resist Alignment: Evidence From Data Compression

本文从压缩理论视角提出LLM的"弹性"(elasticity)概念,证明模型在受到微调扰动时压缩率变化与数据集大小成反比——因为预训练数据远大于对齐数据,对齐效果被优先"遗忘",这从信息论角度根本性地解释了为什么LLM对齐如此脆弱。

Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders

利用 Sparse Autoencoders (SAEs) 分析多语言 LLM 的内部表示,发现存在强烈的语言特定 SAE features,这些 features 不仅与语言特有 token 相关还与语言上下文相关,消融它们只影响对应语言能力,且多个语言 features 之间存在协同效应;进一步利用这些 features 增强 steering vectors 实现对生成语言的精确控制。

Towards the Law of Capacity Gap in Distilling Language Models

揭示了语言模型蒸馏中的"容量差距定律"——最优教师模型的参数量与学生模型成线性关系(约 2.5 倍),将 LLM 蒸馏中的"不可能三角"转化为可解问题,并据此成功蒸馏出 3B 的 MiniMA 模型。

Limited-Resource Adapters Are Regularizers, Not Linguists

本文将 adapter souping(权重平均)与交叉注意力微调结合用于低资源克里奥尔语机器翻译,发现虽然方法带来了显著提升(最高 +8 BLEU),但语言关联性与 adapter 性能无有意义的协变关系——随机初始化的未训练 adapter 表现同样优秀,表明 adapter 在此设定下的作用本质是参数正则化而非语言信息迁移

LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation

本文系统分析了长上下文LLM在短文本任务上性能退化的两个原因(分布漂移和灾难性遗忘),并提出LongReD方法,通过短文本蒸馏和短到长蒸馏两个训练目标来最小化扩展模型与原始模型之间的分布差异,在保持长文本建模能力的同时将短文本性能保留至原始模型的99.4%。

MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts

MoQAE 创造性地将不同量化比特宽度配置视为 MoE 中的"专家",通过轻量路由器学习每个 chunk 的最优量化策略,结合路由冻结和路由共享机制,在几乎不损失精度的情况下大幅减少长上下文推理的 KV cache 内存。

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

提出布局感知的High-resolution DocCompressor模块,用全局低分辨率视觉特征作为query、子图特征作为key/value进行分组交叉注意力,将每张高分辨率文档图片从数千tokens压缩至324 tokens,配合三阶段训练框架在多页文档理解上达到SOTA且First Token Latency降低50%以上。

One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments

Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging

OSRM 发现 LoRA 模型合并失败的根因是参数与数据分布的交互干扰(而非仅仅是参数冲突),提出在微调前通过数据协方差矩阵的特征分解来初始化 LoRA 矩阵 A,使其子空间与其他任务的数据分布正交,从而在合并时最小化跨任务干扰,在 8 个数据集、5 个模型上显著提升合并性能。

Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models

OSP(Outlier-Safe Pre-Training)框架通过三项创新——Muon 优化器(消除特权基方向)、Single-Scale RMSNorm(防止通道放大)和可学习嵌入投影层(重分布嵌入层激活),在预训练阶段主动防止异常值形成,训练的 1.4B 模型在 1T tokens 上实现近零超额峰度(0.04 vs 标准模型的 1818.56),在激进4-bit量化下平均分 35.7(Adam 为 26.5),仅 2% 训练开销。

C3A: Parameter-Efficient Fine-Tuning via Circular Convolution

提出 C3A 方法用循环卷积算子替代 LoRA 的低秩矩阵分解实现参数高效微调,核心优势是矩阵秩与参数量解耦——可用少量参数实现高秩适配,同时通过 FFT 保持与 LoRA 相当的计算和内存效率,在多种微调任务上一致超越 LoRA 及其变体。

Pre-training Distillation for Large Language Models: A Design Space Exploration

系统性地探索大语言模型预训练蒸馏(Pre-training Distillation)的设计空间,从 logits 处理、损失函数选择、scaling law 和 offline/online logits 四个维度进行广泛实验,找到更优配置并得出有价值的结论。

Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation

提出CanDist框架,借鉴人类面对不确定性时的"模糊规避"心理,引导LLM输出多个候选标签而非单一标签(候选标注),再通过分布精炼(Distribution Refinery)策略蒸馏到小语言模型(SLM)获得最终标注,从理论到实验证明候选标注蒸馏优于单一标注。

PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models

提出 PTQ1.61,首个将 LLM 权重有效压缩到真正 sub-2-bit(1.61-bit)的后训练量化方法,通过一维结构化掩码(仅增加 0.0002-bit 开销)、分块缩放因子优化和量化预处理三项技术实现 SOTA 性能。

Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis

本文提出 Outlier Spatial Stability Hypothesis (OSSH)——微调期间激活异常通道的空间位置保持稳定——并基于此设计了 Quaff 框架,通过目标动量缩放仅处理少量不变的异常通道,实现 1.73× 延迟降低和 30% 内存节省,同时在 GPQA 上精度还提升了 0.6%。

Quantification of Large Language Model Distillation

本文提出了两种互补的LLM蒸馏量化方法——身份一致性评估(ICE)和响应相似性评估(RSE),通过越狱攻击挖掘模型身份信息泄露和多粒度响应相似性来衡量模型的蒸馏程度,发现大多数知名LLM(除Claude、Doubao和Gemini外)都表现出较高的蒸馏程度。

Revisiting LoRA through the Lens of Parameter Redundancy: Spectral Encoding Helps

本文系统研究了 LoRA 微调中的参数冗余问题,发现降低密度冗余不会损害表达能力(稀疏性质),并提出 SeLoRA——利用频谱变换(Fourier/Wavelet)从稀疏频谱子空间重参数化 LoRA 矩阵,以更少参数实现更优性能,且可即插即用地集成到多种 LoRA 变体中。

Spectra 1.1: Scaling Laws and Efficient Inference for Ternary Language Models

本文系统研究三值语言模型(TriLM)的缩放规律,发现 TriLM 从增加训练数据中获益远大于增加参数量,基于此训练了在 1.2T token 上预训练的 Spectra-1.1 模型族(1B/2B/3B),并提出 1.6-bit 和 2-bit 权重打包方案及 TriRun GPU 内核,实现最高 8 倍的推理加速。

Sci-LoRA: Mixture of Scientific LoRAs for Cross-Domain Lay Paraphrasing

提出 Sci-LoRA——一种混合多领域 LoRA 的框架,通过对比学习训练文本编码器+动态权重生成器+LoRA 融合模块,在无需领域标签的情况下实现跨12个学科领域的科学文本通俗化改写,在5个数据集10个指标上超越 SOTA。

SCOPE: Optimizing Key-Value Cache Compression in Long-context Generation

提出 SCOPE 框架,针对长上下文生成任务分别优化 prefill 和 decoding 阶段的 KV 缓存压缩策略——prefill 阶段保留完整缓存以维持理解能力,decoding 阶段采用滑动窗口选择 heavy hitters,并通过 adaptive 和 discontinuous 策略进一步优化内存和传输效率。

Mitigating Selection Bias with Node Pruning and Auxiliary Options

提出 Bias Node Pruning (BNP) 和 Auxiliary Option Injection (AOI) 两种互补方法,通过定位并剪除模型输出层中 0.002% 的偏差参数(白盒)与注入"I don't know"辅助选项(黑盒通用),从内外两端同时缓解 LLM 在多选题中的选择偏差,同时提出分布级偏差度量 CKLD,组合方法在 Llama-3 上将 ARC-Challenge 准确率从 52.3% 提升至 65.3%。

Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs

证明了朴素的 Top-K 稀疏知识蒸馏会产生有偏估计,提出基于重要性采样的 Random Sampling Knowledge Distillation (RSKD) 方法,提供无偏梯度估计,仅需存储极度稀疏的 logits,训练开销仅比交叉熵增加不到 10%,性能与全量蒸馏持平。

State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space Models

针对 SSM(如 Mamba)提出 State-offset Tuning,一种新的"状态基"PEFT 方法家族,通过在每个时间步直接注入可训练的状态偏移量 \(h'\) 替代 Prefix-Tuning 的虚拟 token,解决了 prompt-based 方法在 SSM 上表达能力受限的问题,在更少参数量下持续优于 LoRA 和 Prefix-Tuning。

TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering

提出 TaDA——无需训练的 KV cache 压缩方法,通过对 K/V 激活做 head 维度均值中心化后量化偏差(而非原始激活),自动消除离群值问题,配合逐层自适应量化精度搜索,将 KV cache 压缩至原始 16 位的 27% 同时保持接近基线的精度。

TeamLoRA: Boosting Low-Rank Adaptation with Expert Collaboration and Competition

提出 TeamLoRA,通过非对称协作模块(共享A矩阵+多个专家B矩阵的"插件式"组织)和基于Shapley值的竞争模块来优化Multi-LoRA架构,在多任务学习中实现了更好的效果-效率平衡——训练时间比MoELoRA减少30%,推理速度提升40%,同时性能更优。

Trans-PEFT: Transferable Parameter-Efficient Fine-Tuning on Evolving Base Models

Trans-PEFT 发现基座模型更新(如 Qwen2→Qwen2.5)主要改变 FFN 层的任务知识存储而较少影响 Attention 层的任务模式,据此提出层内知识掩码和跨层知识丢弃两种策略,使在旧版本上训练的 PEFT 模块可直接迁移到新版本而不需重新微调,性能提升可达 30%。

UniICL: An Efficient ICL Framework Unifying Compression, Selection, and Generation

提出 UniICL 框架,用一个冻结的 LLM 同时完成 demonstration 压缩(compress→virtual tokens)、demonstration 选择(基于压缩后的 virtual token 相似度排序)和最终响应生成三个任务,仅需 17M 可训练参数(projection layer + learnable embedding),配合 Demonstration Bank 缓存机制避免重复压缩,实现 12× 压缩率下从 4-shot 扩展到 64-shot ICL(24GB 显存内),在多个 out-of-domain 数据集上超越 AutoCompressor、ICAE、LLMLingua 等基线。

UniQuanF: Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models

UniQuanF 统一了均匀量化(UQ,表现力弱但优化性强)和二进制编码量化(BCQ,表现力强但优化性差)的优势,通过统一初始化、局部周期映射和统一定理,实现无额外部署开销的高精度 LLM 量化,在 GSM8K 上提升最高 4.60%。

Wanda++: Pruning Large Language Models via Regional Gradients

提出 Wanda++——基于 decoder block 级别区域梯度的轻量级 LLM 剪枝框架,通过区域梯度评分(RGS)改进剪枝准则 + 区域优化(RO)最小化稠密/稀疏块输出差异,在 2:4 稀疏下 WikiText 困惑度较 Wanda 最高降低 32%,单 H100 GPU 10 分钟内完成 7B 模型剪枝。

Who Taught You That? Tracing Teachers in Model Distillation

本文提出"教师模型归因"新问题:给定一个蒸馏后的学生模型,能否从候选教师中识别出其训练教师?发现 n-gram 相似度和困惑度不可靠,但词性(PoS)句法模板能提供有效的教师识别信号。