跳转至

📦 模型压缩

💬 ACL2026 · 59 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (108) · 🔬 ICLR2026 (239) · 🧪 ICML2026 (116) · 🤖 AAAI2026 (60) · 🧠 NeurIPS2025 (143) · 📹 ICCV2025 (52)

🔥 高频主题: LLM ×19 · 模型压缩 ×9 · 压缩/编码 ×4 · 推理 ×4 · 对齐/RLHF ×3

A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification

把 production LLM 的 token×layer 隐状态张量当成可挖掘资源,用「先压 token、再压 layer」的两阶段聚合 probe 在同一次 forward 里完成安全/情感分类,35M 可训练参数即可逼近独立 guard 模型,省掉一次额外的 LLM 调用。

A Layer-wise Analysis of Supervised Fine-Tuning

通过信息论、几何和优化三个视角对 1B-32B 模型的 SFT 进行逐层分析,发现指令跟随能力集中在中间层(20%-80%),而非均匀分布,据此提出 Mid-Block Efficient Tuning 策略,选择性更新中间层,在 GSM8K 上比标准 LoRA 提升高达 10.2%。

Adaptive Layer Selection for Layer-Wise Token Pruning in LLM Inference

提出ASL(Adaptive Selection Layer),通过监控token注意力分数排名的方差来自适应确定KV缓存剪枝的层位置,在困难任务上显著优于固定层选择方法,同时保持无需训练。

Alignment Tuning for Large Language Models: A Data-Centric Lens on Alignment Data Pipelines

这篇论文把 LLM alignment tuning 重新解释为一个动态的数据管线设计问题:模型最终学到什么,不只取决于 PPO、DPO、GRPO 这类优化算法,更取决于候选回答如何生成、偏好如何评估、偏好信号又如何实例化为训练目标。

Analytical FFN-to-MoE Restructuring via Activation Pattern Analysis

提出一种分析式后训练框架,通过神经元激活模式分析将dense FFN快速重构为sparse MoE——区分高频共享专家和低频路由专家,并从激活统计量构建路由器,仅需2k样本微调即可实现1.17×加速。

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

ArcLight 是一个从零写的轻量级 LLM 推理框架(约 10 个 C++ 文件),专为多 NUMA 节点的 many-core CPU 设计,通过 NUMA 局部内存池、多视图线程池、跨 NUMA 张量并行 + 异步子图同步打破"远程内存墙",在 192 核 ARM 鲲鹏平台上把 Qwen3-4B Q4_0 的 decode 吞吐相对 llama.cpp 提高至多 46%。

BaseCal: Unsupervised Confidence Calibration via Base Model Signals

观察到 base LLM 在 free-form QA 上仍然保持良好校准、而 post-trained LLM(PoLLM)严重过自信,BaseCal 提出两种无监督方案——把 PoLLM 的回答喂进 base LLM 拿 token 概率做置信度(BaseCal-ReEval),或用一层线性投影把 PoLLM 末层隐状态映射回 base LLM 空间再过 base 的输出层(BaseCal-Proj),在 5 个数据集 × 3 个模型族上把 ECE 相对最佳无监督基线平均降低 42.9%。

Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference

CSD 提出一种训练免的推测解码增强框架,通过在线校正记忆(OCM)记录高频拒绝模式提供救援候选,再用语义一致性门控(SCG)基于概率比验证候选可靠性,将推测解码的吞吐量提升至最高 2.33×,同时在 HumanEval 和 MATH500 上甚至提升了准确率。

CBRS: Cognitive Blood Request System with Bilingual Dataset and Dual-Layer Filtering

CBRS 提出一个多平台框架,通过双层过滤架构(轻量分类器 + LLM)从社交媒体消息流中高效检测并解析血液捐献请求,构建了首个包含 11K 条孟加拉语-英语-转写孟加拉语的血液捐献请求数据集,LoRA 微调的 Llama-3.2-3B 在解析任务上达到 92% 零样本准确率。

Cognitive-Uncertainty Guided Knowledge Distillation for Accurate Classification of Student Misconceptions

论文用两阶段知识蒸馏 + 基于教师认知不确定性的"双层边际样本选择" + 难度自适应损失,在仅用 10.30% 真实样本增量训练的情况下,把 4B 学生模型在 MAP-Charting 上做到 MAP@3 = 0.9585(+17.8%),并在 220 题中学代数误解 benchmark 上以 84.38% 准确率超过 GPT-5(67.73%)与直接微调的 72B 教师(81.25%),同时推理速度比教师快 23×。

DASH-KV: Accelerating Long-Context LLM Inference via Asymmetric KV Cache Hashing

提出 DASH-KV 框架,将注意力机制重构为近似最近邻搜索问题,通过非对称深度哈希将高维浮点相似度计算替换为高效的汉明距离比特操作,配合动态混合精度机制,将长上下文推理复杂度从 \(O(N^2)\) 降至 \(O(N)\) 且性能匹配全注意力。

DeepPrune: Parallel Scaling without Inter-Trace Redundancy

本文提出 DeepPrune,通过训练专门的判断模型从部分推理轨迹预测答案等价性,结合在线贪心聚类算法动态剪枝冗余的并行 CoT 路径,在保持竞争准确率(3 个百分点以内)的同时减少 65.73%-88.50% 的 token 消耗。

Efficient Learned Data Compression via Dual-Stream Feature Decoupling

本文提出FADE框架,通过双流多尺度解耦器将微观句法和宏观语义特征分离到并行浅层流中处理(取代深层串行堆叠),结合层次化门控精炼器和并发流并行流水线,在压缩率和吞吐量上同时达到SOTA。

Enabling Agents to Communicate Entirely in Latent Space

本文提出 Interlat,一个让 LLM 智能体完全在潜空间中通信的框架——发送方直接传递最后一层隐状态作为"思维"的表示,接收方通过通信适配器解释这些潜空间消息,并通过潜空间推理进一步压缩到仅 8 个 token 同时保持竞争性能,实现高达 24× 的通信加速。

Establishing a Scale for Kullback–Leibler Divergence in Language Models Across Various Settings

本文利用对数似然向量将不同架构的语言模型嵌入统一空间,系统测量了预训练、模型规模、随机种子、量化、微调和层间等多种设置下的 KL 散度特征尺度,并发现预训练轨迹在对数似然空间中呈亚扩散行为——尽管权重空间持续漂移,模型输出分布早期即趋于稳定。

Evolutionary Negative Module Pruning for Better LoRA Merging

提出 ENMP 方法,通过进化搜索策略发现并剪除 LoRA 合并中降低性能的"负面模块",作为即插即用的增强手段,在 NLP 和视觉领域全面提升现有合并算法的效果。

FastKV: Decoupling of Context Reduction and KV Cache Compression for Prefill-Decoding Acceleration

本文提出 FastKV,通过将上下文缩减(prefill 阶段的 Token-Selective Propagation)与 KV 缓存压缩(decoding 阶段的层级 KV 保留)解耦,在 LLaMA-3.1-8B-Instruct 上实现 prefill 1.82× 和 decoding 2.87× 加速,同时在 LongBench 上精度下降控制在 1% 以内。

Find Your Optimal Teacher: Personalized Data Synthesis via Router-Guided Multi-Teacher Distillation

提出 PerSyn(Personalized data Synthesis),通过"先路由再生成"范式让路由器为每个 prompt 分配最优教师模型,综合考虑学生可学习性和教师响应质量,比传统"先生成再选择"范式高效且效果更好,在指令微调和数学推理两个场景中一致超越所有基线。

From Signal Degradation to Computation Collapse: Uncovering the Two Failure Modes of LLM Quantization

本文通过系统的机械可解释性分析,揭示LLM量化存在两种质性不同的失败模式:4-bit的信号退化(Signal Degradation,计算模式完整但精度受损,可局部修复)和2-bit的计算崩溃(Computation Collapse,关键组件功能性破坏,需结构重建)。

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

本文提出 GlimpRouter:在 step 级 LRM 协同推理中,先让小模型只解码每个推理步的"第一个 token",用它的熵 \(\mathbf{H}_{\text{init}}\) 估计该步难度,低则小模型续写、高则切换到大模型;training-free,无需大模型 verifier,在 AIME25 上比独立大模型准确率 +10.7% 同时延迟 −25.9%,且与 token-level Speculative Decoding 正交叠加。

GRASPrune: Global Gating for Budgeted Structured Pruning of Large Language Models

GRASPrune 提出了一种全局预算约束的结构化剪枝框架,通过投影直通估计器(Projected STE)在每步训练中强制满足硬掩码预算约束,联合剪枝 FFN 通道和 KV 头组,在 LLaMA-2-7B 上以 50% 参数保留达到 12.18 PPL,仅需单卡 A100 训练 6 分钟。

HeteroCache: A Dynamic Retrieval Approach to Heterogeneous KV Cache Compression for Long-Context LLM Inference

本文提出 HeteroCache,一种免训练的动态 KV 缓存压缩框架,基于注意力头的时间异质性(稳定头 vs 漂移头)和层内冗余性(相似头聚类),实施细粒度的角色分配策略——为漂移头分配更大缓存预算,用代表头稀疏监控注意力漂移触发异步按需检索,在 224K 上下文下实现 3 倍解码加速。

IMPACT: Importance-Aware Activation Space Reconstruction

提出 IMPACT 框架,将 LLM 低秩压缩从最小化权重重构误差转向最小化重要性加权的激活重构误差,通过将梯度信息融入激活协方差矩阵推导出闭式最优解,实现在保持精度的同时最高减少 55.4% 的模型体积。

CadLLM: Improving the Throughput of Diffusion-based LLMs via Training-Free Confidence-Aware Calibration

提出 CadLLM,一种免训练的自适应推理加速方法,利用扩散语言模型(dLLM)的 token 解码置信度信号动态调整块大小、步数、词表采样范围和提交阈值四个维度,在 LLaDA 和 DREAM 上实现 1.1-2.28× 的吞吐量提升且保持竞争性准确率。

IntroLM: Introspective Language Models via Prefilling-Time Self-Evaluation

IntroLM 在 prompt 尾部追加特殊 [CPX] 内省 token,再通过"只对该 token 生效的 token-conditional LoRA"在 prefilling 阶段一次性算出"这个 prompt 我能不能答对",整套自评不进 KV cache、不影响生成,在 HotpotQA 等长上下文 QA 上 ROC-AUC 比 DeBERTa-v3-Large 高 14 个点,用作模型路由能省下最多 50% 大模型调用、33% 端到端延迟。

JudgeMeNot: Personalizing Large Language Models to Emulate Judicial Reasoning in Hebrew

提出了一个 synthetic-organic 监督管线,将法官的原始判决文书转化为推理指令微调数据,通过 CLM→指令微调的 Chain-of-LoRA 策略实现对个体法官推理风格的高保真模拟,在希伯来语低资源场景下生成内容与真实法官不可区分。

Latent-Condensed Transformer for Efficient Long Context Modeling

LCA 提出在 MLA 的潜空间中直接进行上下文压缩——对语义潜向量用查询感知加权池化聚合、对位置键用锚点选择保持位置精度——在 128K 上下文中实现 2.5 倍预填充加速和 90% KV 缓存压缩,同时保持竞争性性能。

LEAP: Layer-wise Exit-Aware Pretraining for Efficient Transformer Inference

首先在理论 + 实证上指出"逐层对齐蒸馏"与"基于收敛的早退"在标准部署下系统性不兼容——蒸馏模型每一层都在干活、没有冗余可早退,然后提出 LEAP 这种零额外参数的辅助训练目标,让中间层提前逼近最终层表示,在 MiniLM-L12 上拿到 1.61× 实测墙钟加速(batch=1,91.9% 样本在 L7 退出)。

LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?

LightReasoner 用较弱的 Amateur 模型和较强的 Expert 模型之间的 token 分布差异来自动找出高价值推理步骤,再只对这些步骤做对比式自蒸馏,使数学推理模型在接近或超过 SFT 的同时显著减少采样、训练时间和调参 token。

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

将无标签提示优化形式化为决斗老虎机(dueling bandit)问题,提出 Prompt Duel Optimizer (PDO),通过 Double Thompson Sampling 高效选择信息量最大的提示对进行比较,结合 top-performer 变异策略扩展搜索空间,在 BBH 和 MS MARCO 上以更少的 judge 调用次数找到更强提示。

LoRA on the Go: Instance-level Dynamic LoRA Selection and Merging

提出 LoGo(LoRA on the Go),一个免训练的框架,通过单次前向传播提取 LoRA 激活信号(范数或熵),在实例级别动态选择和合并最相关的 LoRA 适配器,无需标注数据或额外训练即可实现跨任务泛化。

MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

为桌游设计师做"虚拟玩家测试"——把官方规则书 + 5 类玩家人格送给一个微调过的 Qwen3-8B (MeepleLM),让它先沿 Mechanics→Dynamics→Aesthetics (MDA) 三步推理再生成 rating + review,最终在 207 个游戏上超越 GPT-5.1 / Gemini3-Pro 在社区分布对齐 (Wasserstein 0.22 vs GPT-5.1 0.95)、内容多样性 (Div 4.34 vs 4.26) 和 Opinion Recovery (69.77 vs 63.44) 三项,并在盲测 A/B 中拿到 70%+ 用户偏好。

MTA: Multi-Granular Trajectory Alignment for Large Language Model Distillation

MTA 将 LLM 蒸馏从“对齐某几个静态层”推进到“按网络深度对齐表示演化轨迹”:低层对齐词级信息,高层对齐短语级关系几何,并作为插件稳定提升 FDD、DistiLLM、DistiLLM-2 在指令跟随任务上的 ROUGE-L 表现。

No-Worse Context-Aware Decoding: Preventing Neutral Regression in Context-Conditioned Generation

提出 NWCAD,一种解码时适配器,通过两阶段门控机制在上下文无信息时精确回退到无上下文解码(防止中性退化),在上下文有帮助时利用上下文进行修正,兼顾"无害"与"有效"两个目标。

Not All Directions Matter: Towards Structured and Task-Aware Low-Rank Model Adaptation

本文提出 StructLoRA:先用信息瓶颈过滤掉低秩更新里与任务无关的方向,再用训练期图神经网络协调不同层的 LoRA 更新,在语言、视觉和多模态任务上稳定超过 LoRA / AdaLoRA / DoRA / Sensitivity-LoRA,同时保持推理零额外开销。

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

本文提出 PERA(Polynomial Expansion Rank Adaptation),通过在低秩因子的参数空间中引入结构化多项式展开(平方项和交叉项),将 LoRA 的线性适配空间扩展为多项式流形,在不增加秩或推理开销的前提下显著提升权重更新的表达能力,在常识推理和 NLU 任务上一致优于 LoRA/DoRA/HiRA 等方法。

ProActor: Timing-Aware Reinforcement Learning for Proactive Task Scheduling Agents

ProActor 把对话式任务调度从“等用户明确指令后反应”推进到“在合适时机主动触发动作”,通过自动 reference action 标注、proactiveness metrics、turn-level GRPO 和 ART-F 高效训练框架,让 4-bit Qwen2.5-14B-ProActor-Q4 在 ABCD+ 上取得最高 PRI 0.7293,并在保持动作一致性的同时显著提升 proactive timing。

Quantize What Counts: More for Keys, Less for Values

本文从线性代数角度证明 Transformer 中 Key 权重的谱范数和 Frobenius 范数系统性大于 Value 权重,据此提出 Key 优先的混合精度 KV 缓存量化策略(如 K4V2),在减少 25% 内存的同时保持 98.3% 的全精度准确率。

Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty

提出 E-GRM 框架,利用模型并行解码的收敛行为估计不确定性,仅在必要时触发 CoT 推理,并通过混合损失训练的判别式评分器精细评估推理路径质量,在多个奖励模型基准上实现 SOTA 同时降低 62% 推理延迟。

Rethinking Parameter Sharing for LLM Fine-Tuning with Multiple LoRAs

本文推翻了“多 LoRA 应共享 A 矩阵”的常见假设,证明 A 的相似性主要来自相同初始化而非共享知识,并提出共享 B 矩阵的 ALoRA / Fed-ALoRA,在多任务和联邦微调中兼顾性能、均衡性与通信效率。

Rethinking Table Pruning in TableQA: From Sequential Revisions to Gold Trajectory-Supervised Parallel Search

这篇论文提出 TabTrim,把表格剪枝从容易累积错误的单路径顺序修订改成“SQL 轨迹监督的剪枝器 + loss-aware verifier + 并行轨迹搜索”,在 WikiTQ、TabFact 和 TableBench 上把平均准确率提升到 73.5%,比最强基线高 3.2 个点。

RouteNLP: Closed-Loop LLM Routing with Conformal Cascading and Distillation Co-Optimization

RouteNLP 是一个闭环 LLM 路由与级联框架,用任务感知路由器、 conformal 校准级联和失败簇定向蒸馏共同优化模型组合,在六任务企业基准上以 0.971 质量比达到 0.159 成本比,并在 8 周客服试点中节省 58% 推理成本、保持 91% 响应可接受率。

SAMoRA: Semantic-Aware Mixture of LoRA Experts for Task-Adaptive Learning

SAMoRA 通过语义感知路由器和任务自适应缩放机制,解决了现有 MoE-LoRA 方法中路由不精确和权重融合缺乏灵活性的问题,在多任务基准上以最少可训练参数(0.15%)达到 SOTA。

Social Story Frames: Contextual Reasoning about Narrative Intent and Reception

这篇论文提出 SocialStoryFrames,用一个包含 10 个维度的读者反应 taxonomy 和两个蒸馏模型,把 Reddit 故事放回社区与对话上下文中推断其叙事意图、读者情感和价值判断,并在 6,140 条社交媒体故事上展示了比语义相似度更细的社区叙事实践分析。

SRA: Span Representation Alignment for Large Language Model Distillation

SRA 把跨分词器 LLM 蒸馏的基本对齐单元从易碎的 token 换成 tokenizer-agnostic 的文本 span,通过 LCS 字符偏移匹配、注意力加权 center-of-mass 表示、几何结构正则和共享词表 span logit 蒸馏,在多组 teacher-student 压缩实验中稳定超过 ULD、MinED、DSKD 和 MultiLevelOT。

SSSD: Simply-Scalable Speculative Decoding

提出 SSSD,一种无需训练的推测解码方法,结合轻量级 n-gram 匹配与硬件感知投机长度调整,在无需任何草稿模型训练或部署的前提下,实现最高 2.9× 的推理加速,并在语言/领域迁移和长上下文场景中展现出优于训练式方法的鲁棒性。

Stable On-Policy Distillation through Adaptive Target Reformulation

本文提出 Veto,一种目标层面的重构方法,通过在 logit 空间构建教师-学生的几何桥接分布来稳定 on-policy 知识蒸馏,单一参数 \(\beta\) 同时在 forward KL 中充当自适应梯度否决器(抑制低置信度 token 的有害梯度)和在 reverse KL 中充当果断性旋钮(平衡奖励驱动和输出多样性),在 GSM8K 上比 SFT 提升 9.2%。

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA 在 MoE-LoRA 架构中引入轻量级 Talking Module,允许低秩专家在路由前进行信息交换,解决传统 MoELoRA 中专家独立运行导致的路由不稳定和专家主导问题,在常识推理和 NLU 任务上以更少参数(0.2%)持续超越 LoRA 和 MoELoRA 变体。

Task-Stratified Knowledge Scaling Laws for Post-Training Quantized LLMs

本文建立了首个面向后训练量化(PTQ)的任务分层知识缩放定律,将 LLM 能力分为记忆/应用/推理三层,统一建模模型大小、位宽、组大小和校准集大小四个因素,在 293 种 PTQ 配置上验证,揭示推理对精度敏感、应用随规模提升、记忆对校准敏感的差异化规律。

TELL-TALE: Task Efficient LLMs with Task Aware Layer Elimination

TALE 用一个无需重训的贪心搜索过程,为每个下游任务直接删除“拖后腿”的 Transformer 层,在 5 个开源 LLM 和 9 个 benchmark 上同时提升任务准确率并减少推理成本。

The Pitfalls of KV Cache Compression

这篇论文指出 KV cache 压缩在多指令提示中会导致选择性遗忘和系统提示泄露,问题来自不同指令被不均匀驱逐以及关键 token 被错误删除,并提出白名单保留和 fair eviction 两种简单改造来显著降低泄露、稳定指令遵循。

TLoRA: Task-aware Low Rank Adaptation of Large Language Models

TLoRA 用训练样本激活协方差来初始化并冻结 LoRA 的 \(A\) 矩阵,再按模块重要性自适应分配 rank 和 scaling factor,使 LLM 在 NLU、常识推理、数学、代码生成和聊天任务上用约一半可训练参数达到或超过主流 LoRA 变体。

Training-Free Test-Time Contrastive Learning for Large Language Models

本文提出 TF-TTCL,一种无需梯度更新的测试时对比学习框架,通过"探索-反思-引导"循环让冻结的 LLM 在线自我改进——用多智能体角色扮演生成多样推理轨迹,从正负样本对比中蒸馏文本规则存入记忆库,推理时检索相关规则引导生成。

Two-Stage Regularization-Based Structured Pruning for LLMs

TRSP 用第一阶段正则学习每个 Transformer 层的重要性,再用第二阶段正则把待删层的输入输出拉近,让知识转移到保留层中,从而在无需重训练的情况下实现 LLM 层级结构化剪枝和实际推理加速。

UKP_Psycontrol at SemEval-2026 Task 2: Modeling Valence and Arousal Dynamics from Text

UKP_Psycontrol 在 SemEval-2026 Task 2 上取得双项第一,通过结合 LLM 提示、Ising 交互的 MaxEnt 模型和神经回归模型,发现 LLM 擅长捕捉静态情感信号而短期情感变化更多由近期数值轨迹而非文本语义解释。

VecCISC: Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection

VecCISC 在 CISC 的置信度加权自一致性之前加入“按答案分组的推理轨迹嵌入聚类”,只把每个语义簇的代表轨迹交给 critic 打分,从而在基本保持甚至略微提升准确率的同时显著减少 critic 调用和 token 成本。

When Reviews Disagree: Fine-Grained Contradiction Analysis in Scientific Peer Reviews

这篇论文把审稿意见分歧从句对级二分类推进到完整 review 上的证据抽取与强度评分,并用 IMPACT 多智能体教师蒸馏出单次前向即可部署的 TIDE 小模型。

Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics

本文把局部权重微调、LoRA 和 activation steering 统一成“控制信号诱导的动态权重更新”,用 preference-utility log-odds 与 activation manifold 解释强控制会提升目标偏好但损害生成效用,并据此提出 SPLIT 训练目标,在三类干预形式上更好地兼顾偏好和效用。

WISCA: A Lightweight Model Transition Method to Improve LLM Training via Weight Scaling

本文提出等价模型理论和 WISCA 权重缩放策略,通过在训练中动态调整 Transformer 注意力层的 \(W_q/W_k\)\(W_v/W_o\) 权重使其 L1 范数相等(保持模型输出不变),将优化引导至更平坦的损失最小值区域,在 GQA 架构上实现平均 5.6% 的零样本评估提升和 2.12% 的训练困惑度降低。