跳转至

⚡ LLM 效率

🧪 ICML2025 · 13 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (8) · 📷 CVPR2026 (4) · 🔬 ICLR2026 (19) · 🤖 AAAI2026 (9) · 🧠 NeurIPS2025 (35) · 📹 ICCV2025 (1)

🔥 高频主题: LLM ×2

Autonomy-of-Experts Models (AoE)

AoE 提出让 MoE 中的 expert 基于自身内部激活范数自主决定是否处理输入(而非由外部 router 决定),通过低秩权重分解降低预计算开销,在 700M-4B 参数语言模型预训练中超越传统 MoE。

Curse of High Dimensionality Issue in Transformer for Long-context Modeling

本文从监督学习视角重新审视序列建模中的注意力冗余问题,提出了 Dynamic Group Attention (DGA) 机制,通过将不重要的 token 动态分组聚合来减少注意力计算中的冗余,在保持竞争性能的同时大幅降低推理延迟(LLaMA2-7B 在 16K 上下文下推理速度提升 2.42 倍)。

DSSD: Efficient Edge-Device LLM Deployment and Collaborative Inference via Distributed Split Speculative Decoding

提出分布式拆分推测解码(DSSD)框架,将推测解码的验证阶段拆分到设备端和边缘端,用一次下行传输(LLM的单个词表分布)替代多次上行传输(SLM的\(\gamma\)个词表分布),在保持推理质量不变的前提下大幅降低通信延迟。

EasyInv: Toward Fast and Better DDIM Inversion

提出 EasyInv,通过在反演过程中周期性地将当前 latent 状态与前一步 latent 状态加权聚合(类卡尔曼滤波),增强初始 latent 的影响力、抑制噪声累积误差,在不需要迭代优化的前提下达到与迭代方法相当甚至更好的反演质量,同时推理速度提升约 3 倍。

Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling

本文提出 Grouped Cross-Attention (GCA) 机制,将 chunk 级别的因果检索(causal retrieval)集成到注意力中实现端到端可学习的检索器,构建的 Differentiable Retrieval-based Transformer (DRT) 在 16M 上下文的 passkey 检索测试中达到近乎完美的准确率,实现了训练长度 1000 倍的长度泛化。

Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization

用离散信号处理 (DSP) 理论揭示 RoPE 隐式实现了非均匀 DFT 以编码周期性注意力,但线性层导致的频谱泄漏、激活函数导致的频谱畸变以及训练长度截断导致的欠训练频率分量会破坏这一周期性,据此提出 FoPE——将每个维度建模为傅里叶级数(而非单一频率)并裁剪破坏性低频分量为零频,在多个模型规模和任务上显著改善长度泛化。

Ladder Residual: Parallelism-Aware Architecture for Accelerating Large Model Inference

本文提出 Ladder Residual,一种简单的架构修改——将每个模块的输入从上一层的输出改为上上层的输出(错位残差),使模块计算与 AllReduce 通信解耦,从而实现通信与计算的重叠,在 70B 模型 8 卡 TP 推理中实现 29% 的端到端加速,且模型性能与标准 Transformer 持平。

Long-Short Alignment for Effective Long-Context Modeling in LLMs

本文从模型输出分布的角度提出长度泛化的新视角——长短对齐 (Long-Short Alignment),指出不同长度输入的输出分布一致性是长度泛化的关键因素,提出 Long-Short Misalignment 度量并将其作为训练正则项,在合成任务和自然语言任务上均显著提升长上下文建模能力。

Mixture of Lookup Experts

提出 MoLE(Mixture of Lookup Experts),将 MoE 中的路由专家输入从中间特征改为 embedding token,使专家可在推理前被重参数化为查找表(LUT)并卸载到存储设备,从而在保持 MoE 级别性能的同时实现与 dense 模型相当的推理速度和显存占用。

MoH: Multi-Head Attention as Mixture-of-Head Attention

本文将多头注意力(MHA)重新表述为求和形式,借鉴 MoE 思想提出 Mixture-of-Head Attention(MoH),通过路由器为每个 token 动态选择最相关的注意力头子集,仅激活 50%~90% 的头即可匹配甚至超越标准 MHA 性能,并证明预训练模型(如 LLaMA3-8B)可通过 continue-tuning 转换为 MoH 模型。

NExtLong: Toward Effective Long-Context Training without Long Documents

本文提出 NExtLong 框架,通过将文档分割为 meta-chunk 并在 chunk 之间插入从预训练语料检索的硬负例干扰文本来合成长上下文训练数据,迫使模型区分长距离依赖信息和干扰内容,在 HELMET 和 RULER 基准上比此前最佳的长上下文合成方法 Quest 平均提升 7.33%。

Retraining-Free Merging of Sparse MoE via Hierarchical Clustering

提出 HC-SMoE,一种基于专家输出层次聚类的无需重训练专家合并框架,通过输出相似度度量和层次聚类实现 SMoE 模型的高效压缩,在 Qwen 和 Mixtral 上分别实现 25%-50% 的专家参数缩减并保持优越性能。

SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

SepLLM 发现分隔符 token(标点等)在注意力中占据主导地位,提出将文本段信息压缩到分隔符 token 中,通过数据依赖的稀疏注意力掩码仅保留 Initial + Separator + Neighboring tokens 的 KV cache,实现 50%+ 的 KV cache 压缩且性能几乎无损。