⚡ LLM 效率¶
🤖 AAAI2026 · 9 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (8) · 📷 CVPR2026 (4) · 🔬 ICLR2026 (19) · 🧠 NeurIPS2025 (35) · 📹 ICCV2025 (1) · 🧪 ICML2025 (13)
🔥 高频主题: LLM ×2
- Connectivity-Guided Sparsification of 2-FWL GNNs Preserving Full Expressivity
-
Co-Sparsify 提出一种基于连通性感知的稀疏化框架,通过将 3-节点交互限制在双连通分量内、2-节点交互限制在连通分量内,消除可证明冗余的计算,在保持完整 2-FWL 表达力的同时显著提升效率,在合成子结构计数任务和 ZINC、QM9 等基准上取得 SOTA。
- Harnessing the Unseen: The Hidden Influence of Intrinsic Knowledge in Long-Context Language Models
-
首次系统研究长上下文语言模型中参数知识(parametric knowledge)对生成的影响,发现其影响随上下文长度增长而增强,且现有方法提升外部检索能力会抑制参数召回能力,据此提出Hybrid Needle-in-a-Haystack测试来同时评估两种能力。
- How Many Experts Are Enough? Towards Optimal Semantic Specialization for Mixture-of-Experts
-
提出MASS框架,通过基于梯度的语义漂移检测自适应扩展MoE专家池,并结合Top-p置信度路由策略,在无需超参搜索的情况下自动发现最优专家数量,同时增强专家间的语义分化。
- InterMoE: Individual-Specific 3D Human Interaction Generation via Dynamic Temporal-Selective MoE
-
提出 InterMoE,通过 Dynamic Temporal-Selective MoE 架构解决文本驱动的双人 3D 交互运动生成中的个体特征保持和语义忠实度问题:Synergistic Router 融合语义和运动学特征引导路由,Dynamic Temporal Selection 让专家动态选择关键时间帧,在 InterHuman 上 FID 降低 9%、InterX 上降低 22%。
- Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction
-
提出Judge Q,在模型词表中引入可训练的soft token,训练其注意力模式对齐实际解码token的注意力模式,使其在prefill阶段能替代局部窗口查询来评估KV cache重要性,从而更好地保留全局信息,在LongBench上提升~1分,RULER上提升3+分。
- MoETTA: Test-Time Adaptation Under Mixed Distribution Shifts with MoE-LayerNorm
-
本文提出 MoETTA,一种将 LayerNorm 重参数化为多个结构解耦专家分支的测试时自适应框架,通过路由机制为不同域的样本选择不同的适应方向,解决了混合分布偏移下单一适应路径的局限性,并提出 potpourri/potpourri+ 两个更真实的评估基准,在所有设定下取得 SOTA。
- Resource Efficient Sleep Staging via Multi-Level Masking and Prompt Learning
-
提出 MASS (Mask-Aware Sleep Staging) 框架,通过多层级 masking 策略和层次化 prompt learning 机制,仅用 10% 的原始 EEG 信号即可实现可靠的睡眠分期,为资源受限的可穿戴睡眠监测系统提供方案。
- Scaling and Transferability of Annealing Strategies in Large Language Model Training
-
提出模型无关的预测框架,分解训练损失为前向效应项(学习率积分S)、退火动量项(Adam-style动量积分M)和模型尺寸项N,证明退火策略可从小模型/小batch迁移到大模型/大batch,预测误差MAPE<2%。
- The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models
-
通过 Patchscopes、注意力屏蔽和线性探针等机制可解释性工具,系统揭示了 LLM 类比推理的内部机制:模型能在中上层有效编码关系信息,但应用关系信息到新实体是比提取更大的瓶颈;成功的类比推理与故事间强结构对齐相关联,失败则反映弱化或错位的对齐。