跳转至

⚡ LLM 效率

🤖 AAAI2026 · 9 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (8) · 🔬 ICLR2026 (169) · 💬 ACL2026 (23) · 🧪 ICML2026 (48) · 🧠 NeurIPS2025 (34) · 📹 ICCV2025 (1)

Connectivity-Guided Sparsification of 2-FWL GNNs Preserving Full Expressivity

Co-Sparsify 提出一种基于连通性感知的稀疏化框架,通过将 3-节点交互限制在双连通分量内、2-节点交互限制在连通分量内,消除可证明冗余的计算,在保持完整 2-FWL 表达力的同时显著提升效率,在合成子结构计数任务和 ZINC、QM9 等基准上取得 SOTA。

Harnessing the Unseen: The Hidden Influence of Intrinsic Knowledge in Long-Context Language Models

首次系统研究长上下文语言模型中参数知识(parametric knowledge)对生成的影响,发现其影响随上下文长度增长而增强,且现有方法提升外部检索能力会抑制参数召回能力,据此提出Hybrid Needle-in-a-Haystack测试来同时评估两种能力。

HN-MVTS: HyperNetwork-based Multivariate Time Series Forecasting

提出 HN-MVTS,利用超网络(HyperNetwork)为每个通道生成特定的最后一层权重,在通道独立(CI)和通道依赖(CD)之间取得平衡,作为即插即用模块可提升 DLinear、PatchTST、TSMixer 等多种主干模型的预测精度,且不增加推理时间。

How Many Experts Are Enough? Towards Optimal Semantic Specialization for Mixture-of-Experts

提出MASS框架,通过基于梯度的语义漂移检测自适应扩展MoE专家池,并结合Top-p置信度路由策略,在无需超参搜索的情况下自动发现最优专家数量,同时增强专家间的语义分化。

InterMoE: Individual-Specific 3D Human Interaction Generation via Dynamic Temporal-Selective MoE

提出 InterMoE,通过 Dynamic Temporal-Selective MoE 架构解决文本驱动的双人 3D 交互运动生成中的个体特征保持和语义忠实度问题:Synergistic Router 融合语义和运动学特征引导路由,Dynamic Temporal Selection 让专家动态选择关键时间帧,在 InterHuman 上 FID 降低 9%、InterX 上降低 22%。

Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction

提出Judge Q,在模型词表中引入可训练的soft token,训练其注意力模式对齐实际解码token的注意力模式,使其在prefill阶段能替代局部窗口查询来评估KV cache重要性,从而更好地保留全局信息,在LongBench上提升~1分,RULER上提升3+分。

MoETTA: Test-Time Adaptation Under Mixed Distribution Shifts with MoE-LayerNorm

本文提出 MoETTA,一种将 LayerNorm 重参数化为多个结构解耦专家分支的测试时自适应框架,通过路由机制为不同域的样本选择不同的适应方向,解决了混合分布偏移下单一适应路径的局限性,并提出 potpourri/potpourri+ 两个更真实的评估基准,在所有设定下取得 SOTA。

Resource Efficient Sleep Staging via Multi-Level Masking and Prompt Learning

提出 MASS (Mask-Aware Sleep Staging) 框架,通过多层级 masking 策略和层次化 prompt learning 机制,仅用 10% 的原始 EEG 信号即可实现可靠的睡眠分期,为资源受限的可穿戴睡眠监测系统提供方案。

Scaling and Transferability of Annealing Strategies in Large Language Model Training

提出模型无关的预测框架,分解训练损失为前向效应项(学习率积分S)、退火动量项(Adam-style动量积分M)和模型尺寸项N,证明退火策略可从小模型/小batch迁移到大模型/大batch,预测误差MAPE<2%。