⚡ LLM 效率¶

💬 ACL2026 · 8 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (4) · 🔬 ICLR2026 (19) · 🤖 AAAI2026 (9) · 🧠 NeurIPS2025 (35) · 📹 ICCV2025 (1) · 🧪 ICML2025 (13)

🔥 高频主题： 对齐/RLHF ×2

BOSCH: Black-Box Binary Optimization for Short-Context Attention-Head Selection in LLMs: 提出 BOSCH，一种免训练的注意力头级别 SWA 混合方法，将 SWA 头选择建模为大邻域搜索问题并分解为三阶段优化（层重要性探测→自适应比例分配→分组头选择），在 4 个模型 4 种比例设置下系统性超越层级启发式和 6 种静态头级别方法。
HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns: 本文提出 HumanLLM 框架，将 244 个心理学模式（100 个人格特质 + 144 个社会认知模式）建模为相互作用的因果力而非孤立标签，构建了 11,359 个包含 2-5 个模式交互的场景和多轮对话数据集，通过双层 checklist 评估实现与人类判断的高对齐（\(r=0.90\)），HumanLLM-8B 在多模式动态上以 4 倍小的参数量超越 Qwen3-32B。
Multi-Drafter Speculative Decoding with Alignment Feedback: 本文提出 MetaSD，一个将多个异构草稿器整合到推测解码中的统一框架，将草稿器选择建模为多臂赌博机问题，通过块散度（Block Divergence）奖励信号动态选择与目标 LLM 最对齐的草稿器，在黑盒和白盒配置下一致优于单草稿器方法。
Native Hybrid Attention for Efficient Sequence Modeling: 本文提出 Native Hybrid Attention (NHA)，将线性 RNN 的长期记忆槽与滑动窗口的短期精确 token 拼接后通过单次 softmax 注意力统一处理，实现层内和层间混合的原生统一——无需额外融合参数即可动态分配长短期注意力权重，在 recall 密集和常识推理任务上超越 Transformer 和其他混合基线。
Planning Beyond Text: Graph-based Reasoning for Complex Narrative Generation: 本文提出 PLOTTER 框架，首次将叙事规划从文本表示转移到图结构表示（事件图+角色图），通过多 agent 的 Evaluate-Plan-Revise 迭代循环在图拓扑上诊断和修复叙事缺陷，在叙事性、角色塑造、戏剧张力等维度上显著优于现有方法。
SciCoQA: Quality Assurance for Scientific Paper–Code Alignment: 本文提出 SciCoQA，首个用于检测科学论文与其代码实现之间差异的基准数据集，包含 635 个差异实例（92 个真实 + 543 个合成），评测 22 个 LLM 后发现最强模型仅能检测 46.7% 的真实差异，揭示了自动化科学质量保证中的关键能力缺口。
SpecBound: Adaptive Bounded Self-Speculation with Layer-wise Confidence Calibration: 提出 SpecBound 自草稿推测解码框架，通过逐层温度退火抑制浅层虚假高置信度预测，并设计有界推测算法自适应控制草稿的深度和宽度，在保持输出无损的同时实现最高 2.33× 的推理加速。
Speculative Verification: Exploiting Information Gain to Refine Speculative Decoding: 提出推测验证（Speculative Verification, SV），通过引入与草稿模型同等规模的伴随模型（companion model），利用草稿-伴随分布的相似性预测推测准确率，动态调整验证长度以最大化有效吞吐量，在大批量推理中实现相对标准推测解码平均1.4×、最高1.9×的加速。