跳转至

💬 LLM / NLP

🧠 NeurIPS2025 · 53 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (36) · 📷 CVPR2026 (9) · 🔬 ICLR2026 (46) · 🤖 AAAI2026 (38) · 📹 ICCV2025 (8) · 🧪 ICML2025 (28)

🔥 高频主题: LLM ×15 · Agent ×4 · 少样本学习 ×2

AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play

提出 AceSearcher——一种协作式自我博弈框架,让单个 LLM 同时扮演问题分解者(将复杂查询拆解为子问题引导检索)和求解者(整合检索上下文生成答案),通过 SFT + 迭代 DPO 两阶段训练,仅用最终答案作为奖励信号,在 10 个数据集上平均 EM 提升 7.6%,32B 模型匹配 DeepSeek-V3(<5% 参数)。

Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs

提出 CAKE (Context-Aware Kernel Evolution),利用 LLM 作为遗传算法的交叉和变异算子,在贝叶斯优化过程中自适应地生成和进化 GP 核函数表达式,结合 BAKER 排序机制平衡模型拟合(BIC)与期望改进(EI),在超参数优化、控制器调参和光子芯片设计等任务上持续超越固定核和自适应核基线。

Are Language Models Efficient Reasoners? A Perspective from Logic Programming

从逻辑编程角度提出评估 LLM 推理效率(而非仅正确性)的框架——通过 verbalized logic program 将自然语言证明映射到逻辑程序证明,发现当前 LLM 在含无关公理的数学题中不仅准确率下降,且推理过程严重低效(超过一半的推理步骤是不必要的)。

AutoDiscovery: Open-ended Scientific Discovery via Bayesian Surprise

AutoDiscovery 提出用贝叶斯惊奇度(Bayesian Surprise)作为开放式科学发现的客观奖励信号——通过 LLM 采样估计先验/后验信念分布的 KL 散度,配合 MCTS+渐进展宽在假设空间中探索,在 21 个真实数据集上比贪心/束搜索产生 5-29% 更多的惊奇发现,人类评估确认贝叶斯惊奇度与专家"惊讶感"的一致性(0.67)远超 LLM 自身评估的"新颖性"和"有用性"。

C²Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

针对联邦持续学习中prompt通信时的类级知识不一致问题,提出C²Prompt方法,通过局部类分布补偿(LCDC)和类感知prompt聚合(CPA)两个机制显式增强跨客户端的类级知识一致性,在ImageNet-R上Avg准确率达87.20%,超出SOTA Powder 2.51%。

CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers

CAT 将标准自注意力中的 \(N \times N\) 注意力矩阵替换为一个由 \(N\) 维向量生成的循环矩阵(circulant matrix),利用 FFT 实现 \(O(N \log N)\) 复杂度的注意力计算,在严格保持 softmax 行归一化结构的前提下,在 ImageNet-1k(avg pool 下 CLIP-L 准确率 0.694 vs 标准注意力 0.646)和 WikiText-103 masked LM(PPL 8.32 vs 9.82)上匹配或超越标准注意力。

Characterizing the Expressivity of Fixed-Precision Transformer Language Models

精确刻画了固定精度、严格未来掩码、软注意力、无位置编码的 Transformer 的表达能力——恰好等价于仅含过去算子的线性时态逻辑 LTL[P],并将其与偏序确定有限自动机 (PODFA)、\(\mathcal{R}\)-trivial 幺半群统一起来。

Composing Linear Layers from Irreducibles

利用Clifford代数,将线性层表示为二向量(bivector)的组合——即旋量(rotor)的三明治乘积——仅需 \(O(\log^2 d)\) 参数即可替代 \(d \times d\) 密集矩阵,应用于LLM注意力层的Q/K/V投影时性能接近原始模型和强基线。

Cultural Alien Sampler: Open-ended Art Generation Balancing Originality and Coherence

提出Cultural Alien Sampler (CAS)——用两个GPT-2模型分别建模"概念一致性"和"文化典型性",通过选择高一致性但低文化典型性的概念组合来生成原创且和谐的艺术创意,在人类评估中接近艺术专业学生水平并远超GPT-4o。

Detecting High-Stakes Interactions with Activation Probes

用线性激活探针(在 LLM 内部表示上训练的轻量分类器)检测用户的"高风险交互",在合成数据上训练后跨 6 个真实数据集 AUROC 达 0.88-0.92,匹敌 8-12B 微调 LLM但计算成本低 6 个数量级,级联架构(探针初筛+LLM 精判)进一步超越单独使用任一方法。

Do Language Models Use Their Depth Efficiently?

通过因果干预、残差流分析和跨模型线性映射,证明当前 LLM 后半部分层不参与组合式计算,仅迭代细化输出概率分布,深层模型只是把浅层模型的计算"展延"到更多层。

Don't Be Lazy: CompleteP Enables Compute-Efficient Deep Transformers

CompleteP 参数化(α=1)是唯一同时实现深度方向超参转移和完全特征学习的方案,在深模型上相比 μP 节省 12-34% FLOPs。

EnCompass: Enhancing Agent Programming with Search Over Program Execution Paths

提出 Probabilistic Angelic Nondeterminism (PAN) 编程模型及 EnCompass Python 框架,将 agent 的核心工作流逻辑与推理时搜索策略解耦,程序员只需在 LLM 调用处加 branchpoint() 标记,即可用几行参数切换 best-of-N、beam search、tree search 等策略,代码修改量减少 3-6x。

EvoRefuse: 用进化提示优化评估和缓解LLM过度拒绝

提出EvoRefuse框架,通过进化搜索最大化ELBO来自动生成多样的伪恶意指令,构建了更具挑战性的过度拒绝评估基准(EvoRefuse-Test)和有效的对齐缓解数据集(EvoRefuse-Align)。

GeoCAD: Local Geometry-Controllable CAD Generation with Large Language Models

提出 GeoCAD,首个实现局部几何可控 CAD 生成的方法,通过互补标注策略为局部零件生成几何指令,并微调 LLM 实现根据用户文本指令精确修改 CAD 模型的局部部分。

Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales

研究矩阵预条件优化器(Shampoo/SOAP/Muon)的超参数随模型宽度和深度的缩放规则(基于 μP),发现正确的超参缩放是实现一致加速的关键:使用 μP + 1/width weight decay,三者在 190M 到 1.4B 参数的 Llama 模型上一致实现约 1.4× 加速。

In-Context Learning of Linear Dynamical Systems with Transformers: Approximation Bounds and Depth-Separation

分析了线性 Transformer 在噪声线性动力系统上的 ICL 近似能力:\(O(\log T)\) 深度可达到 \(O(\log T / T)\) 测试误差(接近最小二乘估计器),而单层线性 Transformer 存在不可消除的下界——揭示了非 IID 数据下的深度分离现象。

Large Language Models Miss the Multi-Agent Mark

Position paper 通过调研 1400+ 篇论文,系统论证当前 MAS LLMs 在四个维度偏离传统 MAS 基础理论——LLM 缺乏原生社会行为、环境设计以 LLM 为中心、缺少异步协调和标准通信协议、涌现行为缺乏量化,指出该领域有忽视 40 年 MAS 成果而重新发明轮子的风险。

Linear Transformers Implicitly Discover Unified Numerical Algorithms

训练线性 Transformer 执行矩阵块补全任务后,通过权重代数分析发现模型在三种完全不同的计算约束(集中式、分布式、计算受限)下隐式收敛到同一个双行迭代更新规则 EAGLE,该规则具有二阶收敛性且依赖条件数仅为对数级别。

MonarchAttention: Zero-Shot Conversion to Fast, Hardware-Aware Structured Attention

提出 MonarchAttention,利用 Monarch 矩阵的结构化特性,通过 softmax 变分形式的交替优化,实现 \(\Theta(N\sqrt{N}d)\) 复杂度的注意力近似,无需额外训练即可零样本替换预训练 Transformer 的注意力层,同时在 GPU 上相比 FlashAttention-2 实现 1.4×–8.2× 的加速。

MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery

将细粒度科学假设生成形式化为组合优化问题,提出层次启发式搜索(HHS)——利用 LLM 的成对比较作为梯度信号在假设空间中导航,层次化抽象平滑奖励景观减少局部最优陷阱,在 2024 年后化学论文 51 篇的专家标注 benchmark 上 Soft Recall 从 19.99% 提升到 40.35%。

msf-CNN: Patch-based Multi-Stage Fusion with Convolutional Neural Networks for TinyML

提出 msf-CNN,一种基于有向无环图(DAG)最短路径算法的多阶段 patch-based 融合优化技术,通过高效搜索 CNN 的最优融合配置,在各种微控制器(ARM Cortex-M、RISC-V、ESP32)上实现比现有方法(MCUNetV2、StreamNet)减少 50%–87% 的峰值 RAM 使用,同时保持可控的计算开销。

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

Nemotron-Flash 通过系统优化深宽比、进化搜索混合算子组合(DeltaNet+Mamba2+Attention)以及权重归一化训练,构建延迟最优的小语言模型家族,相比 Qwen3-1.7B/0.6B 分别实现 1.3×/1.9× 延迟下降与 +5.5% 平均准确率提升。

On the Role of Hidden States of Modern Hopfield Network in Transformer

本文突破现代 Hopfield 网络(MHN)与 Transformer 对应关系的绝热近似限制,发现保留 MHN 的隐状态动力学会在自注意力层中引入跨层注意力分数传播机制(Modern Hopfield Attention, MHA),不增加训练参数即可系统性改善 ViT 和 GPT-2 的性能,并从理论和实验上证明 MHA 有效缓解了深层 Transformer 的 rank collapse 问题。

Opinion Maximization in Social Networks by Modifying Internal Opinions

本文研究社交网络中通过修改 k 个关键节点的内部意见来最大化整体意见的优化问题,提出了两种基于采样的近似算法(随机游走和森林采样)以及一种基于异步更新的精确算法 MIS,后者在理论上保证收敛到最优解,并在数千万节点的真实网络上展示了卓越的效率与精度。

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL

提出PNLC方法,通过训练轻量级目标条件价值函数作为"自然语言评论家",在推理步骤层面引导LLM智能体进行多轮规划和自我精化,无需直接微调或推理时搜索,在Web导航、社交推理、劝服等复杂交互任务上显著超越现有方法且推理速度快8-10倍。

PluralisticBehaviorSuite: Stress-Testing Multi-Turn Adherence to Custom Behavioral Policies

提出 PBSuite,一个包含 300 个行业定制行为策略和动态多轮对抗评估框架的评测套件,揭示了主流 LLM 在单轮设置下合规率高(违规 <4%),但在多轮对抗交互中合规性急剧下降(违规高达 84%)。

Polar Sparsity: High Throughput Batched LLM Inferencing with Scalable Contextual Sparsity

揭示了 LLM 推理中稀疏性的"极性转移"现象——MLP 层稀疏性随 batch 增大而消失,而 attention head 稀疏性保持稳定且与 batch 无关,据此设计了 Selective Head Attention 及对应 GPU kernel,在大 batch 推理中实现高达 2.2x 的端到端加速。

Post Hoc Regression Refinement via Pairwise Rankings

提出 RankRefine,一种模型无关的后处理回归改进方法,通过将基础回归器的预测与基于成对排序的估计进行逆方差加权融合,在无需重训练的情况下显著降低预测误差,仅需 20 次成对比较和通用 LLM 即可实现分子性质预测中高达 10% 的 MAE 相对减少。

PRESTO: Preimage-Informed Instruction Optimization for Prompting Black-Box LLMs

提出 PRESTO 框架,利用白盒 LLM 中 soft prompt 到 instruction 的 many-to-one 映射关系(preimage 结构),通过 score sharing、preimage-based initialization 和 score consistency regularization 三大组件,在相同查询预算下等效获得 14 倍的标注数据量,显著提升黑盒 LLM 的指令优化效率。

Q♯: Provably Optimal Distributional RL for LLM Post-Training

提出 Q♯,一种基于分布式 RL 的值函数方法用于 KL 正则化 LLM 后训练,通过学习参考策略下的累积奖励分布来计算最优软 Q 函数引导生成,在数学推理任务上实现更高准确率和更低 KL 散度,并证明了方差相关的 PAC 收敛界。

Reparameterized LLM Training via Orthogonal Equivalence Transformation

提出 POET 训练框架,通过将权重矩阵重参数化为"两个可学习正交矩阵 × 固定随机权重"的形式来保持谱性质不变,实现更稳定的训练和更好的泛化,且比 AdamW 更节省参数。

Scaling Up Active Testing to Large Language Models

通过三项关键简化——用 in-context learning 构建固定代理模型、使用小代理模型评估大目标模型、无需目标模型预测进行数据采集——将 active testing 扩展到 LLM,风险估计误差比随机采样降低 25%-80%。

SolverLLM: 通过LLM引导的搜索利用测试时缩放求解优化问题

提出SolverLLM,一个无需训练的框架,将优化问题的数学建模视为搜索问题,通过改进的MCTS在六元素表述空间中探索最优formulation,引入动态扩展、提示反向传播和不确定性反向传播,在6个基准上以无训练方式超越prompt方法和微调方法。

Solving Inequality Proofs with Large Language Models

提出 IneqMath(首个大规模奥林匹克级不等式 benchmark),将不等式证明定义为两个可自动验证的子任务(界估计与关系预测),并开发五模块 LLM-as-Judge 框架,发现即便 o1 在逐步推理审查下整体准确率也不到 10%。

SPACE: Noise Contrastive Estimation Stabilizes Self-Play Fine-Tuning for Large Language Models

提出 Space(Self-PlAy via Noise Contrastive Estimation),将噪声对比估计引入自对弈微调,通过独立优化真实和合成样本的绝对奖励值(而非相对差距),从根本上解决了 SPIN 等方法的不稳定收敛问题,并提供可证明的稳定收敛保证。

Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM Fine-Tuning

提出 Sparse MeZO(S-MeZO),通过观察到零阶梯度噪声对大权重影响更严重,选择性地仅对小权重进行零阶优化扰动和更新,在不增加内存开销的前提下实现了显著的性能提升(RTE 上 +9%)和收敛加速(3.5x)。

Spectral Conditioning of Attention Improves Transformer Performance

理论分析了 Transformer 注意力层 Jacobian 的条件数受 Query/Key/Value 矩阵条件数控制,提出谱调节注意力(Spectral Conditioned Attention),通过向 Q/K/V 矩阵添加固定校正项降低条件数,作为即插即用模块在图像分类、目标检测、NLP 等多任务上一致提升性能。

SubSpec: Speculate Deep and Accurate — Lossless and Training-Free Acceleration for Offloaded LLMs

提出 SubSpec,一种即插即用的无损、无训练参数卸载 LLM 加速方法,核心思想是从卸载的目标模型本身构建高对齐度的量化替代草稿模型,并通过共享 GPU 驻留层和 KV-Cache 最大化对齐度,在 8GB 显存限制下实现 Qwen2.5 7B 的 9.1 倍加速、24GB 显存下 Qwen2.5 32B 的 12.5 倍加速。

Strassen Attention, Split VC Dimension and Compositionality in Transformers

提出 Splitting VC 维度理论工具证明了单层 softmax Transformer(即使无限精度)在组合推理任务上的根本限制,并设计了具有亚立方时间复杂度的 Strassen 注意力机制来突破这些限制。

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Model

StreamBridge提出一个简单通用的框架,通过记忆缓冲区+轮次衰减压缩策略实现多轮流式交互,通过解耦的轻量激活模型实现主动响应,配合专门构建的Stream-IT数据集,成功将离线Video-LLM(如Qwen2-VL、LLaVA-OV)转化为流式助手,在OVO-Bench和Streaming-Bench上超越GPT-4o和Gemini 1.5 Pro。

SYMPHONY: Synergistic Multi-agent Planning with Heterogeneous Language Model Assemblies

提出 SYMPHONY,一个基于 MCTS 的多智能体规划框架,通过异构 LLM 池的多样性驱动搜索、UCB 自适应调度、熵调制置信度评估和池级记忆共享,显著提升了 LLM 规划的多样性和效率。

Synergy over Discrepancy: A Partition-Based Approach to Multi-Domain LLM Fine-Tuning

提出基于分区的多阶段微调框架,通过策略性地将多个域划分为子集(阶段),在最大化域间协同的同时最小化负迁移,并推导了新的泛化界来理论支撑该分区策略。

System Prompt Optimization with Meta-Learning

提出双层系统提示优化问题并设计 MetaSPO 元学习框架,通过外循环优化跨任务泛化的系统提示、内循环优化任务特定的用户提示,使优化后的系统提示在 14 个未见任务上显著超越基线。

Systematizing LLM Persona Design: A Four-Quadrant Technical Taxonomy for AI Companions

提出 LLM persona 设计的四象限技术分类框架,沿"虚拟 vs 具身"和"情感陪伴 vs 功能增强"两轴,系统化分析了从虚拟伴侣、游戏 NPC 到护理机器人等不同场景下的技术栈、核心挑战和伦理风险。

The Rise of Parameter Specialization for Knowledge Storage in Large Language Models

系统分析 20 个开源 LLM,发现更强的模型在 MLP 参数向量中展现出更高的知识特化程度(Parameter Specialization),即相似知识倾向于集中编码到少数参数向量中,并通过因果实验验证该特化程度与模型知识任务性能之间存在因果关系。

Triplets Better Than Pairs: Towards Stable and Effective Self-Play Fine-Tuning for LLMs

提出 T-SPIN(三元组自博弈微调),在 SPIN 基础上引入"历史优势"(proto-synthetic 响应作为锚点)和熵约束实现无参考策略训练,解决了 SPIN 迭代中的优化不稳定和训练-生成不对齐两大问题,仅用 25% 标注数据即可媲美全量 SFT。

Unifying Attention Heads and Task Vectors via Hidden State Geometry in In-Context Learning

本文提出基于隐状态几何(可分离性+对齐性)的统一框架,将ICL的两大解释路线——注意力头(PTH/IH)和任务向量——联系起来,揭示ICL在分类任务中的两阶段机制:早期层通过PTH建立可分离性,后期层通过IH改善与标签unembedding方向的对齐性。

Valid Inference with Imperfect Synthetic Data

提出基于广义矩估计(GMM)的无超参数框架,将 LLM 生成的不完美合成数据与真实数据结合进行统计有效推断,当合成数据残差与真实数据残差相关时可显著降低估计方差,且在最坏情况下(合成数据完全无信息)也不会损害估计质量。

Weak-to-Strong Generalization under Distribution Shifts

本文发现朴素的弱到强泛化在分布偏移下会失败(强模型甚至不如弱监督者),并提出 RAVEN 框架,通过动态学习多个弱模型的最优组合权重来实现鲁棒的弱到强泛化,在 OOD 任务上超越 baseline 超过 30%。

What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains

理论证明两层单头 Transformer 足以表示任意 \(k\) 阶马尔可夫过程的条件 \(k\)-gram 模型(即 \(k\) 阶 induction head),给出了 Transformer 深度与马尔可夫阶数关系的最紧已知刻画,关键在于利用 MLP 中的 ReLU 和 LayerNorm 非线性来补偿减少的层数。

Wider or Deeper: Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search

AB-MCTS 提出了一种自适应分支的蒙特卡洛树搜索框架,在搜索树的每个节点上动态决定是"变宽"(生成新候选答案)还是"变深"(利用反馈优化现有答案),通过贝叶斯后验更新平衡探索与利用,在编程和工程任务上超越了重复采样和标准 MCTS。

Writing in Symbiosis: Mapping Human Creative Agency in the AI Era

通过对 5 万+文档的纵向语料分析,提出"双轨演化"假说——LLM 时代人类写作在主题上趋同、风格上结构性分化,并发现三种作者适应策略原型(Adopters/Resistors/Pragmatists)。