跳转至

💬 LLM 其他

🔬 ICLR2026 · 55 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (3) · 💬 ACL2026 (61) · 🧪 ICML2026 (39) · 🤖 AAAI2026 (29) · 🧠 NeurIPS2025 (54) · 📹 ICCV2025 (6)

🔥 高频主题: LLM ×16 · 扩散模型 ×6 · 推理 ×3 · Agent ×2 · 布局/合成 ×2

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

本文提出 InternGeometry——首个达到奖牌选手水平的几何 LLM agent:它把符号引擎当工具,用「思考—构造/命题—验证—反思」的超长程交互(单题 200+ 步)攻克辅助线构造缺乏启发式的难题,再配合 Complexity-Boosting RL(CBRL)逐级提升合成题难度,仅用 13K 训练样本(AlphaGeometry 2 的 0.004%)就在 IMO 2000–2024 的 50 道几何题上解出 44 道,超过金牌选手平均分。

Attend to the Active: Structure-Aware Dynamic Attention in LLMs for Compositional Instruction Following

ATA 在一次前向传播内、不更新任何参数,先识别组合指令的结构类型(链式/分支/并行)并拆出互斥子任务,再在生成的每一步动态找出当前"激活"的子任务、用注意力偏置屏蔽掉其余"休眠"子任务,从而消除子任务之间的干扰、显著提升 LLM 对复杂组合指令的遵循忠实度。

Best-of-∞: Asymptotic Performance of Test-Time LLM Ensembling

这篇论文把多数投票(majority voting)看作从模型答案分布里反复采样,研究采样数 \(N\to\infty\) 时的极限准确率(称为 best-of-∞),并用贝叶斯因子做自适应停止来在有限预算下逼近这个极限;进一步把"多个 LLM 加权集成的最优权重"形式化成一个混合整数线性规划(MILP),证明集成能稳定超过任何单一模型。

Beyond Magic Words: Sharpness-Aware Prompt Evolving for Robust Large Language Models with TARE

把图像/权重空间里的"锐度感知最小化(SAM)"搬到离散的文本提示空间,提出 TARE/ATARE:用"内层找最坏 paraphrase、外层选邻域最稳"的无梯度进化框架,让优化出来的 prompt 在同义改写下不掉点,在 4 个推理基准、5 种被测模型上稳定超过 TextGrad / Revolve。

Beyond the Known: An Unknown-Aware Large Language Model for Open-Set Text Classification

本文提出 UnLLM,把开放集文本分类从「闭集训练 + 事后 OOD 检测」改写成「给 LLM 喂部分标签子集、把候选外的样本显式标成 unknown」的子集条件分类任务,再用「表示—概率—推理」三级优化把对未知类的建模做实,在 6 个基准上 K-F1 / N-F1 双双稳定超过 SOTA。

BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning

提出 BOTS——一个基于贝叶斯推断的在线任务选择统一框架,在 LLM 强化微调中通过融合显式证据(直接评估的历史通过率)和隐式证据(利用参考模型插值推断的未评估任务难度),配合 Thompson 采样实现探索-利用平衡,在数学/代码/逻辑任务上以仅 0.2% 的额外开销带来最高 50% 的训练加速。

Breaking the Correlation Plateau: On the Optimization and Capacity Limits of Attention-Based Regressors

本文首次从理论上分析了注意力回归模型在联合 MSE+PCC 训练时出现的"PCC平台期"现象——发现其根源在于 MSE 优化与 PCC 梯度之间的冲突以及 softmax 凸聚合的表达力上界——并提出 ECA(Extrapolative Correlation Attention)框架,通过缩放残差聚合、色散感知温度 softmax 和色散归一化 PCC 损失三个组件突破该限制。

Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models

通过在持续预训练阶段用"主动索引(Active Indexing)"把事实双向绑定到文档标识符,让 LLM 无需任何外部检索就能在闭卷状态下边回答边给出可验证的引用,引用精度最高提升 30.2%。

Compositional-ARC: Assessing Systematic Generalization in Abstract Spatial Reasoning

提出 Compositional-ARC 数据集评估模型在抽象空间推理中的系统性泛化能力——从已知基础几何变换(如平移、旋转)泛化到未见过的变换组合。一个仅 5.7M 参数的 MLC 训练的 encoder-decoder 模型在系统性任务上达到 78.26%,与 ARC Prize 2024 冠军的 8B 模型+TTT 持平,远超 GPT-4o、o3-mini 等(<3%)。

Constrained Decoding of Diffusion LLMs with Context-Free Grammars

本文提出第一个能在扩散语言模型(DLM)上强制满足上下文无关文法(CFG)的约束解码方法:把"任意顺序生成的带洞文本能否补全成合法串"抽象为一个加性填充判定问题,再把它归约为"目标 CFG 与所有可能补全构成的正则语言之交集是否为空",并用一套高度优化的空性判定算法把理论上立方级的开销压到实用范围,在 C++ 代码、JSON、SMILES 上把语法正确率提到近 100%,同时还小幅提升了功能正确率。

COSMOS: A Hybrid Adaptive Optimizer for Efficient Training of Large Language Models

COSMOS 把梯度矩阵按特征子空间拆成"主方向 + 残差"两部分,对信息量最大的低维主子空间用 SOAP 式二阶预条件、对剩下的高维残差用计算便宜的 MUON,从而以接近 MUON 的内存(约为 SOAP 的 1/5)拿到不输甚至略胜 SOAP 的预训练收敛效果。

d²Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching

提出 d²Cache,一种面向 Diffusion-based LLM(dLLM)的无训练近似 KV 缓存框架,通过确定性先验引导的 masked token 选择 + 注意力感知的非 mask token 选择两阶段策略,实现 4.1× 推理加速同时提升生成质量。

Differential Fine-Tuning Large Language Models Towards Better Diverse Reasoning Abilities

本文发现不同推理能力(数学/代码/逻辑/常识)在 LLM 内部对应着各自"专属"的关键参数,提出 DiFT(Differential SFT):先用 DSR 分数定位每个任务的关键参数行,再在混合微调时只更新这些关键参数的并集、在持续微调时只更新当前任务独有的关键参数,从而在多推理任务联合训练中既保住各自收益又避免互相破坏。

Discovering Novel LLM Experts via Task-Capability Coevolution

提出 AC/DC 框架,让一群 LLM(通过进化式模型合并演化)和一批合成任务(通过"科学家 LLM"生成)相互协同进化,在单次运行中自动发现一整套互补的小专家模型,其集体覆盖度(Coverage)能超过同族更大的模型乃至逼近/超过 GPT-4o,而总参数量却小得多。

Don't Settle Too Early: Self-Reflective Remasking for Diffusion Language Models

针对掩码扩散语言模型「token 一旦解出就钉死、错了也改不了」的硬伤,本文提出 RemeDi:让模型在生成每一步同时预测 token 分布和逐 token 置信度,按置信度决定哪些位置解掩码、哪些已生成 token 要被打回掩码重采样,并配上「Remask SFT + Remask RL」两阶段训练,在开源扩散语言模型里拿到 SOTA(GSM8K 89.1%、HumanEval 73.2%)。

DreamOn: Diffusion Language Models For Code Infilling Beyond Fixed-size Canvas

DreamOn 通过引入 [expand] 和 [delete] 两个特殊状态解决了扩散语言模型(DLM)的固定长度生成限制,无需架构修改即可实现变长代码填充,在 HumanEval-Infilling 上比扩散基线平均提升 26.4%,达到与 SOTA 自回归模型持平的水平。

Efficient Multi-objective Prompt Optimization via Pure-exploration Bandits

这篇论文把“提示词选择”从单指标优化扩展到多目标固定预算优化,基于纯探索 bandit 提出 GENSEC 与 GENPSI 两类算法,在摘要任务中显著优于均匀采样基线,并给出线性结构下的误差上界。

Eliciting Numerical Predictive Distributions of LLMs Without Auto-Regression

通过在 LLM 最后几层隐状态上训练轻量级"幅度分解探针",无需自回归采样即可直接恢复 LLM 数值预测分布的均值、中位数及分位数,推理效率相当于 20-25 次采样的效果,且置信区间校准良好。

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

提出 ELLMob 框架,基于认知心理学的模糊痕迹理论(FTT),通过提取并迭代对齐"习惯 gist"和"事件 gist"来调和用户日常模式与社会事件约束之间的竞争,实现事件驱动的可解释轨迹生成。

Enhancing Persona Following at Decoding Time via Dynamic Importance-Guided Token Estimation for Role-Playing Agents

提出 Persona Dynamic Decoding (PDD) 框架,通过条件互信息动态估计人格属性的场景依赖重要性,并将重要性分数整合到多目标奖励引导解码中,实现无需微调的推理时人格跟随。

Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

提出基于上下文感知的成对比较框架来评估文本创造力,构建了包含 100K+ 人类级别和 1M+ 合成数据的 CreataSet 数据集,训练出 CrEval 评估器,在与人类判断的对齐度上超越 GPT-4o 达 18.7%。

Fine-Grained Activation Steering: Steering Less, Achieving More

AUSteer 发现块级激活转向(steering)本质上是异质的——不同维度控制不同 token 分布,混合转向既放大有益信号也放大有害信号。提出原子单元(AU)级细粒度转向:用激活动量定位判别性维度,自适应调节转向强度,仅转向 ≤100 个维度即大幅超越转向数千维度的 SOTA 方法。

First is Not Really Better Than Last: Evaluating Layer Choice and Aggregation Strategies in Language Model Data Influence Estimation

通过理论和实验证明先前工作所推崇的"第一层(embedding)最适合做 influence estimation"的结论是不可靠的,发现中间 attention 层才是更好的估计层,并提出 Rank 和 Vote 两种新的跨层聚合策略以及 Noise Detection Rate (NDR) proxy 指标,显著改善了 LLM 中有害训练样本的检测效果。

How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use

系统分析了 LLM 在扑克中的三大推理缺陷(启发式推理、事实误解、知行差距),提出 ToolPoker 框架——首个面向不完全信息博弈的工具集成 LLM 推理系统,通过外部 CFR solver 提供博弈论最优的行动指导,使 7B 模型在 Limit Hold'em 中逼近 Nash 均衡。

IA2: Alignment with ICL Activations improves Supervised Fine-Tuning

本文发现监督微调(SFT)和上下文学习(ICL)虽然输出相似,但内部激活完全不同;据此提出 IA2——一个在 SFT 之前先用 MSE 把模型激活拉向「ICL 在场」时激活的自蒸馏 priming 步骤,在 12 个基准上同时显著提升了少样本适配的准确率和校准度。

In-Context Algebra

本文设计了一个 in-context 代数任务——令 token 成为纯变量、每条序列重新随机分配含义——发现 Transformer 在此设定下不再学习经典的傅里叶/几何表示,而是涌现出三种 符号推理机制(交换复制、单位元识别、闭包消去),并揭示了训练过程中这些能力按阶段性相变依次出现的规律。

Is the Reversal Curse a Binding Problem? Uncovering Limitations of Transformers from a Basic Generalization Failure

提出反转诅咒(Reversal Curse)是认知科学中"绑定问题"在Transformer中的表现——源于概念表示的不一致性和纠缠性,并首次设计出基于JEPA和记忆层的架构真正突破反转诅咒(非绕过)。

LLEMA: Evolutionary Search with LLMs for Multi-Objective Materials Discovery

提出 LLEMA 框架,将 LLM 的科学知识与化学规则引导的进化搜索和记忆驱动的迭代优化相结合,在 14 个多目标材料发现任务上实现了更高的命中率、稳定性和 Pareto 前沿质量。

Massive Editing for Large Language Models Based on Dynamic Weight Generation

MeG 给 LLM 挂一个"动态权重神经元",用扩散模型按知识 query 条件生成这个神经元的权重,使大规模知识编辑(1024~10k 条)始终只新增一个神经元——既扩容了知识容量,又把对原模型的干扰锁定为常数,从而在 Locality 指标上大幅碾压现有改权重方法。

Near-Optimal Online Deployment and Routing for Streaming LLMs

首次形式化 LLM 流式在线部署+路由联合问题:新模型持续出现、旧模型可能过时,在并发部署上限 \(M_{\max}\) 和成本预算约束下,提出 StageRoute 分层算法,证明 \(\tilde{\mathcal{O}}(T^{2/3})\) 遗憾界并给出匹配下界,达到近最优。

Neologism Learning for Controllability and Self-Verbalization

通过给冻结的 LLM 新增一个「造词」(neologism)词嵌入并只训练这个嵌入去拟合某概念的示例,既能精确控制模型行为(简短、奉承、错误答案等),又能反过来让模型用自然语言「自我言说」这个新词的含义,从而发现一类对人类看似无关却能稳定操控机器行为的「机器专属同义词」。

Neural Synchrony Between Socially Interacting Language Models

首次研究社会交互中 LLM 间的神经同步现象:通过训练仿射变换预测交互伙伴的未来表征,定义 \(SyncR^2\) 指标量化同步强度,发现该同步依赖于社会参与和时间邻近性,且与 LLM 的社会行为表现高度相关(Pearson \(r\) = 0.88-0.99),呼应了人类脑间同步(IBS)的神经科学发现。

Optimas: Optimizing Compound AI Systems with Globally Aligned Local Rewards

提出 Optimas 框架,为复合 AI 系统中每个组件维护一个与全局奖励对齐的局部奖励函数(LRF),使异构组件(prompt、模型参数、超参数、模型选择)可独立优化,在五个真实系统上平均提升 11.92%。

Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models

本文提出 CK-PLUG,一个即插即用、无需训练的解码期方法:先用「置信增益(Confidence Gain)」逐 token 检测参数知识与检索上下文的冲突,再对冲突 token 用单一超参 \(\alpha\) 加权融合「参数侧」和「上下文侧」两套概率分布,从而在「更信自己」与「更信检索」之间做连续、双向、可控的调节——在 LLaMA3-8B 上能把记忆召回率(MR)在 9.9%–71.9% 区间任意拨动,同时保持生成流畅度。

PerFit: Exploring Personalization Shifts in Representation Space of LLMs

PerFit 发现 LLM 中的个性化信息可以被低秩表征偏移刻画,并用“群体共享偏移 + 用户专属偏移”的两阶段表征空间干预,在 LaMP 六个个性化任务上接近或超过 LoRA/OPPU,同时相对 OPPU 平均减少约 92.3% 可训练参数。

Prompt-MII: Meta-Learning Instruction Induction for LLMs

本文把"从一堆样例里写出一条好任务指令"这件事变成一个可学习的策略:用强化学习在 3000+ 个分类数据集上元训练一个指令生成器,让它对任意新任务一次前向就吐出一条精炼指令,效果追平 100-shot 上下文学习(ICL),但用的 token 少 3-13 倍。

PT2-LLM: Post-Training Ternarization for Large Language Models

提出 PT2-LLM,首个针对 LLM 的后训练三值化框架,通过非对称三值量化器(含迭代三值拟合和激活感知网格对齐)与结构相似性重排序策略,在 1.58-bit 下实现优于 2-bit PTQ 方法的性能。

ConflictScope: Generative Value Conflicts Reveal LLM Priorities

提出ConflictScope——自动化价值冲突场景生成与评估流水线:给定任意价值集合,自动生成价值对之间的冲突场景,通过模拟用户的开放式交互(而非选择题)评估LLM的价值优先级排序;发现模型在开放式评估中从"保护性价值"(如无害性)显著转向"个人价值"(如用户自主性),系统提示可使对齐目标排序提升14%。

Rethinking Code Similarity for Automated Algorithm Design with LLMs

提出 BehaveSim,一种基于"问题求解轨迹"(PSTrajs)和动态时间规整(DTW)的算法相似度度量方法,从执行行为层面而非语法或输出层面衡量算法差异,集成到 FunSearch/EoH 等 LLM-AAD 框架后显著提升性能。

SIPDO: Closed-Loop Prompt Optimization via Synthetic Data Feedback

SIPDO 把"造数据"变成提示优化的实时反馈信号:一个数据生成器不断造出难度递增、专戳当前提示弱点的合成样本,一个自动提示优化器据此逐轮诊断错误并改写提示,在不依赖外部标注的情况下让提示在多个推理基准上持续进步并超过主流提示调优方法。

Spectral Attention Steering for Prompt Highlighting

提出 SEKA/AdaSEKA,通过对 key embedding 进行谱分解学习"相关性子空间",在注意力计算前直接编辑 key 向量来实现 prompt highlighting,无需存储完整注意力矩阵,与 FlashAttention 完全兼容,且开销极低(+0.03s/sample)。

Speculative Actions: A Lossless Framework for Faster AI Agents

借鉴 CPU 推测执行和 LLM 推测解码的思想,提出 Speculative Actions 框架:在慢速 Actor(大模型)计算时用快速 Speculator(小模型)预测未来动作并预执行,匹配时跳过等待实现无损加速,在 Chess/电商/问答等场景实现 15-30% 延迟降低,置信度动态分支策略用 40% 更少 token 达到近似 3 条推测的加速效果。

SPRIG: Improving Large Language Model Performance by System Prompt Optimization

SPRIG 用一套"编辑式遗传算法 + 代理奖励模型"自动拼装出一条任务无关的系统提示,单条系统提示在 47 类任务上的平均提升就能和"为每个任务单独优化的任务提示"打平,二者叠加还能进一步刷新 SOTA,并且能跨模型家族、跨语言迁移。

Statistical Advantage of Softmax Attention: Insights from Single-Location Regression

通过提出"单位置回归"(Single-Location Regression, SLR) 理论框架,结合统计物理中的 order parameter 方法,在高维极限下严格证明了 softmax attention 在种群层面达到 Bayes 风险而线性 attention 本质上无法做到,并在有限样本情形下证实 softmax 始终优于线性 attention,为 softmax 在检索任务中的优势提供了首个原理性解释。

Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding

提出 SureLock,当 Masked Diffusion LM 中已 unmask 的 token 后验分布稳定后永久锁定该位置(跳过 Q 投影和 FFN,缓存 KV),将每步注意力计算从 \(O(N^2d)\) 降为 \(O(MNd)\),在 LLaDA-8B 上减少 30-50% FLOPs 且不损生成质量。

TableMaster: A Recipe to Advance Table Understanding with Language Models

TableMaster 先把表格的"结构特征"系统拆成四类挑战,再针对性地给出"构建聚焦子表 + 口语化补语义 + 自适应在文本/符号推理间切换 + 文本引导符号推理"四味配方,串成一个无需微调的三阶段框架,在 WikiTQ 上用 GPT-4o-mini 把准确率从 64.73% 推到 78.13%。

Teaching Metric Distance to Discrete Autoregressive Language Models

这篇论文提出 DIST2Loss,把数值、坐标、角度、VQ code 等 token 之间的度量距离转成距离加权的软目标分布,让离散自回归语言模型在保持 next-token 训练形式的同时学到“错得近比错得远好”的结构先验,并在视觉定位、机器人操作、奖励建模和图像生成中提升数据效率与下游表现。

TEXT2ARCH: A Dataset for Generating Scientific Architecture Diagrams from Natural Language Descriptions

本文提出 TEXT2ARCH——一个含 7.5 万条「架构图图像 + 干净文本描述 + DOT 代码」三元组的大规模数据集,把「文字描述→科学架构图」这一未被充分探索的任务形式化为「文字→中间 DOT 代码→编译成图」,并基于该数据微调出一批 7B–8B 小模型,结果显著超过 DiagramAgent、与 GPT-4o 的上下文学习持平。

The Lattice Representation Hypothesis of Large Language Models

提出 LLM 的格表示假说 (Lattice Representation Hypothesis):通过将线性表示假说与形式概念分析 (FCA) 统一,证明 LLM 嵌入空间中的属性方向通过半空间交集隐式编码了一个概念格 (concept lattice),从而实现了连续几何与符号抽象之间的桥接。

Toward Safer Diffusion Language Models: Discovery and Mitigation of Priming Vulnerabilities

揭示了掩码扩散语言模型(MDLM)中的"启动漏洞"(priming vulnerability)——在去噪中间步骤注入肯定性 token 可绕过安全防线,并提出 Recovery Alignment(RA)方法训练模型从被污染的中间状态恢复到安全响应。

Transducing Language Models

这篇论文把"对语言模型输出做确定性字符串变换"这件工程上的小事,正式抬升为一类全新的语言模型——用有限状态转录器(FST)编码变换、再与预训练 LM 组合,配上一套能在有限时间内对所有"映射到目标串的源串"求和的算法,从而不改任何模型参数就给变换后的模型补上自回归接口(逐符号下一符号分布、前缀概率、条件化),在"子词→字节""子词→词""DNA→氨基酸"三个场景上验证了推理期适配。

Trapped by simplicity: When Transformers fail to learn from noisy features

研究表明 Transformer 在从含特征噪声的数据中学习布尔函数时会失败——其简单性偏好(倾向学习低敏感度函数)导致模型被困在比目标函数更简单的最优噪声预测器上,无法恢复真实的无噪声目标函数。

VERIFY: A Novel Multi-Domain Dataset Grounding LTL in Contextual Natural Language via Provable Intermediate Logic

VERIFY 构建了首个大规模(20 万+三元组、13 个领域)的「LTL 公式 — 中间技术语言 ITL — 上下文自然语言」三层对齐数据集,用「枚举 + 模型检测 + 可证明完备的确定性映射 + LLM 生成 + 多级校验」的流水线保证形式正确性与语义保真度,并用 T5/Llama/CodeLlama 等基线揭示出「NL→LTL 方向极难(最佳仅 31.5% 语义等价)」这一核心挑战。

WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality

构建 WebDevJudge 元评估基准,系统评估 LLM/MLLM 及智能体工作流在 Web 开发质量评估任务上作为裁判的能力,发现当前最强模型与人类专家之间仍存在约15%的一致率差距,并揭示了功能等价识别失败和可行性验证薄弱两大根本瓶颈。

When Language Models Lose Their Mind: The Consequences of Brain Misalignment

这篇论文用“脑失配”干预把 LLM 表征中可预测人脑语言区 fMRI 的信息刻意拿掉,同时尽量保持语言建模损失不变,发现这种脑对齐下降会系统性损害语义、句法等 200 多个语言探针任务,反过来提高脑对齐又能带来语言能力收益。