ICML2026 LLM Reasoning 论文解读论文笔记推理 LLM 多模态 Agent 对齐/RLHF 对抗鲁棒

💡 LLM Reasoning¶

🧪 ICML2026 · 78 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (16) · 🔬 ICLR2026 (241) · 💬 ACL2026 (82) · 🤖 AAAI2026 (37) · 🧠 NeurIPS2025 (82) · 📹 ICCV2025 (3)

🔥 高频主题： 推理 ×54 · LLM ×18 · 多模态 ×2 · Agent ×2 · 对齐/RLHF ×2

A Formal Comparison Between Chain of Thought and Latent Thought: 本文从计算复杂度理论出发，形式化比较 CoT（链式思维）与隐式思维（Looped Transformer / Coconut）的表达能力，证明隐式思维在多对数深度下严格达到 \(\mathsf{TC}^k\)，而 CoT 最多到 \(\mathsf{TC}^{k-1}\)；同时在概率设置下首次揭示 CoT 通过随机解码可支持 FPRAS 计数，反过来超越确定论隐式思维。
Aligning Tree-Search Policies with Fixed Token Budgets in Test-Time Scaling of LLMs: 针对部署时"每条 query 给定固定 token 预算"的现实约束，本文提出 Budget-Guided MCTS（BG-MCTS），用"预算充足比 ρ"作为统一调度信号，让树搜索从早期广撒网、随预算耗尽逐渐转向深挖与补全答案，在数学/物理推理基准上稳定超过对预算"无感知"的树搜索基线。
An Information-Theoretic Criterion for Efficient Data Synthesis: 这篇论文用数据处理不等式解释合成数据为何有时有效、有时导致模型坍塌：只有当训练闭环持续引入稳定外部信号时，合成数据才是 information-open；而高 meta-level 的验证信号比实例级模仿更高效、更容易泛化。
Are Large Reasoning Models Interruptible?: 这篇论文把大推理模型从静态题目评测拉到会被用户打断、会收到中途更新的动态环境中，构建数学与编程评测协议，并发现强模型会出现推理泄漏、恐慌作答和自我怀疑三类稳定失效模式。
Are Tools Always Beneficial? Learning to Invoke Tools Adaptively for Dual-Mode Multimodal LLM Reasoning: AutoTool 用强化学习让多模态大模型先判断“这题是否真的需要 zoom-in 工具”，再在工具辅助推理和纯文本推理之间自适应切换，从而在高分辨率感知、定位、幻觉检测和推理任务上同时提升准确率与效率。
Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization: 作者用注意力动力学给推理过程"显影"——发现模型在生成时存在一个"先铺垫(preplan)、后定锚(anchor)"的两拍节奏，并把刻画这个节奏的两个内部指标(WAAD/FAI)直接转成 RL 里的 token 级优势放大系数，让 GRPO 把信用集中打在真正决定下游推理走向的关键 token 上，在 Countdown、QA 和多个数学推理基准上稳定提点。
Beyond Test-Time Memory: State-Space Optimal Control for LLM Reasoning: 将 LLM 推理建模为隐空间上的最优控制问题（线性二次调节器 LQR），提出 Test-Time Control (TTC) 层在前向传播中执行有限时域规划并解码最优控制动作作为下一 token 表示，配合辛迭代 CUDA 高效求解器，作为适配器插入预训练 LLM 后在 MATH-500 上提升最多 +27.8%，AMC/AIME 上 Pass@8 提升 2-3 倍。
Beyond Two-Stage Training: Cooperative SFT and RL for LLM Reasoning: 提出 BRIDGE 框架，将 SFT 与 RL 的整合建模为双层优化问题——SFT 作为上层教师通过轻量 LoRA 模块学习选择性地向 RL 学生传递有益监督信号，在五个数学推理基准上平均绝对提升超过 3 个百分点。
Biases in the Blind Spot: Detecting What LLMs Fail to Mention: 提出一个全自动黑盒流水线来检测 LLM 的"未言明偏见"（unverbalized biases）——系统性影响模型决策但从未在 CoT 推理中被提及的隐性因素，通过 LLM 自动生成概念假设、反事实输入变体和分阶段统计检验，在三个决策任务上自动发现了性别、种族等已知偏见以及西班牙语流利度、英语水平、写作正式度等新偏见。
Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling: 提出 Prefix-RFT，通过从专家示范中采样前缀拼接模型续写来构建混合轨迹，在保持 RFT 目标导向优化的同时注入 SFT 的知识引导，在数学推理任务上显著超越独立 SFT、RFT 及已有混合方法。
Calibration of Structured Ignorance Certificates for Diagnosing Unknown Unknowns in Reasoning Models: 本文提出 结构化无知证书（Structured Ignorance Certificate, SIC）——一种强制模型在遇到超出知识边界的跨域问题时，不再瞎编答案、而是用 JSON 显式说出"缺哪两个领域的交叉知识、需要哪些概念、该去检索什么"的输出格式；通过自动合成的 7,347 条"未知的未知"跨域问题数据集 + GRPO 强化微调，让 14B 模型学会稳定产出这种证书（JSON 合法率 99.46%、概念具体度 0.967）。
Chain-of-Thought Reasoning in the Wild Is Not Always Faithful: 本文在非对抗性、自然措辞的提示下（无人工注入偏见），揭示前沿LLM的链式推理（CoT）存在两种不忠实行为——隐式后验合理化（对逻辑对立的比较问题给出矛盾的相同答案并各自编造合理论证）和不忠实非逻辑捷径（在数学难题中跳过关键推理步骤却得出正确答案），生产模型不忠实率最高达13%，即使思考型模型（DeepSeek R1: 0.37%，Sonnet 3.7 thinking: 0.04%）也非完全忠实。
Clustering as Reasoning: A \(k\)-Means Interpretation of Chain-of-Thought Graph Learning: 本文揭示 Transformer 自注意力与 \(k\)-means 聚类的数学等价性，据此设计 KCoT 框架，将 CoT 推理显式拆解为"赋值-更新"两步语义过滤提示，并用 Condition-Net 动态融合拓扑先验与演化思维表示，在节点分类和链接预测上持续超越 SOTA。
CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers: 本文提出 CoCoReviewBench，通过"按类别建子基准 + 用 meta-review 仲裁审稿人/作者冲突来过滤错误意见"两步，把 3,900 篇 ICLR/NeurIPS 论文的人工审稿改造成一个更可信的 AI 审稿评测参考，并发现现有 AI 审稿在 correctness 和 thoroughness 上仍落后于人类、推理模型则更有潜力。
Conformal Thinking: Risk Control for Reasoning on a Compute Budget: 本文把"reasoning LLM 何时停止思考"从一个不可解释的阈值调参问题，重构为一个用户可指定 risk 容忍度的 conformal 风险控制问题：用两个阈值——上阈值在模型自信时停（控 false positive），新提出的参数化下阈值在模型在不可解题上"想不动"时强行停（控 false negative）——并通过 UCB 算法从校准集自动求出满足风险约束的阈值，在 AIME / GPQA / MathVision 上实现"准确率几乎不掉、token 大幅省"。
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback: 作者先指出"纯数值奖励 RL"有三个硬伤（性能平台、自发反思无效、顽固失败），再把自然语言批评（critique）接进在线 RL：模型既学初始回答、又学"按批评做的自我精炼"，并用一个 shaping 函数偏向"正确但陌生"的精炼、抑制错误精炼，从而在八个推理基准上把 Pass@1 平均提升约 +15.0~21.6%（Qwen 系列）。
DecepChain: Inducing Deceptive Reasoning in Large Language Models: DecepChain 提出第一个能让 LLM 在带特定触发词时生成"读起来完全像正常 CoT、却必然给出错误答案"的后门训练范式：先用模型自己产生的"自然犯错"轨迹做 SFT，再用反向奖励 + 格式奖励的 GRPO 课程式强化学习放大欺骗，从而把"看似可信的推理"和"真的可信的推理"之间的边界彻底抹平。
Deliberate Evolution: Agentic Reasoning for Sample-Efficient Symbolic Regression with LLMs: 把 LLM 主导的符号回归"出招—打分"循环拆成"提案 vs. 导航"两层——再用自适应算子（方向）、诊断工具（残差/量纲）、反思记忆（轨迹经验）三路信号显式引导 LLM，只用 40% 评估预算就在 LLM-SRBench 上把 NMSE 平均压低 37–55%。
DenseSteer: Steering Small Language Models towards Dense Math Reasoning: 观察到强模型 CoT 步数更少但每步信息密度更高（Dense Reasoning），DenseSteer 用 GPT-5.1 把小模型自己的稀疏解答改写成"信息更密"的同分布正样本，与原解答构成对比对，在中间层（≈ L17）残差流注入一条均值差分得到的 steering vector，零训练即可在 GSM8K / MATH500 / AMC / AIME 等数学基准上稳定涨点且不抬高 token-level NLL。
Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution: 本文把"找出 CoT 推理链里哪一步出错"形式化为黑盒场景下的步级置信度归因问题，用信息瓶颈原则把"同一问题多次采样得到的正确推理轨迹"压成共识结构，分别给出免训练的 NIBS（语义共识对齐）和可学习的 GIBS（图共识子图选择）两种实例，在 GSM8K / Math / MoreHopQA 上稳定优于白盒基线，并用步级反馈把自我纠错成功率提升最多 13.5%。
Diversity Matters: Revisiting Test-Time Compute in Vision-Language Models: 本文系统研究了 test-time compute (TTC) 策略在视觉-语言模型上的有效性，从理论上证明多数投票的收益受预测多样性限制，并提出基于预测熵选最自信模型的 ETTC，使小模型能反过来增益大模型，在 7 个 VLM、6 个基准上平均比投票高 +2.8%、超过最强单模型。
Diversity Over Frequency: Rethinking Tool Use in Visual Chain-of-Thought Agents: 在 3D 空间推理这类"工具非必需"的视觉 Agent 任务上，作者发现 vanilla RFT 会让工具调用率塌缩到接近 0、强制鼓励工具调用又只带来边际收益；真正驱动性能提升的是 rollout 的探索多样性，于是用自适应熵正则化把 3DSRBench 准确率从 59.2% 推到 62.9%，并把工具重新定位为"训练期脚手架"而非推理期必备品。
DyCon: Dynamic Reasoning Control via Evolving Difficulty Modeling: DyCon 发现"题目难度"在推理过程中是动态变化的、且被线性编码在大推理模型每一步的隐藏表征里，于是用一个轻量线性回归器在线估计每步难度，再据此实时调整"反思类 token"的 logit，让简单题早点收敛、难题继续探索，从而在不掉精度的前提下大幅压缩冗余推理 token——整个过程免训练、不改模型参数。
Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure: 作者把 latent CoT 看作一个可干预的结构因果模型（SCM），对每个连续"思考步"做 step-wise do-intervention + 早停解码 + teacher-forced 读出，系统量化 Coconut/CODI 在数学和常识推理上的步级必要性、传播结构与轨迹叠加性，发现 latent step 并不是同质化的"加深"，而是高度异质、非局部路由、且输出层早承诺先于表示层承诺的结构化界面。
ETS: Energy-Guided Test-Time Scaling for Training-Free RL Alignment: ETS 直接从 KL 正则化 RLHF 目标的闭式最优解采样，把它写成「参考策略 × 指数 reward 的条件期望（能量项）」，再用 Monte Carlo + 自归一化重要性采样在测试时近似这个能量项，从而不训练就达到甚至超过经过 RL 后训练的策略，并通过 lightweight proposal + Fast-dLLM 把延迟控制在可用范围。
Evaluating Relational Reasoning in LLMs with REL: 作者把认知科学里的"关系复杂度"（Relational Complexity, RC）—— 即一次推理步骤里必须同时绑定的独立变量数 —— 作为衡量任务难度的统一坐标轴，构建了横跨代数 / 生物 / 化学三个学科的生成式 benchmark REL，发现前沿 LLM（Claude Opus 4.5 / Gemini 3 Pro / GPT-5.2）的准确率随 RC 单调下降，且 test-time compute、ICL、外接工具都救不回来。
FloorplanQA: A Benchmark for Spatial Reasoning in LLMs Using Structured Representations: FloorplanQA 用 2,000 个 JSON/XML 格式的 2D 室内布局 + 16,000 道几何题（距离/可见性/路径/放置等）系统性诊断了 15 个前沿 LLM 的"纯符号空间推理"能力，发现它们能算简单距离却普遍栽在并集、规划和约束满足上，且 Python 工具增强能修复算术错误但救不了算法层面的失败。
ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution: ForesightKV 训练一个轻量打分模型，按"未来注意力贡献"动态淘汰 KV 对：先用 Golden Eviction 算法从完整 trace 中蒸馏出最优淘汰序列作监督信号，再用 GRPO 强化学习以"低熵 token 损失增量平方和"为奖励微调策略，在 AIME2024/2025 上用一半 KV 预算超过 SnapKV/H2O/R-KV，4K 预算可保留 99% 原模型性能。
From LLM-Generated Conjectures to Lean Formalizations: Automated Polynomial Inequality Proving via Sum-of-Squares Certificates: NSPI 让 LLM 提出近似的多项式平方和 (SOS) 结构猜想，再用 Gauss–Newton 迭代和有理恢复把猜想精修成严格的有理系数 SOS 分解，最后用 Lean 的 linear_combination + positivity 策略自动机器验证，把不等式证明可扩展到最多 10 个变量。
Geometry of Reason: Spectral Signatures of Valid Mathematical Reasoning: 把 Transformer 每个注意力矩阵当成 token 加权图，提取 Fiedler 值、HFER、谱熵、平滑度四个无参谱诊断量，发现"有效数学推理"会在注意力谱上留下可测量的指纹（Cohen's \(d\) 最高 3.30），从而不需要任何训练就能以 85–96% 的准确率判断一段证明是真推理还是模式匹配。
GRPO is Secretly a Process Reward Model: 本文从理论上证明 GRPO + ORM 在"组内轨迹共享前缀"的温和条件下等价于一个带有 Monte-Carlo PRM 的过程奖励 RL 目标，从而揭示出 vanilla GRPO 隐藏的一个 bug——前缀长度不均会让高奖励轨迹的大部分 token 拿到负 advantage——并提出 \(\lambda\)-GRPO 做一个 PRM-aware 归一化，在推理 benchmark 上稳定超过 GRPO 且训练快约 2 倍。
Hidden Error Awareness in Chain-of-Thought Reasoning: The Signal Is Diagnostic, Not Causal: 用一个简单的逻辑回归探针在 LLM 思维链生成时的隐藏状态上能以 0.95 AUROC 预测整条推理是否会出错（从第 1 步就有 0.79），但文本表面同样训出来的分类器只有 0.59；可惜 4 种干预手段（激活引导、探针引导 best-of-N、自我修正、激活补丁）全部失败——这个错误信号是"诊断性"的而非"因果性"的。
How Far Ahead Do LLMs Plan? Uncovering the Latent Horizon in Chain-of-Thought Reasoning: 本文用一个叫 Tele-Lens 的低秩 adapter 探针在 12 个跨域任务上系统度量 LLM 隐状态对"未来推理"的预测能力，发现 LLM 的内部规划是近视（myopic）的——只在 CoT 末端才精确锁定答案，并据此提出"木桶原理"用稀疏 pivot 位置的不确定性代表整条 CoT，可显著改善不确定性校准并实现 16% 的 CoT 旁路。
Inducing Overthink: Hierarchical Genetic Algorithm-based DoS Attack on Black-Box Large Language Reasoning Models: 本文针对大型推理模型 (LRM) 易被"逻辑残缺输入"激发过度思考的弱点，提出一个层级化遗传算法 (HGA)，在纯黑盒条件下把结构化分解后的题目当成基因，通过句子级/问题级交叉和增删变异搜索逻辑断裂的对抗样本，最高可在 MATH 上把响应长度放大 26.1 倍，制造低成本 DoS 攻击。
Inference-Time Conformal Reasoning with Valid Factuality Control for Large Language Models: ITCR 把保形预测（conformal prediction）从"生成完再剪枝"的事后做法，改造成"边生成边判停"的推理时机制：它在 LLM 的推理图上学一个图级事实性不确定度函数，并构造一个随子图扩张单调递增的非一致性分数，一旦越过校准好的阈值就立刻停止扩张，从而对"输出里没有错误步骤（no-false）"或"输出包含所有正确步骤（no-miss）"给出 \(1-\alpha\) 的有效覆盖保证，下游推理准确率平均提升 18.77%。
Inference Time Optimization with Confidence Dynamics: 作者发现在 LLM 多次采样推理中，正确轨迹的置信度沿 reasoning chain 系统性上升而错误轨迹衰减或下降，据此提出 CDG（Confidence Dynamic Gain）投票——把"尾段置信度 − 头段置信度"作为额外判别信号嵌入 Best-of-N 加权投票，在四个开源推理模型 × 四个数学奥赛 benchmark 上平均较 majority voting 提升 5.4%、较 DeepConf 提升 1.7~4.8%。
Internalizing Safety Understanding in Large Reasoning Models via Verification: 本文论证「会生成安全答案」≠「懂安全」，提出 SInternal 框架：只训练大型推理模型去 verify 自己生成答案的安全性，由此涌现的内在安全理解大幅压制 jailbreak 攻击（StrongREJECT ASR 从 41% 降到 0.6%）并成为后续 RL 的更好起点。
Is Code Better Than Language for Algorithmic Reasoning?: 作者用一个"三条路线"框架把工具增强 LLM 的两个被混淆的因素——推理表征（代码 vs 自然语言）和执行机制（LLM 模拟 vs 真实解释器）——干净地拆开，发现在 40 个可验证算法任务上，代码本身几乎不带来增益（+0.15pp），真正把准确率从 17% 抬到 49% 的是"可靠的外部执行"（+31.47pp），并用一个线性决策论模型证明了"代码表征不劣于自然语言"。
LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning: LatentChem 在化学 LLM 上把"显式 CoT 文本链"换成"连续 latent 思考向量 + 动态分子感知更新"，并在 GRPO 纯结果奖励下观察到模型自发抛弃文本 CoT、改用 latent 推理，在 ChemCoTBench 上对显式 CoT baseline 非平局胜率 59.88%，推理步数平均下降 10.84 倍、wall-clock 加速 5.96 倍。
MOSAIC: Learning When to Act or Refuse — Guarding Agentic Reasoning Models for Safe Multi-step Tool Use: MOSAIC 把"安全决策"从隐式推理副产物变成 plan → check → act/refuse 循环里的显式一等动作（含 <safety_thoughts> 和 refusal_tool），用 LLM judge 的成对轨迹偏好 + GRPO 训练；在 Qwen2.5-7B / Qwen3-4B-Thinking / Phi-4 上零样本 OOD 减少 50% 有害行为、prompt injection 拒绝率提升 20%、隐私泄漏下降，benign 任务效用不退。
Less Diverse, Less Safe: The Indirect But Pervasive Risk of Test-Time Scaling in Large Language Models: 论文揭示了 Test-Time Scaling (TTS) 一个被忽视的失效模式——只要把候选回复的多样性压低，TTS 反而比直接喂高对抗性 prompt 更容易输出不安全内容；并提出 RefDiv，一个用 Shannon 熵 + 参考引导双信号驱动的遗传算法，能在 MCTS 和 Best-of-N 上跨模型、跨闭源、跨 guardrail 地高效越狱。
Lookahead Sample Reward Guidance for Test-Time Scaling of Diffusion Models: LiDAR 用预先生成的几步 lookahead 样本和前向扰动核重写期望未来奖励（EFR），把 reward guidance 变成无需神经反传的闭式 softmax 权重，在 SDXL/GenEval 上匹配 DATE 的指标却快 9.5×。
Many-Shot CoT-ICL: Making In-Context Learning Truly Learn: 本文系统揭示了非推理任务的 many-shot ICL “经验法则”在 CoT 推理任务上全部失效——相似度检索反而有害、顺序敏感性随 shot 数增长——并把成功的 many-shot CoT 重新解读为“in-context 测试时学习”，由此提出按 embedding 轨迹曲率排序 demonstration 的 CDS 方法，在 64-shot 几何题上提升 5.42 pp。
Mean-Shift PCA by Knockoff Mean: 本文用随机矩阵理论证明"均值偏移污染"在样本协方差矩阵的谱上与真正的协方差 spike 是渐近独立的，并据此提出一个两阶段算法 MS-PCA：通过故意往数据里加一个"诱饵"均值偏移（knockoff mean）后再做一次 PCA，比较两次结果，把"被诱饵推动的"特征值识别为污染分量、剔除掉，从而在高维下用纯 PCA 操作恢复真正的主成分。
Measuring Weak-to-Strong Legibility of Reasoning Models: 本文提出 Transfer Utility (TU) ——把强推理模型 (RLM) 写出的中间推理 trace 按百分位前缀喂给一个弱学生模型，用弱学生续写出正确答案的能力来度量 trace 的"弱到强可读性"；在 12 个开源 RLM × 3 个数据集 × 85k 条 trace 上发现：当前最准、最简洁的 RLM (如 GPT-OSS-120B) 的 trace 在 TU 排名中反而垫底，说明 RLVR 训练把推理 trace 变成了"只对强模型有用"的工件。
Modeling Hierarchical Thinking in Large Reasoning Models: 作者把大推理模型（LRM）的长 CoT 抽象成一个 6 状态有限状态机（FSM），用「成功 vs 失败」的状态转移概率差构造 Transition Advantage Matrix，并基于 Q-Value 迭代得到长视野规划策略，仅在句子边界做稀疏的正交激活引导，就能用约 25× 更少的干预次数把 AIME25 等难题的准确率拉高最高 +13%。
On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs: 本文通过在视觉推理基准上注入"误导性 caption"与"错误 CoT 前缀"两类受控文本扰动，系统暴露 RL 微调后开源 VLM 在视觉接地与思维链忠实性上的脆弱，揭示出 RL 优化下"准确率↑ vs CoT 忠实性↓"的显式 trade-off，并表明数据增强与忠实性奖励都无法同时解决两端。
On the Generalization Gap in Self-Evolving Language Model Reasoning: 本文在"只有未标注 prompt + 基座模型"的严格闭环设定下，系统比较了 4 种自我进化（SE）策略（单轮验证、多轮修订、迭代训练、课程学习）与 oracle 监督的差距，发现在 Knights & Knaves 逻辑推理上 SE 能把 Gemma 3 4B 从 31.0% 提到 44.8%，但相对 oracle 的 53.3% 仍有 8–13% 的持续 gap，只有 12B 模型的 RevisionSE 才能逼近 oracle（52.8% vs 53.6%）。
PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching: 本文把无监督 LLM 微调重新表述为"匹配基模型 \(\alpha\)-power 分布"的问题，用 GFlowNet 的 Trajectory-Balance 目标作为摊销采样器，并通过长度感知的 LA-TB 重参数化消除自回归生成中的结构性长度偏置；同一个旋钮 \(\alpha\) 控制方向——\(\alpha>1\) 锐化分布激发推理（媲美或超过有监督 GRPO），\(\alpha<1\) 平滑分布释放对齐模型被压制的创造力，在 Pareto 前沿上同时拉高质量与多样性。
Prioritize the Process, Not Just the Outcome: Rewarding Latent Thought Trajectories Improves Reasoning in Looped Language Models: 针对 Looped Language Model（LoopLM）在每个 token 输出前会反复迭代 \(T_{\max}\) 次潜在表征的特点，本文提出 RLTT：把 GRPO 中"只奖励最后一圈"的策略梯度改成"按权重 \(\omega_t\) 给每一圈的 next-token 分布都打分"，在不引入外部 verifier、计算开销几乎为零的情况下，把 Ouro-2.6B 在 MATH/AIME/BeyondAIME 上的平均准确率提升 +10.9%，并出现训练时间下降 10% + 响应长度自发缩短的副产物。
Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models: 作者把"为离散扩散语言模型（dLLM）做高效 test-time scaling"这一问题拆成三件事——按"探索→渐进剪枝→精修"的层级时间表分配计算（HTS）、用部分 remask 做局部分支保住高置信"逻辑骨架"、把 dLLM 自己当 Yes/No 验证器（SVF），最终在 4 个数学/代码基准、3 个 dLLM 上以远少于 best-of-\(N\) 的 NFE 达到相近甚至更好的精度。
Prompt Injection as Role Confusion: 本文把"提示注入"的根因归结为 LLM 在潜空间里用风格而非标签来识别"谁在说话"的角色混淆现象，提出"角色探针"来量化这种混淆，并设计 CoT Forgery（思维链伪造）攻击，在六个前沿模型上将原本接近 0% 的攻击成功率拉到 60% 以上，同时证明探针测得的"角色混淆度"在模型生成第一个 token 之前就能预测攻击是否会成功。
R2-Router: A New Paradigm for LLM Routing with Reasoning: 本文提出 R2-Router，把"输出 token 预算"从被动估计量改造成可控变量，让路由器在 (LLM, 预算) 联合空间里搜索，用一个轻量的多头质量预测器把每个 LLM 从一个静态点扩展成一条质量-成本曲线，从而以 4–5× 更低的成本达到与现有路由器相当的质量。
Reasoning Can Be Restored by Correcting a Few Decision Tokens: 作者用 token 级分布散度量化 base LLM 与 reasoning LRM 的差异，发现差距高度集中在早期、规划相关、且 base 自身不确定的少量 token 上（占比 ~8%），据此提出"分歧门控的一令牌接管"——仅在分歧尖峰处让 LRM 出一个 token 然后立刻交还 base，用 ~4-13% 干预预算即可恢复甚至超越同尺寸 thinking 模型。
Reasoning Structure of Large Language Models: 本文把大型推理模型（LRM）的自由文本思维链转成"原子声明 + 演绎依赖"的可验证 DAG，并基于吸收马尔可夫链的结构熵定义一个推理流效率指标 \(\eta\)，证明在准确率和 token 数都饱和或重叠的区间，\(\eta\) 仍能分辨"专注推理"与"发散探索"两种行为，从而成为诊断 LRM 失败模式的细粒度工具。
ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning: ResRL 从理论上把 RLVR 中 "负样本梯度污染正样本"现象 (Lazy Likelihood Displacement) 分解成"logit × 表征"两个分量,然后在表征层用正样本的 SVD 低秩子空间做投影残差,根据每个负 token 的"正交分量能量"给它一个 [ξ,1] 区间的梯度权重——表征越像正样本(残差越小)就罚得越轻,纯错误成分才被重罚,既保住 Pass@1 又不丢 Pass@k 多样性;在 Qwen3-4B 数学任务上 Avg@16 比 NSR 提升 9.4%,Pass@128 提升 7.0%。
Reward Modeling from Natural Language Human Feedback: 本文指出在二元偏好奖励上训练的 generative reward model (GRM) 严重存在"猜对偏好但 critique 错误"的 outcome-process 不一致（20-30%、最高 44%），并提出 RM-NLHF：把模型 critique 与人工 critique 的核心论点相似度作为额外过程奖励，并用 MetaRM 自动预测过程奖励、在线随策略更新，从而在多个 benchmark 上稳定超过 outcome-only GRPO 训练的 SOTA GRM。
Scaling-Aware Adapter for Structure-Grounded LLM Reasoning: Cuttlefish 把 Q-Former 那种"固定长度查询 token"换成了"按结构复杂度自适应增长的指令条件 patch token"，再用 cross-attention 把 EGNN 抽出的几何特征作为 modality token 注入 LLM，从而在分子 / 蛋白 / DNA / RNA 四种全原子模态上同时降幻觉、扛 scaling，超过一众模态专用 baseline。
Scientific Logicality Enriched Methodology for LLM Reasoning: A Practice in Physics: 本文首次系统研究 LLM 科学推理中的"逻辑性"，提出"逻辑保真度 / 因果连接 / 推理进展" 三维评估指标，并基于该指标构造两种 SFT 数据采样方法（风格迁移 RST、逻辑蒸馏 Logic-Distill），在自建的 PhysLogic 基准与三个公开物理 benchmark 上把 7B 模型的逻辑性与答题准确率同时提了一大截。
Select to Think: Unlocking SLM Potential with Local Sufficiency: 这篇论文发现小模型（SLM）在推理"分歧点"上其实已经把大模型偏好的那个 token 装进了自己的 top-K 候选集里（1.5B 的 top-8 命中 32B 教师选择达 95%），只是被贪婪解码漏掉了；于是把大模型的角色从"开放式生成"改写成"在 SLM 候选里做选择"，再把这套选择逻辑蒸馏进 SLM 自身，让 1.5B 单轨解码就把 Math 平均分相对提升 24.1%，逼平 8 路自一致性而只花 1/8 的算力。
Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain: 作者主张当下的"LLM 自博弈"之所以在几轮内就崩溃，根本原因是自合成数据没有提供可学习信息增益；他们用有界 MDL/epiplexity 把"可学习信息"形式化，并提出三个系统级设计——非对称协同演化、容量预算增长、主动信息寻取——共同保证三角色 (Proposer-Solver-Verifier) 自演化循环中可学习信息单调上升。
SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning: 本文提出 SmartThinker，一种基于 GRPO 的高效推理后训练方法，通过对每个 prompt 的"全部轨迹长度分布"与"正确轨迹长度分布"做高斯建模，解析推导出"使正确率最大的最优长度"\(l^{\text{opt}}\)，并配合一个动态长度奖励系数 \(\Lambda\) 保证正确轨迹的归一化优势非负，从而在最多压缩 52.6% token 的同时把 AIME25 准确率相对提升最多 16.6%。
Stabilizing Recurrent Dynamics for Test-Time Scalable Latent Reasoning in Looped Language Models: 本文从动力系统视角诊断 Looped Language Model (LoopLM) 在 test-time 扩展深度时"先涨后崩"的根因——归一化位置导致的"稳定—有效"二元困境，并提出 STARS：用 Jacobian 谱半径正则化 (JSRR) + 随机循环采样把潜在轨迹拉向"渐近稳定的有效不动点"，在 GSM8K 上把 8 步循环的性能跌幅从 20.47% 压到 8.26%，同时峰值提升 4.01%。
Stop When Further Reasoning Won't Help: Attention-State Adaptive Generation in Reasoning Models: ASAG 是一个训练无关、即插即用的推理早停框架：它在大推理模型（LRM）每个"思考动作"切换点上同时读取模型置信度和注意力熵，判断推理是否真的收敛，从而自适应地选择"早停 / 注入 logits 推一把 / 跳出思维陷阱 / 继续"四种策略，在 Qwen3-8B 上把平均准确率提升 3.2% 的同时把生成 token 数砍掉近 40%。
SuCo: Sufficiency-guided Continuous Adaptive Reasoning: SuCo 提出"最小充分思维链（MSC）"——能产出正确答案的最短 CoT 前缀，并据此设计两阶段训练（MSC 对齐微调 MFT + 充分性感知策略优化 SAPO），让大推理模型在一个连续谱上自主调节推理长度，在数学/代码/科学多基准上同时拿到更高准确率与更少推理 token（7B 平均准确率 +2.7、推理长度从 5239 降到 1267）。
The Deterministic Horizon: When Extended Reasoning Fails and Tool Delegation Becomes Necessary: 本文发现解码器 Transformer 在确定性状态追踪任务上因注意力容量限制存在"确定性地平线"（约 19-31 步），超过此阈值扩展推理会导致性能崩溃；通过信息论 + 大规模实证（72 万次评估）证明这是架构能力失败而非"简洁性偏好"，并量化论证了工具委托（如符号求解器）的必要性——可将准确率从 24-42% 拉到 86-94%。
The Easy, the Hard, and the Learnable: Confidence and Difficulty-Adaptive Policy Optimization for LLM Reasoning: 本文先把 GRPO 训练动态拆开看，发现它对简单/困难/可学习问题一视同仁导致算力错配，进而提出 CoDaPO——用每题的"置信度×难度"算一个有界价值，既给梯度更新加权又对高价值题重采样，在固定算力下把更新集中到"可学习带"，12 个推理基准上稳定超过 GRPO 等方法。
The Expressive Power of Low Precision Softmax Transformers with (Summarized) Chain-of-Thought: 本文首次证明：使用 softmax 注意力 + bfloat16 量级精度（激活与注意力权重都四舍五入）的标准 Transformer 解码器，只要深度、宽度对数地随上下文增长，就能借助 CoT 模拟任意图灵机；并进一步证明 Summarized CoT 把规模从时间界 \(\hat{t}\) 降到空间界 \(\hat{s}\)，且在 Sudoku 任务上实测发现"加深度而不是加精度"才是 CoT 长上下文失败的真正解药。
The Quality-Utility Paradox: Why High-Reward Data Impairs Small Model Mathematical Reasoning: 本文揭示了小语言模型（SLM）数学推理蒸馏中的「质量-效用悖论」：被强 Oracle 精修、奖励模型打分更高的训练数据，下游微调效果反而不如 SLM 自己采样生成的低分数据，原因是 Oracle 精修在修复逻辑的同时把推理轨迹推离了 SLM 的原生分布、抬高了学习者的适应成本；作者用「风格对齐精修」把逻辑修复和风格漂移解耦，重新拿回了下游收益。
The Role of Feedback Alignment in Self-Distillation: 本文系统研究了「自蒸馏」中上下文（context）的设计问题：在 solver–critic 框架下对比三种反馈形式后发现，与 solver 自身推理轨迹逐步对齐的批改式反馈（StepAlignFB）远胜二元奖励（GRPO，+16.11 分）和参考解（RefSol，+5.27 分 Avg@12），因为它只把蒸馏信号集中在 solver 真正出错的 token 上、放过已经正确的步骤，从而隐式实现了过程级监督（PRM 式信号）而无需训练奖励模型。
ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning: 作者把 MATH 数据集的人工标注解题步骤逐步翻译成"带描述与类型签名的可复用 Python 工具"，构造出含 8K 题 + 12K 工具的 ToolMATH 基准；它同时覆盖长程多工具组合（hop 1-8+）、可控的干扰工具相似度（5 级 × 4 种密度）、以及"金标工具被全部移除"的工具缺失场景，验证显示模型失败的主导因素不是工具选择而是推理本身——thought error 占 90%+，而干扰工具会把早期的小偏差放大成不可逆的执行漂移。
TRACE: 用 Toulmin 论证模型评 LLM CoT 推理过程质量: TRACE 是个参考无关的 CoT 质量评估指标，把 Toulmin 论证模型（Claim/Data/Warrant/Backing/Qualifier/Rebuttal）+ Flavell 元认知（Monitoring/Evaluation）合成 8 个构成要素，用 DeBERTa 多标签识别每句推理的要素，再算"State Validity + Transition Coherence"加权和；在 26.3K QA × 7 模型上与 benchmark accuracy 相关 \(r=0.741\)，且能当 RL reward 让 GSM8K 提升 +9.9%。
UCPO：不确定性感知的策略优化: UCPO 通过三元优势解耦（TAD）和动态不确定性奖励调整（DURA）两个机制，解决了现有RL范式中固定不确定性奖励导致的优势偏差问题，使LLM能在知识边界处可靠地表达不确定性，在Qwen3-8B上数学推理PAQ达到79.63%。
UniScale：通过模型路由与测试时缩放在线联合优化的自适应统一推理缩放: 提出 UniScale 框架——将模型路由和测试时缩放统一到一个决策空间，通过 LinUCB 上下文多臂老虎机在线学习自适应推理策略，解决 LLM 部署中质量-成本的精细权衡问题。
Verifying Meta-Awareness via Predictive Rewards in Reasoning Models: 通过让推理模型自预测解法长度、通过率和所需概念，用预测结果与真实统计对齐来优化模型元认知——从而显著提升数学推理性能并加速训练。
What Really Improves Mathematical Reasoning: Structured Reasoning Signals Beyond Pure Code: 这篇论文通过 10T-token 语料和 MoE 从头预训练的控制实验指出，真正提升复杂数学推理的不是纯可执行代码本身，而是跨域结构化推理信号，尤其是数学语料中显式暴露中间步骤的“认知脚手架”。
When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models: 本文指出多轮推理模型的安全失败大多对"末轮分数评测"隐形——模型可能早早锁死一个不安全立场却让最终拒答率看起来和对齐良好的基线一样,于是提出一个轨迹级诊断框架 CoT–Output 2×2 安全矩阵:沿"内部推理(CoT)"和"可见输出"两条独立轴给每一轮打标,划出四种失败格,并首次命名出 context-injection failure(CoT 安全但输出有害) 这一被忽视的失败模式。
When to Re-Plan: Subgoal Persistence in Hierarchical Latent Reasoning: 这篇论文在 Hierarchical Reasoning Model 中加入 manager-worker 式持久子目标，发现潜变量推理里的关键不是单纯注入子目标，而是子目标应该持续 \(P=3\) 到 \(6\) 个低层更新步，过快重规划会破坏组合结构，过强 alignment 又会干扰任务学习。