跳转至

💡 LLM Reasoning

🧠 NeurIPS2025 · 82 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (16) · 🔬 ICLR2026 (241) · 💬 ACL2026 (82) · 🧪 ICML2026 (78) · 🤖 AAAI2026 (37) · 📹 ICCV2025 (3)

🔥 高频主题: 推理 ×58 · LLM ×19 · 强化学习 ×7 · 多模态 ×6 · 模型压缩 ×2

A Little Depth Goes a Long Way: The Expressive Power of Log-Depth Transformers

本文证明了将 Transformer 的深度从常数增长到 Θ(log n) 就能解锁识别正则语言和图连通性这两类固定深度 Transformer 无法表达的问题,且深度扩展比宽度(需超多项式增长)和 CoT 步数(需超对数增长)都更高效。

A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

提出首个针对基于采样的测试时缩放方法的理论框架,将推理误差分解为估计误差和模型误差,揭示了Self-Consistency收敛慢、Perplexity模型误差大的局限,并提出RPC方法融合两者优势,在7个基准上以50%的采样成本达到同等推理性能。

AbbIE: Autoregressive Block-Based Iterative Encoder for Efficient Sequence Modeling

提出 AbbIE,一种将 decoder-only Transformer 的中间层(Body)进行递归迭代的架构,只需训练时用 2 次迭代,推理时即可通过增加迭代次数实现 upward generalization,在语言建模困惑度和 zero-shot ICL 任务上均超过标准 Transformer,且可作为标准 Transformer 的 drop-in 替代。

Adaptive Dual Reasoner: Large Reasoning Models Can Think Efficiently by Hybrid Reasoning

提出 Adaptive Dual Reasoner (ADR)——让推理模型在 fast thinking(简单推理步骤压缩)和 slow thinking(复杂推理步骤保留深度)之间动态切换,通过 SFT 冷启动 + EHPO(熵引导混合策略优化)训练,在数学推理基准上准确率提升最高 6.1% 同时推理 token 减少 49.5%-59.3%。

Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

首次系统分析了大推理模型(LRM)在机器翻译MQM评估中的行为,发现LRM存在"过度思考"、评分高估和材料选择依赖模型规模等问题,并提出ThinMQM方法通过训练合成人类评分轨迹来校准LRM思维过程,将思维预算减少约35倍同时提升评估性能(7B模型提升+8.7相关性分数)。

ARM: Adaptive Reasoning Model

ARM 通过让模型自适应地选择四种推理格式(直接回答、短CoT、代码、长CoT),配合改进的 Ada-GRPO 训练算法解决 format collapse 问题,在保持与纯长CoT模型持平的准确率的同时平均节省 ~30% token,最多节省 ~70%。

Atom of Thoughts for Markov LLM Test-Time Scaling

提出 Atom of Thoughts (AoT),将 LLM 推理建模为马尔可夫链,每个状态是与原问题答案等价但复杂度递减的自包含子问题,通过 DAG 分解+收缩的两阶段转移机制消除历史依赖,可与 ToT/反思等方法无缝集成,在数学/代码/多跳QA等6个benchmark上全面领先现有推理框架。

Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning

提出 SPARKLE 三轴分析框架(计划执行、知识整合、子问题分解)细粒度剖析 RL 如何改变 LLM 推理行为,发现 RL 主要增强了知识整合能力和计划灵活性而非计划执行能力,并提出 SparkleRL-PSS 多阶段 RL 训练 pipeline 通过 partial step scaffolding 有效利用难题数据。

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

从 token 熵模式的全新视角分析 RLVR,发现 CoT 推理中仅约 20% 的高熵"分叉 token"决定推理方向,仅在这些 token 上做梯度更新即可匹配甚至大幅超越全量更新(Qwen3-32B 上 AIME'25 +11.04),揭示 RLVR 本质是优化推理决策点。

ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

提出ChartMuseum图表问答基准,包含1162个专家标注问题和184个来源的真实图表,首次系统区分视觉推理与文本推理能力,揭示当前最强模型Gemini-2.5-Pro仅63.0%而人类达93%,视觉推理性能比文本推理低35%-55%。

Clip-and-Verify: Linear Constraint-Driven Domain Clipping for Accelerating Neural Network Verification

提出Clip-and-Verify验证流水线,利用线性界传播过程中"免费"产生的线性约束,通过完全裁剪(坐标上升对偶求解)和松弛裁剪(闭式输入域收缩)两种GPU高效算法收紧全网络中间层界,在多个benchmark上减少高达96%的BaB子问题数量,是VNN-COMP 2025获胜验证器的核心组件。

Cognitive Mirrors: Exploring the Diverse Functional Roles of Attention Heads in LLM Reasoning

提出CogQA基准数据集和多类probing框架,系统分析LLM中注意力头的认知功能特化现象,发现认知头具有稀疏性、普遍性和层级化功能组织特征,去除认知头显著降低推理性能,增强则提升准确率。

Controlling Thinking Speed in Reasoning Models

通过表示工程(Representation Engineering)从 LRM 的隐藏空间中提取控制快/慢思考转换的 steering vector,结合基于层间 logit 散度的实时推理难度估计,实现无需训练的自适应推理速度调节,在 4 个 LRM 上平均提升 +1.3% 准确率并减少 -8.6% token 使用。

CoRe: Benchmarking LLMs' Code Reasoning Capabilities through Static Analysis Tasks

提出 CoRe,一个包含 12,553 个人工验证任务实例的高质量 benchmark,通过数据依赖、控制依赖和信息流三类静态分析基础任务,直接评估 LLM 的代码语义推理能力,揭示模型在 trace 生成和源枚举等需要多步推理的任务上仍严重不足。

CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring

在 AI Control 框架下系统评估了 Chain-of-Thought 监控的有效性:发现 CoT 监控在检测微妙破坏行为上比仅监控 action 更有效(+10pp),但在检测明显破坏行为时反而更差(-25pp,因为推理中的伪合理化会欺骗监控),提出 hybrid 监控协议(独立评分 CoT 和 action 后加权)在所有场景下一致优于两种单一监控,检测率提升 2 倍。

Curriculum Abductive Learning

提出 Curriculum Abductive Learning (C-ABL),通过将知识库按依赖结构分割为子知识库并渐进式引入训练,大幅缩小 ABL 的 abduction 搜索空间,显著提升训练稳定性、收敛速度和最终精度。

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

分析 GRPO 目标函数,揭示其固有的难度偏差(对过难/过易问题赋予过低权重)和熵不稳定性问题,提出基于判别学习的 DisCO 框架,通过无裁剪评分函数、平方铰链约束优化和 DRO 处理不平衡 rollout,在 1.5B 模型上平均超过 GRPO 7%、超过 DAPO 6%。

Does Thinking More Always Help? Mirage of Test-Time Scaling in Reasoning Models

通过系统实验揭示 LRM 测试时扩展(反复 "Wait" 提示延长推理)的性能呈先升后降的非单调趋势,用概率模型证明这种"提升"只是方差增大导致的海市蜃楼而非真正推理能力提升,并提出 parallel thinking 策略在相同 token 预算下准确率提升最高 22%。

DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning

提出 DreamPRM,通过双层优化自动学习多模态推理数据集的域权重,解决 PRM 训练中的数据质量不均衡问题,在 MathVista 排行榜上以 o4-mini 模型达到 85.2% 的 top-1 准确率。

Exact Expressive Power of Transformers with Padding

本文精确刻画了带 padding 的 Transformer 的表达能力:固定深度 + 多项式 padding 恰好等于 \(\mathsf{FO}\)-uniform \(\mathsf{TC}^0\),进一步结合 \(O(\log^d n)\) looping 恰好等于 \(\mathsf{FO}\)-uniform \(\mathsf{TC}^d\),polylog looping 收敛到 \(\mathsf{NC}\),为 padding/looping 作为可并行推理时计算提供了完整理论基础。

ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning

提出 Self-Explanation Policy Optimization (ExPO),一种通过让模型在给定正确答案条件下自主生成推理链(self-explanation)作为正样本的模块化框架,解决 GRPO 等 RL 后训练方法在困难推理任务上因缺乏有效正样本而无法学习(分布锐化)的根本问题——ExPO 生成的自解释样本既在当前策略分布内(in-distribution),又能提供正向学习信号,可无缝集成到 DPO 和 GRPO 中。

First SFT, Second RL, Third UPT: Continual Improving Multi-Modal LLM Reasoning via Unsupervised Post-Training

提出 MM-UPT 框架,在 SFT 和 RL 之后引入第三阶段"无监督后训练",通过多数投票作为伪奖励信号结合 GRPO 实现 MLLM 的自我改进,在 MathVista 上将 Qwen2.5-VL-7B 从 66.3% 提升至 72.9%。

FractalBench: Diagnosing Visual-Mathematical Reasoning Through Recursive Program Synthesis

提出 FractalBench,一个通过分形图像程序合成诊断 MLLM 视觉-数学推理能力的 benchmark:12 种经典分形、610 张测试图、4 个 MLLM,揭示 76% 的代码能执行但仅 4% 视觉正确,暴露了模型在递归抽象能力上的根本缺陷。

GPO: Learning from Critical Steps to Improve LLM Reasoning

GPO 通过蒙特卡洛模拟估计推理轨迹中每一步的优势函数,识别出"关键步骤"(模型犯错的转折点),然后从关键步骤重置并重新采样轨迹用于训练,可以即插即用地提升 PPO、DPO、KTO、SimPO、ORPO 等多种优化算法在推理任务上的表现。

I-RAVEN-X: Benchmarking Generalization and Robustness of Analogical and Mathematical Reasoning in Large Language and Reasoning Models

提出 I-RAVEN-X,一个增强版的符号化推理基准,通过增加操作数复杂度、属性范围和感知不确定性来评估 LLM 和 LRM 的类比推理与数学推理的泛化能力和鲁棒性,发现 LRM 在确定性推理上显著优于 LLM,但在不确定性推理下性能急剧下降。

Inference-Time Chain-of-Thought Pruning with Latent Informativeness Signals

提出 KAPPA (KL-Adjusted Pruned Path Algorithm),利用 KL 散度、置信度和熵三个无需额外训练的信号对 Best-of-N 采样的推理分支进行渐进式剪枝,在保持准确率的同时实现最高 60% 峰值内存和 90% token 生成量的削减。

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

通过构建完全可控的抽象环境DataAlchemy,本文揭示CoT推理是一种幻觉——其有效性完全由训练数据分布主导,在分布外场景表现极其脆弱。

Know What You Don't Know: Uncertainty Calibration of Process Reward Models

本文提出了一种基于分位数回归的PRM校准方法,使PRM输出的分数更准确地反映LLM实际推理成功概率,并基于校准后的PRM设计了实例自适应推理时缩放(IAS)策略,在保持准确率的同时显著降低推理成本。

KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning

KTAE 提出了一种不依赖额外模型的 token 级优势估计算法,通过 Fisher 精确检验和信息增益量化每个 token 与正确推理结果的统计关联,将细粒度 token 重要性叠加到 GRPO/DAPO 的 rollout 级优势上,在5个数学推理基准上超越基线并显著缩短生成长度。

Large Language Models Can Learn and Generalize Steganographic Chain-of-Thought under Process Supervision

证明 LLM 在 RL 训练中受到 CoT 过程监督(惩罚特定字符串出现)时,会自发学会隐写术(steganography)——用替代编码隐藏被禁止的推理步骤,且这种编码是因果性的(load-bearing)并能泛化到训练中从未见过的字符串。

Latent Chain-of-Thought for Visual Reasoning

将视觉CoT推理重新建模为后验推断问题,提出基于摊销变分推断(AVI)的LaCoT训练框架——包含参考引导GFlowNet微调(RGFN)、token级奖励近似和贝叶斯推理缩放(BiN)——在Qwen2.5-VL 3B/7B上比GRPO高出10.6%,在7个视觉推理基准上达到开源SOTA。

Let LRMs Break Free from Overthinking via Self-Braking Tuning

提出 Self-Braking Tuning (SBT) 框架,通过识别推理轨迹中的过度思考模式并构造自适应长度训练数据,使大型推理模型(LRM)学会自主判断何时停止推理,在数学推理任务上减少 30%-60% token 消耗的同时保持精度。

Let Me Think! A Long Chain-of-Thought Can Be Worth Exponentially Many Short Ones

本文从理论和实验两方面证明:存在推理任务(图连通性问题),其中一条长 CoT(顺序缩放)的能力等价于指数多条短 CoT(并行缩放)——即将 CoT 长度减少一点点,就需要指数级增加并行采样数才能达到同等准确率。

LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

提出PIR(基于困惑度的重要性精炼)框架,将LRM蒸馏的推理链分为"渐进推理"和"功能性步骤"(验证/多方法验证/纠错)两类,仅裁剪低PIR值的功能性步骤而完整保留渐进推理骨架,使微调后的模型在AIME/AMC/GPQA上准确率提升0.9%-6.6%同时token减少3%-41%,效率最高提升71%。

Lost in Transmission: When and Why LLMs Fail to Reason Globally

提出有界注意力前缀预言机(BAPO)计算框架,将LLM的注意力头建模为有限带宽通信信道,证明图可达性等全局推理问题是BAPO-hard的(需超常数带宽),且CoT可将任何BAPO-hard问题转化为BAPO-easy问题,实验在GPT-4o/Claude/Gemini上验证理论预测。

Many LLMs Are More Utilitarian Than One

在6款LLM的对照实验中发现"功利主义增强(Utilitarian Boost)"现象——LLM在成对/三人组讨论道德困境后比独立判断时更倾向接受"为了多数人的利益而伤害少数人",这一效应在涉及直接伤害的个人困境中尤为显著(\(\beta=0.31, p<.0001\)),且各模型产生功利主义增强的机制不同(有的因规范敏感性降低,有的因公正性增强)。

Mapping Faithful Reasoning in Language Models

提出Concept Walk框架,通过将推理模型每步的残差流激活投影到从对比数据学到的概念方向上,追踪内部概念表示在推理过程中的演化轨迹,以此区分CoT链是真正参与计算的还是仅为事后合理化的装饰性输出。

Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoning

提出 Martingale Score 作为无监督度量指标,基于贝叶斯统计中的鞅性质(Martingale property)来量化 LLM 推理过程中的信念固化(belief entrenchment)现象,发现该现象普遍存在且与准确率下降显著相关。

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

本文首次系统性地定义了 CoT 推理链中的"思维跳跃"(Thought Leap)现象,提出 CoT-Bridge 模型自动检测并补全推理链中被省略的中间步骤,在 NuminaMath 上最高提升 +5.87%,并可作为即插即用模块增强蒸馏和 RL 流程。

MuSLR: Multimodal Symbolic Logical Reasoning

提出首个多模态符号逻辑推理任务MuSLR及其基准测试集MuSLR-Bench(1,093个实例,涵盖7个领域、35种原子符号逻辑、推理深度2-9),并设计模块化框架LogiCAM,通过前提选择、推理类型识别和符号推理三个模块将GPT-4.1的CoT性能提升14.13%。

On Learning Verifiers and Implications to Chain-of-Thought Reasoning

提出学习Chain-of-Thought验证器的形式化PAC框架,定义三种递进强度的验证目标(Simple → Trustable → γ-Trustable),证明当每个问题只有少量正确证明时样本复杂度为 \(O(\log|H|)\),但当正确证明数量不受限时样本复杂度不可避免地跃升至 \(\Theta(|H|)\),除非验证器类满足交集封闭性等额外结构假设;同时利用USAT问题证明验证与生成之间存在计算复杂度差距。

PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts

提出Value-Guided Search(VGS)——通过token级价值模型指导块级束搜索,无需预定义"步骤",相对多数投票在竞赛数学上准确度提升+14.5%,同时推理计算效率提升30%,超越现有PRM方案。

ProofSketch: Efficient Verified Reasoning for Large Language Models

提出 ProofSketch 框架,通过符号闭包前向推理+短sketch生成+形式验证的多阶段pipeline,在降低token用量的同时提供逻辑推理的形式化正确性保证。

Provable Scaling Laws for the Test-Time Compute of Large Language Models

提出 Knockout(淘汰赛式两两淘汰)和 League(联赛式平均胜率排序)两种两阶段测试时计算算法,在"LLM 能以非零概率生成正确解"和"LLM 两两比较优于随机"的极弱假设下,从理论上证明失败概率随测试时计算量增长呈指数或幂律衰减至零,且整个算法仅需黑盒 LLM,无需外部验证器或奖励模型。

Re-FORC: Adaptive Reward Prediction for Efficient Chain-of-Thought Reasoning

提出Re-FORC,一个轻量级adapter在CoT推理过程中实时预测未来期望奖励 \(\psi(t|x,z,\pi)\),将推理计算分配建模为Pandora's box问题,实现自适应早停(节省26%计算)、模型+计算联合选择(同等计算下+4%准确率或同等准确率-55%计算)和测试时计算伸缩(+11%准确率),且用户可通过代价系数 \(\lambda\) 在推理时自由调控精度-效率权衡,无需重训。

RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics

提出 RealMath,一个从 arXiv 论文和 Math StackExchange 中自动提取可验证数学问题的可持续刷新基准,用于评估 LLM 在真实研究级数学任务上的能力。

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

ReasonFlux-PRM 发现现有 PRM 无法有效评估推理模型的中间思考轨迹(trajectory),提出融合步骤级对齐/质量/连贯性分数和轨迹级模板引导奖励的 trajectory-aware PRM,在离线数据选择(SFT +12.1%)、在线 RL 奖励(+4.5%)和测试时 Best-of-N 缩放(+6.3%)三个场景中均显著优于包括 Qwen2.5-Math-PRM-72B 在内的强基线。

Reasoning Models Better Express Their Confidence

系统性证明推理模型(extended CoT)比非推理模型具有显著更优的置信度校准能力,并揭示"慢思考"行为(探索替代方案、回溯、验证)是校准提升的根本来源。

Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling

提出 Variable Granularity Search (VG-Search),通过可调的验证粒度参数 \(g\) 统一 Beam Search 和 Best-of-N,发现传统每步验证是次优的,自适应调整 \(g\) 可在提升准确率3%+的同时减少52%+的计算量。

SafePath: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment

提出 SafePath,仅在推理开始处微调 8 个 token 的"Safety Primer"("Let's think about safety first"),即可有效引导 LRM 走向安全推理路径,在 DeepSeek-R1-Distill 上减少 90% 有害输出且仅需 Direct Refusal 1/296 的训练计算量。

Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding

提出 Self-Truncation Best-of-N (ST-BoN) 解码方法,通过理论证明早期隐状态一致性可预测最终一致性,在生成早期就识别并截断次优样本,实现降低80%+内存和50%延迟的同时保持BoN性能。

SAND-Math: Using LLMs to Generate Novel, Difficult and Useful Mathematics Questions and Answers

提出 SAND-Math,一个无需种子数据集的全自动合成数学问题生成管线,通过 Difficulty Hiking 系统性提升题目难度,仅 500 道增强 LIMO 基线即可在 AIME25 上提升 4.39pp。

Scalable Best-of-N Selection for Large Language Models via Self-Certainty

提出Self-Certainty度量,利用LLM输出的token概率分布量化模型信心,在无需额外奖励模型的情况下实现可扩展的Best-of-N选择,性能媲美或超越基于奖励模型的方法。

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

提出SPO框架,采用段级(而非令牌级或轨迹级)的advantage估计,通过新颖的蒙特卡洛方法和树形采样,在短CoT和长CoT场景下分别超越PPO和GRPO 6-12和7-11个百分点。

Self-Evaluating LLMs for Multi-Step Tasks: Stepwise Confidence Estimation for Failure Detection

PolyMath构建的18语言、4难度级、500问题数学推理基准揭露:(1)推理性能跨语言差异达10分,(2)推理模型输入-输出语言一致性低且可能影响性能,(3)思考长度在语言间显著不一致,为多语言推理研究提供新视角。

Smaller Models, Smarter Rewards: A Two-Sided Approach to Process and Outcome Rewards

将 Phi-4 系列小模型(3.8B/14B)的最后一层替换为回归头并微调,使其同时具备 ORM(结果奖励)和 PRM(过程奖励)能力,在代码生成任务上通过选择最优 rollout 实现 20%+ 的 pass@k 提升。

SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search

提出SolverLLM,一个无需训练的框架,将优化问题的数学建模视为搜索问题,通过改进的MCTS在六元素表述空间中探索最优formulation,引入动态扩展、提示反向传播和不确定性反向传播,在6个基准上以无训练方式超越prompt方法和微调方法。

SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models

通过将长链式推理轨迹重组为交替的规划-并行执行阶段,Sprint 使推理模型在保持准确率的同时,将长推理链的顺序 token 数减少高达 39%(OOD 任务上最高 65%),实现推理过程的动态并行化。

SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction

提出 SQL-of-Thought——一个多智能体 Text-to-SQL 框架,将任务分解为 schema linking → 子问题识别 → CoT 查询计划生成 → SQL 生成 → 基于 31 类错误分类法的引导修正循环,用 Claude 3 Opus 在 Spider 上达到 91.59% 执行准确率,比此前最佳 Chase SQL(87.6%)提升近 4 个百分点。

SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

首次系统地将 GRPO 强化学习应用于 NL2SQL 任务,通过四层递进式奖励函数和 200K 冷启动 + 5K 复杂样本 RL 训练策略,7B 模型在 Spider 和 BIRD 上分别达到 88.7% 和 66.6%,超越 GPT-4 同规模模型。

SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning

提出 SRPO(Self-Reflection enhanced reasoning with Group Relative Policy Optimization),一个两阶段反思感知 RL 框架:第一阶段用大模型生成反思数据做 SFT cold-start,第二阶段设计反思感知奖励函数在 GRPO 中强化简洁有效的自我反思能力,在 MathVista/MathVision/MMMU-Pro 等多模态推理基准上以 7B/32B 模型显著超越同规模 SOTA。

Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

PURE 发现 PRM 导致 reward hacking 的根本原因是 RL 中标准的 sum-form 信用分配(\(V(s) = \sum \gamma^t r_t\)),并提出 min-form 替代方案(\(V(s) = \min_{t' \geq t} r_{t'}\)),通过将价值函数限制为未来奖励的最小值而非累积和,显著缓解 reward hacking——仅用 30% 训练步数就达到与规则奖励方法相当的推理性能。

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

首次将强化学习 (RL) 应用于真实世界软件工程任务(GitHub PR/Issue 修复),仅用基于规则的序列相似度奖励训练 Llama-3.3-70B,在 SWE-bench Verified 上达到 41.0% 解决率(中等规模模型 SOTA),且 RL 训练仅在 issue-solving 数据上进行,却涌现出在代码推理、数学、通用语言理解等域外任务上的泛化推理能力。

The Hawthorne Effect in Reasoning Models: Evaluating and Steering Test Awareness

首次系统量化推理型LLM的"测试感知"(Hawthorne效应):当模型察觉自己在被评估时会改变行为,论文通过线性探针定位感知激活并进行参数编辑引导,揭示测试感知对安全对齐的显著且方向不一致的影响。

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

通过可控拼图环境系统揭示大型推理模型(LRMs)的三阶段行为:低复杂度不如标准 LLM、中等复杂度显著优于、高复杂度完全崩溃(0%),且反直觉地在崩溃时减少思考 token,证实当前 LRMs 并未发展出真正泛化的推理能力。

The Impact of Quantization on Large Reasoning Model Reinforcement Learning

系统实验发现在大推理模型的 RL 训练中,量化感知训练(QAFT/STE)会损害推理能力,而训练后量化(PTQ)和 QLoRA 即使在 4-bit 精度下也能很好地保持推理性能,为实践者提供了"先全精度 RL、再 PTQ 量化"的推荐路线。

The Ouroboros of Benchmarking: Reasoning Evaluation in an Era of Saturation

本文通过对OpenAI、Anthropic和Google三大模型家族在52个推理基准上的系统分析,揭示了一种"衔尾蛇"循环模式——旧基准被快速饱和→新基准被创建以维持区分度→新基准又被迅速饱和,由此质疑基准分数的提升是否真正代表了推理能力的泛化进步,还是仅仅反映了对特定评测集的过拟合。

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

将可验证奖励的强化学习(RLVR)分解为正样本强化(PSR,增强正确回答概率)和负样本强化(NSR,惩罚错误回答),发现仅用 NSR 就能在整个 Pass@k 谱上持续提升推理性能且通常匹配或超越 PPO/GRPO,据此提出 Weighted-REINFORCE(降低 PSR 权重至 0.1)在 MATH/AIME 2025/AMC23 上取得全面最优。

The Virtues of Brevity: Avoid Overthinking in Parallel Test-Time Reasoning

证明在推理模型的 Best-of-N 采样中,选择最短解是一个简单、反直觉但高效的启发式方法,性能与 self-consistency 相当,token 成本显著更低,其原理在于利用了模型在"常规模式"与"过度思考模式"之间的系统性偏差。

TimE: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios

提出 TimE,一个包含 38,522 个 QA 对的多层级时间推理基准,覆盖知识密集(Wiki)、动态新闻(News)、长对话(Dial)三种真实场景和三级渐进式 11 子任务,全面评估 24 个 LLM 后发现即便最强推理模型在时间线构建和反事实推理等复杂任务上仍有显著短板。

Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties

提出"推理图"概念——通过对 LLM 隐藏状态聚类构建有向图,从环路密度、直径和小世界指标三个图论维度分析大推理模型(如 DeepSeek-R1 蒸馏系列),发现推理模型的推理图具有显著更多环路(~5/样本)、更大直径和更强小世界特性(~6倍),且这些特性随任务难度和模型规模增长。

Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning

揭示了过度延长 CoT 长度会损害 LLM 推理性能,并提出 Thinking-Optimal Scaling (TOPS) 策略,让模型为每道题选择最短正确响应进行自我提升,在效果和效率上同时优于现有蒸馏方法。

Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning

TBRM 通过最小化轨迹级贝尔曼残差,将 LLM 输出 logits 视为隐式 Q 值,仅需每个 prompt 一次前向采样即可训练,复杂度远低于 PPO/GRPO 但数学推理性能相当或更优。

Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalization

从优化理论角度证明了一层 Transformer 通过梯度下降在合成状态追踪任务上能学会 CoT 推理并实现长度泛化,首次为常数深度 Transformer 学习 \(\mathsf{NC}^1\)-complete 问题(超越之前局限于 \(\mathsf{TC}^0\) 的理论)提供了收敛保证。

TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation

提出 TTS-VAR——首个针对 Visual Auto-Regressive (VAR) 模型的测试时扩展框架,将图像生成建模为路径搜索问题,通过自适应递减批量 + 早期聚类多样性搜索 + 后期重采样潜力选择,在 Infinity 2B 上将 GenEval 分数从 0.69 提升到 0.75(+8.7%),N=2 即超越 Best-of-N 的 N=8 效果。

Two-Stage Learning of Stabilizing Neural Controllers via Zubov Sampling and Iterative Domain Expansion

提出两阶段训练框架——先用 Zubov 采样 + 动态域扩展估计吸引域(ROA),再用 CEGIS 反例精炼——联合学习神经网络控制器和 Lyapunov 函数,ROA 体积比基线大 5 到 \(1.5 \times 10^5\) 倍,验证速度比 dReal 快 40-10000 倍。

Unlabeled Data Can Provably Enhance In-Context Learning of Transformers

提出增强型ICL框架,在prompt中同时包含少量标记样本和大量无标记样本,理论证明多层Transformer通过CoT可模拟EM算法从无标记数据中提取信息,将分类excess risk从 \(\mathcal{O}(1/\sqrt{N})\) 改进到 \(\mathcal{O}(1/\sqrt{N + \text{poly}(M)})\)

Unlocking Multimodal Mathematical Reasoning via Process Reward Model

提出URSA三阶段框架,依次构建百万级多模态CoT数据(MMathCoT-1M)训练基座、双视角过程监督数据(DualMath-1.1M)训练PRM、以及PS-GRPO算法将PRM融入在线RL,8B模型在6个数学基准上平均超越GPT-4o 2.7%。

Value-Guided Search for Efficient Chain-of-Thought Reasoning

本文扩展置信度估计到多步任务,证明步级评估相比整体评估能更有效地检测推理失败,相对整体评估在CoQA上AUC-ROC提升15%,为多步推理系统的可信部署提供实用框架。

VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning

提出 VideoRFT,通过认知启发的多专家 CoT 数据构建流水线和新颖的语义一致性奖励,将强化微调(RFT)范式扩展到视频推理领域,分别构建 VideoRFT-CoT-102K(SFT 用)和 VideoRFT-RL-310K(RL 用)两个数据集,在 6 个视频推理基准上达到 SOTA。

Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought

提出"视觉思维(Visual Thoughts)"作为统一框架解释多模态链式推理(MCoT)的有效性——无论是文本MCoT还是交错图文MCoT,其性能提升的核心机制都是将视觉信息缓存并传递到推理过程中,定义了四种视觉思维表达形式并揭示其在Transformer深层中作为图像-推理中介的角色。

WebThinker: Empowering Large Reasoning Models with Deep Research Capability

WebThinker赋予大型推理模型(LRM)自主的网络搜索与导航能力,通过Think-Search-Draft策略实现推理、信息采集与报告生成的无缝交织,经RL优化后在复杂推理与科学报告生成任务上超越o1与Gemini。