跳转至

💡 LLM Reasoning

🔬 ICLR2026 · 241 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (16) · 💬 ACL2026 (82) · 🧪 ICML2026 (78) · 🤖 AAAI2026 (37) · 🧠 NeurIPS2025 (82) · 📹 ICCV2025 (3)

🔥 高频主题: 推理 ×157 · LLM ×61 · 强化学习 ×17 · 扩散模型 ×6 · Agent ×5

A Balanced Neuro-Symbolic Approach for Commonsense Abductive Logic

ARGOS 让 LLM 和 SAT 求解器互相喂信息:求解器先吐出"已确定为真的文字"(骨架),LLM 据此猜出缺失的常识子句并打分过滤,再丢回求解器,如此迭代补全那些"光看题面推不出答案、缺常识假设"的逻辑题,在多个数据集上比纯神经/纯符号方法最多高 13%。

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

MeRF 把可验证奖励函数用自然语言写进 prompt,作为"游戏规则说明书"在 RL 训练时直接告诉模型优化目标,让大推理模型不再盲目试错,在逻辑/数学推理任务上显著超越 RLVR baseline。

A State-Transition Framework for Efficient LLM Reasoning

提出将 LLM 推理过程建模为状态转移过程的高效推理框架,用 Linear Attention 将历史推理步骤的信息压缩为状态矩阵,使注意力复杂度从 \(O(C^2)\) 降为 \(O(C)\)、KV cache 从 \(O(C)\) 降为 \(O(1)\),同时不缩短 CoT 序列,保持推理能力。额外的动量 momentum 策略缓解了噪声推理步导致的 overthinking 问题。

A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models

PASR 用强化学习(GRPO)训练 LLM 在生成过程中主动决定"是否/何时/如何"精炼自己的推理轨迹(而非生成完再返工),并设计了一套"对比式精炼奖励"鼓励有价值的修正;在 Qwen3-8B 上相比标准生成把平均 token 消耗降低 41.6% 的同时准确率提升 8.2%。

AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy

NVIDIA 系统性拆解了"监督微调(SFT)+ 大规模强化学习(RL)"在打造推理模型时的协同关系——通过扩 SFT 数据、按"熵≈0.3"调 RL 采样温度、分阶段延长回答长度,把一个 7B 模型(AceReason-Nemotron-1.1)刷到了 Qwen2.5-7B 同规模数学/代码推理的新 SOTA(AIME25 64.8、LiveCodeBench v6 52.1)。

ActivationReasoning: Logical Reasoning in Latent Activation Spaces

提出 ActivationReasoning (AR) 框架,在 LLM 的潜在激活空间(通过 SAE 提取的特征)上嵌入显式逻辑推理,通过三阶段流程(发现概念表征→检测激活命题→逻辑规则推理)实现多跳推理、概念组合和安全控制,在 PrOntoQA 上 8B 模型达到 95%+ 准确率超越 GPT-4o。

Adaptive Social Learning via Mode Policy Optimization for Language Agents

提出 Adaptive Social Learning(ASL)框架,设计四种层次化推理模式(从直觉回应到深度推演),并通过 AMPO 算法(融合模式级和样本级优势估计)让 LLM agent 根据社交场景复杂度自适应切换推理深度,在社交智能任务上比 GPT-4o 高 15.6%,比 GRPO 高 7.0% 且 token 用量减少 32.8%。

Adaptive Thinking: Large Language Models Know When to Think in Latent Space

本文提出 Sonata:用一个轻量 MLP 适配器,在 prefilling 阶段从查询的最后一层隐状态直接预测"自一致性",据此在解码前决定一道题该不该思考、思考多少,从而在维持精度的同时把思考 token 砍掉 20%–60%。

Agentic Reinforcement Learning with Implicit Step Rewards

本文提出 iStar,一种面向 LLM 智能体多轮强化学习的通用信用分配策略:用一个隐式过程奖励模型(PRM)和策略模型交替优化,通过多轮 DPO 目标在线学出每一步动作的稠密奖励,再把步骤级优势和 episode 级优势相加去更新策略,在 WebShop、VisualSokoban 和开放式社交 SOTOPIA 上都拿到 SOTA,且样本效率与训练稳定性都更好。

AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent

AgentMath提出一个工具增强的Agent框架,通过自动化数据合成、多轮交互式强化学习和高效异步训练系统,将LLM推理能力与代码解释器的计算精度无缝结合,在AIME24/25和HMMT25上以30B-A3B规模达到SOTA水平(90.6%/86.4%/73.8%),超越o3-mini和Claude-Opus-4.0-Thinking。

Analytica: Soft Propositional Reasoning for Robust and Scalable LLM-Driven Analysis

把复杂分析重构成"估计命题软真值"的问题,用偏差-方差分解作为设计原则:分治拆树降偏差、线性综合规则降方差,得到一个可验证、可扩展、抗噪的 LLM 预测 agent 架构 Analytica。

Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought?

系统评估推理型 LLM 对其 CoT 中各种干预(良性/中性/对抗性)的鲁棒性:发现模型总体鲁棒能从干预中恢复,但改写风格(paraphrasing)会抑制"自我怀疑"表达导致正确率下降,恢复过程有显著计算开销(CoT 膨胀最高 665%)。

Asymmetric Proximal Policy Optimization: Mini-Critics Boost LLM Reasoning

AsyPPO 用两个轻量 mini-critic(在 prompt 级别不重叠的数据分片上训练)替代与 actor 同等大小的笨重 critic,既恢复了 PPO 价值函数的作用又保持 GRPO 级别的开销,并进一步用两个 critic 的"分歧度"信号去做优势屏蔽和熵过滤,在 Qwen3-4B/8B/14B 上稳定超越 GRPO 和经典 PPO。

Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models

AttnRL 用模型自身的注意力分数当"指南针",在推理过程中最关键的步骤上做树分支(而不是按固定长度或熵切分),再配合按题目难度自适应的采样和一步式 off-policy 训练流水线,让过程监督 RL(PSRL)在数学推理上既涨点又省算力——1.5B 上平均提升 7.5%,墙钟时间还比 TreeRL 更短。

ATTS: Asynchronous Test-Time Scaling via Conformal Prediction

提出 ATTS,一个基于 conformal prediction 的异步 test-time scaling 框架,通过将 rejection sampling 重构为假设检验过程来消除同步开销,在 MATH/AIME 等数学推理任务上实现最高 56.7x 加速和 4.14x 吞吐量提升,且无精度损失;1.5B/70B 的 draft/target 组合可达到 o3-mini (high) 的 AIME 水平。

Beyond English-Centric Training: How Reinforcement Learning Improves Cross-Lingual Reasoning in LLMs

作者用 Qwen2.5-3B-Base 做受控对比,首次系统证明:在多语言推理上 RL(GRPO)比 SFT 拥有显著更强的跨语言泛化,而且反直觉地——用非英语(德语/中文)数据做 RL,效果还优于用英语数据,并从「推理时语言不一致、采样探索、语义空间漂移」三个角度给出机制解释。

Beyond Magnitude: Leveraging Direction of RLVR Updates for LLM Reasoning

本文指出过去分析 RLVR 只看更新「幅度」(熵、KL),而真正的关键是更新「方向」——用带符号的逐 token 对数概率差 \(\Delta\log p\) 就能精准定位稀疏但决定推理的 token,并据此提出测试时外推与训练时低概率 token 重加权两种即插即用的增强方法。

Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning

本文用贝叶斯强化学习重新解释 LLM 的"自我反思"行为——把反思看作在 MDP 不确定性下的信息收集,并提出 BARL 算法,通过维护对候选答案的 MDP 假设后验、在信念与奖励反馈冲突时切换策略,从而在数学推理上同时提升准确率和 token 效率。

Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts

提出 Contact Searching Question (CSQ) 框架,基于有向图可达性任务和认知心理学原理设计两个互补统计指标——欺骗意图分数 \(\rho\) 和欺骗行为分数 \(\delta\),首次系统揭示 16 个主流 LLM 在完全良性提示下存在随任务难度升级的自发欺骗倾向。

Beyond Speedup - Utilizing KV Cache for Sampling and Reasoning

把推理时本就存在、却只被用来加速解码的 KV cache 当作"免费的轻量表示"复用,无需额外存储隐藏状态,就能驱动推理路径的自我评估(KV-CoE)和难度自适应的快/慢思考切换(KVClassifier),在几乎零开销下把推理 token 量最多压到原来的 1/5.7。

Bottlenecked Transformers: Periodic KV Cache Consolidation for Generalised Reasoning

给冻结的主干 LLM 外挂一个小型 Cache Processor,在每个推理步结束(换行符)时原地重写 KV 缓存——既"巩固"刚写入的近期条目,又"再巩固"按注意力召回的少量历史条目——用信息瓶颈理论解释为什么这样能提升泛化,在七个数学推理基准上最高 +6.6pp。

C-Voting: Confidence-Based Test-Time Voting without Explicit Energy Functions

针对"反复套用同一层"的循环推理模型,本文提出一种不需要显式能量函数的测试时投票策略 C-voting——从多个随机初始隐状态出发跑出多条轨迹,挑出"平均 top-1 概率最高(即模型最自信)"的那条作为答案;它在 AKOrN 上比能量投票 E-voting 在 Sudoku-hard 高 4.9%,配合一个仅 300 万参数的轻量模型 ItrSA++ 还能在 Sudoku-extreme 上把 HRM 从 55.0% 抬到 95.2%。

CaTS: Calibrated Test-Time Scaling for Efficient LLM Reasoning

通过把自一致性导出的置信度蒸馏回模型本身(Self-Calibration),让 LLM 在一次前向就能给出可靠的置信度,再以此对 Best-of-N / 自一致性等重复采样做"按题难度动态分配算力"的校准式测试时扩展,相同采样预算下显著提升精度、相同精度下大幅省算力。

ChainGPT: Dual-Reasoning Model with Recurrent Depth and Multi-Rank State Updates

ChainGPT 把推理从"生成更多 token"搬进隐空间,通过层内多子步状态更新(RWKV-Product)+ 状态引导稀疏注意力(SGSA)做深层局部计算,再叠加跨层循环深度做迭代精炼,在近线性复杂度下让小模型获得超出固定深度 Transformer 的推理能力。

Characterizing and Mitigating Reasoning Drift in Large Language Models

本文先用数千条数学推理轨迹诊断出大语言模型一种被称为"推理漂移"的失败模式——模型在早期高可塑阶段一旦发生病态的功能状态转移就会被锁死在错误链路上,再据此提出 Reasoning-Aware Activation Steering(RAAS),用一组从对比样本预算好的转向向量在推理时实时把激活轻推回健康路径,在 GSM8K / AIME / GPQA 上稳定提升准确率且能迁移到分布外任务。

Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models

Co-rewarding 提出自监督 RL 框架,通过数据侧(对比改写问题的跨视角一致性)和模型侧(EMA 教师模型提供伪标签)两种互补监督方式,解决自奖励 RL 中的训练崩溃问题,在无人工标签条件下多项数学推理基准上达到甚至超过 RLVR(有标签)的性能。

Compositional Generalization from Learned Skills via CoT Training: A Theoretical and Structural Analysis for Reasoning

本文通过信息论泛化界和可解释性分析证明,CoT 训练的核心机制是组合泛化——模型学会系统性地组合已学的简单技能来解决新颖复杂问题,并内化为两阶段组合推理电路,使中间结果在更浅层提取,释放深层专注于后续推理步骤。

Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models

CANON 不再人为规定「熵越高越好」或「越短越好」这类方向性先验,而是把同一 query 的采样回答按目标指标(熵 / 长度)排序切成两组,用组间比较自动发现「哪个指标趋势更有利于正确率」、用组内比较挑出同趋势里更优的回答,从而在不调惩罚项的前提下放大目标指标的有效影响。

ContextPRM: Leveraging Contextual Coherence for multi-domain Test-Time Scaling

ContextPRM 把过程奖励模型(PRM)的学习目标从"验证某一步是否事实正确"换成"评估相邻推理步之间的逻辑过渡是否连贯",配套提出一套连贯性标注标准与上下文感知训练方法,让仅在数学数据上训练的 PRM 也能泛化到法律、历史、哲学等非数学领域,在 MMLU-Pro 非数学领域上相对多数投票基线取得 6.5% 的平均准确率提升,远超此前 SOTA VersaPRM 的 2.2%。

Continuous Chain of Thought Enables Parallel Exploration and Reasoning

CoT2 提出用连续值 token(词表 embedding 的凸组合)替代离散 token 进行链式推理,使模型能在单次推理中并行追踪多条推理路径,理论证明等价于 K 次 self-consistency/best-of-N 采样,并通过 GRPO 强化学习进一步提升性能。

CORE: Concept-Oriented Reinforcement for Bridging the Definition–Application Gap in Mathematical Reasoning

针对 LLM「能背定义却用不对概念」的问题,CORE 用一本干净的线性代数教材构造概念对齐的题目,在 RL(GRPO)训练中当一组采样全错时注入概念文本来纠偏——可以直接替换失败轨迹(CORE-CR),也可以用前向 KL 把「带概念」的推理分布蒸馏进「不带概念」的策略(CORE-KL),测试时不给概念也能稳定涨点。

CoT-Evo: Evolutionary Distillation of Chain-of-Thought for Scientific Reasoning

CoT-Evo 把"多教师思维链蒸馏"重写成一套遗传算法:先用多个 LLM thinker 加检索知识造出一池子推理轨迹,再用"答案对不对 + 长度合不合适 + 知识用得对不对"的适应度函数打分,靠新颖性驱动选择挑出多样且优质的父代,最后用反思式重组和变异把它们融合改写成一条高质量链,用进化出的数据集微调 7-8B 小模型,在化学/生物两个科学推理 benchmark 上拿到 SOTA。

CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos

提出CoT-RVS,一种完全无训练的多智能体框架,利用预训练MLLM的零样本CoT推理能力进行时间-语义关联分析与关键帧选取,在推理视频分割任务上大幅超越微调方法(Refer-DAVIS J&F 79.1 vs 71.2,ReasonVOS J&F 65.5 vs 49.9)。

Count Counts: Motivating Exploration in LLM Reasoning with Count-based Intrinsic Rewards

针对 GRPO/DAPO 这类无价值函数 RL 在 LLM 推理上"探索不足、过早收敛到重复套路"的问题,MERCI 利用 LLM 生成过程"转移已知且确定"这一性质把不确定性贝尔曼方程化简成只需估计局部奖励方差,再用一个轻量"抛硬币网络"(CFN)估计状态新颖度并转成内在奖励,让策略探索更多样、更连贯的推理路径,在数学和 SQL 基准上稳定超过强基线。

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

提出 E2H Reasoner——把训练数据按难度分解为「平凡/简单/中等/困难」四档,再用一个概率调度器(余弦或高斯)从易到难逐步转移采样焦点,让小模型也能学会原本零样本根本做不出的硬推理任务,并配套给出了 CRL 的收敛性与样本复杂度理论保证。

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

将推理过程中的反思token(如"wait"、"but")视为可调度的"资源",借鉴优化中周期性学习率的思想,提出CyclicReflex——一种免训练的解码策略,通过三角波形动态调控反思token的logit,在多个数学推理基准上(MATH500, AIME2024/2025, AMC2023)一致性提升1.5B-8B模型准确率。

DAG-Math: Graph-of-Thought Guided Mathematical Reasoning in LLMs

将 LLM 的 CoT 推理形式化为 DAG 上的基于规则的随机过程,提出"逻辑闭合性"(logical closeness)度量来评估模型是否通过搜索还是严格逻辑推理得到答案,构建了 2894 个金标准 DAG-MATH benchmark,发现即使 PASS@k 相近的模型在推理忠实度上也存在显著差异。

Deep Think with Confidence

DeepConf 利用大模型生成时自带的局部置信度信号,在并行思考(多采样 + 多数投票)的基础上动态过滤掉低质量推理链:离线时用置信度加权投票 + Top-η% 过滤,在线时用最低分组置信度做早停 + 自适应采样——无需训练、无需调参,在 AIME 2025 上把 GPT-OSS-120B 的准确率推到 99.9%,同时把生成 token 砍掉最多 84.7%。

DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains

DeepCompress 用“简单题压缩、难题探索”的双长度奖励改造大推理模型的 RL 训练,让模型在数学和科学推理上同时提升准确率并显著减少平均推理 token。

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

DeepMath-103K 是一份专为 RLVR(可验证奖励强化学习)打造的大规模数学推理训练集:从 286.9 万条数学论坛原始问题出发,经严格去污染、难度过滤(主体为 5–9 级)和答案可验证性校验,得到 10.3 万道高难度、与主流评测基准几乎无重叠、每题都带可机器校验答案和三条 R1 解答的题目;用它做 RL 训练的模型在 AIME、MATH500 等数学基准上全面领先,并能泛化到生物/物理/化学等非数学推理任务。

DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning

提出 Design Logic(设计逻辑)——从真题中逆向工程出的可复用元知识,用于指导从原始文本合成多学科推理问题。构建了 470 万道覆盖 75 学科的推理题目,SFT 后的 base 模型甚至超越经过完整后训练的官方模型。

Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning

LaMer 用"加入外部知识前后模型输出分布的相对熵"在无标签条件下定位并量化 LLM 的知识缺陷,再按缺陷严重度自适应合成数据、由易到难地课程式微调来修复它们,只用 40% 训练数据就能追平甚至超过依赖标签的诊断方法。

Diversity-Enhanced Reasoning for Subjective Questions

本文提出 MultiRole-R1,通过"角色视角多样性 + token 级多样性"两条线,把多个真实利益相关者立场的推理链合成进一份长 CoT 做无监督 SFT,再用带多样性奖励塑形的 GRPO 强化,让大推理模型在没有唯一正确答案的主观问题上同时提升准确率和多样性,平均涨 10.6% 准确率,还能泛化到 AIME 2024 等客观数学题。

Divide and Abstract: Autoformalization via Decomposition and Abstraction Learning

DNA 是一个无需训练的自动形式化框架,先从整个语料里抽取共性数学概念并把它们形式化成可复用的抽象、扩展目标形式语言,再把每条新命题层级分解成"量词+前提+结论"的子句逐条翻译再组合,在 LeanEuclidPlus 和 ProofNet-Hard 上相对基线最高取得 8.60× 的成功率提升。

DRIFT: Decompose, Retrieve, Illustrate, then Formalize Theorems

DRIFT 把"把自然语言数学命题翻译成 Lean 形式语句"这件事拆成"分解→检索→举例→形式化"四步:先让 LLM 把信息密集的非形式命题拆成一个个聚焦单一概念的原子子查询,逐个检索 Mathlib 里精确的形式定义,再用贪心算法挑几条真正用到这些定义的示例定理把"用法"补上,最后喂给 formalizer 生成形式语句,在 ProofNet 上把依赖检索 F1 几乎翻倍、在 OOD 的 ConNF 上 BEq+@10 暴涨 55 个点甚至反超 oracle。

DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

诊断出 GRPO 在加入长度惩罚后的根本缺陷——正确但冗长的回答可能获得负优势值从而被错误惩罚——提出 DRPO 将正负样本的奖励信号解耦,确保长度惩罚只在正确回答组内归一化,在 1.5B 模型上实现 77% 长度缩减仅 1.1% 性能损失(对比基线 68% 缩减 4.3% 损失)。

Dynamic Early Exit in Reasoning Models

DEER 让大推理模型在思维链的"思路切换点"试着提前作答,用试探答案的置信度判断是否已经"想够了",从而无需训练即可动态早停,在 11 个模型、10 个基准上把 CoT 长度平均压缩 19.1%~80.1% 的同时还提升了 0.3%~5.0% 的准确率。

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

将 RL 微调中每个 prompt 的求解进度建模为隐马尔可夫动力系统,通过轻量贝叶斯推断在线预测 prompt 的求解状态,优先采样"部分求解"的 prompt,以不到 DS 30% 的 rollout 量达到同等甚至更优的推理性能。

e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs

本文指出绝大多数开源推理模型无法把测试时计算"外推"到训练预算之外,并提出 e3 配方——靠链接基座模型的非对称能力 + RL 负梯度 + 耦合课程让模型学会 in-context exploration,使一个 1.7B 模型在 AIME/HMMT'25 上外推到 2.5× 训练预算仍持续涨点,超越所有 ≤2B 模型。

Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning

本文把大推理模型在思维链开头"复述题干"的自发现象(Echo of Prompt, EOP)从训练副产物重新解读为一种内在的注意力重聚焦机制,用拒绝采样框架定义"回声似然差 \(\Delta L\)"量化其概率代价,并据此提出训练版 ED-SFT 与免训练版 Echoic Prompting 两种方法,在多个数学推理基准上稳定提升。

Efficient Test-Time Scaling for Small Vision-Language Models

为小型 VLM 提出两种高效的测试时缩放策略:TTAug(对输入做多种增强后在 token 级别聚合输出概率)和 TTAdapt(用 TTAug 生成的伪标签自适应调整模型参数),在 9 个基准上一致提升性能,同时计算效率远优于现有的基于重复采样的测试时方法。

Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

通过分析 RL 训练动态发现 LLM 推理能力的提升由"低级程序巩固→高级策略探索"两阶段分层机制驱动,并据此提出 HICRA 算法将优化信号集中于高影响的规划 token,在多个数学推理基准上显著超越 GRPO 基线。

Enhancing Language Model Reasoning with Structured Multi-Level Modeling

把单策略的长 CoT 生成重构成"高层规划器出步骤描述符 + 低层执行器写细节"的两层随机过程(MLR),并用 Twisted SMC 构造过程级偏好喂给迭代 Step-DPO,让小模型在有限数据预算下也能稳定做长程推理。

Enhancing LLMs for Knowledge Base Question Answering by Chain-of-Decomposition

本文提出 Chain-of-Decomposition (CoD),借助一张因果图把知识库问答(KBQA)的答案生成分布因式分解为「检索 → 重构 → 推理」三个子任务,其中检索用小模型、重构用规则(两者都不依赖 LLM),只把一个轻量的「推理路径是否成立」的二分类任务交给微调 LLM,结果用 Llama-2 7B 就在 WebQSP / CWQ 上超过了带检索知识的 GPT-4,刷到 SOTA。

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

受认知科学双过程理论启发,提出 RF-Mem 框架,通过 Familiarity(快速相似度匹配)和 Recollection(深层链式重建)双路径自适应切换的记忆检索机制,实现高效且可扩展的 LLM 个性化。

EvolProver: Advancing Automated Theorem Proving by Evolving Formalized Problems via Symmetry and Difficulty

EvolProver 提出一条"对称 + 难度"双视角的形式化语句数据增强流水线(EvolDomain 跨域翻译 + EvolDifficulty 难度演化 + EvolAST 基于 AST 的确定性句法重写),用增强数据训练出一个 7B 的非推理(non-CoT)定理证明器,在 FormalMATH-Lite 上以 53.8% pass@32 刷新同量级 SOTA,甚至超过推理模型。

Executable Counterfactuals: Improving LLMs' Causal Reasoning Through Code

把"反事实推理"重新还原成"溯因→干预→预测"三步,用带隐变量的可执行 Python 函数(和等价的 GSM 数学题)构造必须做溯因才能答对的题目,发现 SOTA 模型从干预到反事实掉点 25–40%,而仅在代码上做 RLVR 能把这三步认知技能泛化到全新控制流和自然语言数学题,SFT 却只会记住浅层模式而无法泛化。

Expanding Reasoning Potential in Foundation Model by Learning Diverse Chains of Thought Patterns

本文首次把基座模型的"推理潜力"形式化为"答对一题所需独立尝试次数的倒数",并提出 CoTP 框架——从 CoT 序列里抽象出原子级推理模式,用"推理模式链 + token 熵链"的双粒度加权 DTW 距离,从海量数据池中精选与高价值核心集对齐的长 CoT 数据,仅用 10B token 就让 85A6B MoE 模型在 AIME 上提升 9.58%、把下游 RL 上限抬高 7.81%。

Explain in Your Own Words: Improving Reasoning via Token-Selective Dual Knowledge Distillation

TSD-KD 让小学生模型「用自己的话」推理:只在响应开头的高熵关键 token 上做蒸馏,结合「教师只对学生候选打分」的间接偏好蒸馏和「专挑学生不确定、教师却确定的 token」的直接蒸馏,再加熵正则,在 10 个推理基准上把 1.5B 学生推到 SOTA,部分任务甚至反超 14B 教师。

Exposing Weaknesses of Large Reasoning Models through Graph Algorithm Problems

提出 GRALGOBENCH——一个用图算法问题(8–160 节点、三类推理范式、九个任务)评测大推理模型(LRM)的基准,借助可程序化验证、可控难度和天然长上下文的特性,系统揭露 LRM 的两大软肋:上下文一长准确率断崖式下跌,以及由大量却低效的自我验证驱动的"过度思考"。

FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning

本文提出 FaithCoT-Bench——首个面向实例级 CoT 不忠实性检测的统一基准,把"这条具体推理链是否真实反映模型内部决策"形式化为二分类判别问题,配套 1000+ 条专家标注轨迹的 FINE-CoT 数据集,并系统评测了 11 种检测方法。

FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning

针对GRPO训练中生成阶段占91%-98%时间的严重瓶颈,提出并发感知的投机解码策略(动态调整draft树参数以适配从高到低的实时并发度变化)和在线draft模型学习(利用目标模型生成的hidden states持续适配分布漂移),整体实现2.35x-2.72x端到端训练加速,且不损害推理质量。

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

FATE 是一套面向研究级抽象与交换代数的 Lean 形式化证明基准,用 FATE-M/H/X 三级难度(从本科习题到超越博士资格考)把当前顶尖证明模型逼到墙角——最好的模型在 FATE-H 仅 3%、FATE-X 为 0%,并通过"自然语言推理 + 形式化"两阶段拆解,指出真正的瓶颈不是数学能力而是把正确的自然语言证明翻译成精确 Lean 代码这一步。

Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning

Fine-R1 通过 CoT 监督微调("视觉分析→候选子类→对比→预测"结构化推理链)+ 三元组增强策略优化 TAPO(类内增强提升鲁棒性 + 类间增强提升判别力),仅用 4-shot 训练即在细粒度视觉识别上超越 CLIP 和通用/推理型 MLLM。

Fixing the Broken Compass: Diagnosing and Improving Inference-Time Reward Modeling

系统诊断推理时奖励模型(RM)的三大失效模式——简单题性能退化、采样数增多时辨别力下降、高搜索多样性损害准确率,并提出 CRISP 算法通过答案聚类的奖励聚合与逐步前缀引导来缓解这些问题,准确率提升最高 5%。

FlowRL: Matching Reward Distributions for LLM Reasoning

FlowRL 把 LLM 推理 RL 从"最大化标量奖励"改成"匹配完整奖励分布"——用可学习配分函数把标量奖励归一化成目标分布,再借 GFlowNets 的轨迹平衡损失最小化策略与目标分布的反向 KL,从而保留多个有效推理模式、缓解模式坍塌,在数学上比 GRPO/PPO 平均高 10.0%/5.1%。

Following the Navigation: Enhancing Small Language Models Contextual Reasoning with LLM Guidance

提出 Navigation——一个免训练框架,把大模型处理复杂上下文的"推理策略"蒸馏成可复用的导航模板存进数据库,用"生成—利用—更新"三阶段引导 3B 小模型定位关键信息,平均提升 10.7% 准确率并反超 GPT-3.5-Turbo。

From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics

提出 ContextMATH 基准,通过将 AIME/MATH-500 抽象数学题转化为情景嵌入(SG)和复杂度缩放(CS)两种变体,揭示即使是 GPT-5 和 DeepSeek-R1 等顶级模型在上下文数学推理中也出现 13-34% 的准确率下降,且错误主要由问题建模(formulation)而非计算推理导致。

From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning

提出 PCE(Planner-Composer-Evaluator)框架,将 LLM 推理链中隐含的环境假设显式提取并组织为决策树,通过似然度-增益-成本评分实现不确定性感知的行动选择,大幅减少多智能体协作中的通信开销。

Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

在固定推理 token 预算下系统拆解"推理数据该放在预训练还是后训练",发现把推理数据前置到预训练能建立 SFT 无法补偿的持久优势,并提出"预训练重多样性、SFT 重质量"的非对称数据分配原则。

FROST: Filtering Reasoning Outliers with Attention for Efficient Reasoning

把推理链里"低注意力、低贡献"的冗余句子定义为推理离群点(reasoning outliers),用 Softmax₁ 替换 vanilla Softmax 并做轻量 SFT,让大推理模型在几乎不掉点甚至涨点的前提下把推理 token 砍掉约 70%。

Generalizable End-to-End Tool-Use RL with Synthetic CodeGym

提出 CodeGym 框架,将编程题自动转化为多轮工具调用的交互式环境,用于 LLM agent 的强化学习训练,在分布外基准上取得显著泛化提升(如 Qwen2.5-32B 在 τ-Bench 上 +8.7 点)。

Generalization in LLM Problem Solving: The Case of the Shortest Path

这篇论文用可控的最短路径合成环境拆解 LLM 问题求解中的泛化来源,发现模型可以把学到的局部规则迁移到未见地图,却会在更长路径上因递归组合不稳定而失败;数据覆盖率决定能力上限,RL 主要稳定训练而不是扩展上限,测试时采样只能抬高曲线但救不了长度外推。

Generalized Parallel Scaling with Interdependent Generations

本文提出 Bridge:把一个 prompt 的 N 条并行采样轨迹看成一个整体 3-D 张量而非独立切片,在每个时间步沿 batch 轴做"跨样本注意力",让 N 条生成互相交换信息,仅加 2.8%–5.1% 参数就把 RLVR 的相对增益最高提升 39%,且训练一次即可泛化到任意生成宽度。

Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning

GAR 把一个 LLM 判别器和 LLM 推理器放进一个类 GAN 的在线对抗强化学习框架里联合训练,用"切片级"的稠密过程奖励补足稀疏的最终答案奖励,在多个数学推理基准上稳定提升 DeepSeek-R1-Distill 系列。

GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs

形式化Program-to-Geometry任务并提出GeoGramBench(500题),按三级几何复杂度分类法评估19个前沿LLM从过程式绘图代码构建几何表征并推理的能力,发现即使GPT-5在最高抽象级别也仅39.26%准确率,揭示了LLM空间抽象的根本性短板。

GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning

GPG(Group Policy Gradient)回归最朴素的策略梯度,直接优化 RL 原始目标——砍掉 critic、reference 模型、KL 约束和 surrogate loss,只保留组内均值归一化加一个梯度去偏修正,就在数学与多模态推理任务上稳定超过 GRPO。

HardcoreLogic: Challenging Large Reasoning Models with Long-tail Logic Puzzle Games

HardcoreLogic 通过"增加复杂度 / 引入罕见元素 / 制造不可解"三类长尾变换,把 10 种逻辑谜题的非典型版本做成 5000+ 道题的基准,揭示出连 GPT-5 这样的顶尖大推理模型也严重依赖对经典题型的记忆套路,遇到变体便大幅掉分。

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

揭示GRPO的优势函数(std归一化)导致更新幅度在中等难度题目处最大、对难题和易题均隐式抑制的问题,提出MathForge框架——DGPO(用MAD替换std实现难度均衡 + softmax难度加权)+ MQR(添加故事背景/抽象术语/嵌套子问题三方面改写增加难度但保留原答案),在Qwen2.5-Math-7B上在6个数学推理benchmark上平均超GRPO +4.56%。

HATSolver: Learning Gröbner Bases with Hierarchical Attention Transformers

把 Transformer 编码器里最贵的 flat 自注意力换成「自底向上局部注意力 + 自顶向下跨层注意力」的层次注意力,利用多项式方程组天然的树状结构把注意力的 \(O(L^2)\) 序列代价压成接近 \(O(L^{1+1/n})\),从而把「用神经网络预测 Gröbner 基」的规模从此前的 5 变量推到 13 变量、稠密度 100%,并在难实例上反超经典符号计算工具 STD-FGLM 和 Msolve。

Hilbert: Recursively Building Formal Proofs with Informal Reasoning

HILBERT 用"通用推理 LLM + 专用证明 LLM + 验证器 + 定理检索器"四件套搭成一个智能体,通过递归把难题拆成子目标、逐层证明再拼回去,把形式化证明的成功率从十几个百分点拉到 PutnamBench 70%、miniF2F 99.2%,第一次让公开模型在形式化证明上逼近通用 LLM 的非形式化水平。

HiPO: Self-Hint Policy Optimization for RLVR

HiPO 把一个训练 batch 里偶然出现的成功轨迹的"前缀"截下来,当作模型给自己的 on-policy 提示(self-hint)去重采样,从而把稀疏的 0/1 奖励变成稠密的对比学习信号,专治 RLVR 中"差一点就对"的 near-miss 问题和探索停滞。

Hybrid Reinforcement: When Reward Is Sparse, Better to Be Dense

HERO 用规则验证器当"门"把奖励模型的连续分数分层归一化(正确组/错误组各自缩放),再用方差自适应加权放大困难 prompt,把稀疏二值验证奖励和稠密 RM 奖励融成一个既稳又细的混合奖励,在数学推理上同时打赢"只用验证器"和"只用 RM"两类基线。

Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization

本文提出 GDPO(Group Diffusion Policy Optimization),用一个低方差、低成本的「半确定性蒙特卡洛」方案高效估计扩散语言模型的序列级 ELBO,从而把 GRPO 风格的 RL 后训练真正落到扩散语言模型上,在数学、规划、代码三类推理任务上稳定超过此前的 diffu-GRPO。

Incentivizing LLM Reasoning via Reinforcement Learning with Functional Monte Carlo Tree Search

RFTT 把 <analyze> <verify> <refine> 等一组可学习的"功能性 token"直接塞进模型词表,先用功能性提示引导的 MCTS 自造带标注的 SFT 数据热身,再让模型在 RL 阶段直接采样功能性 token 做树搜索探索,使 7B/8B 小模型无需任何提示就学会人类式多步推理。

InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models

提出 InftyThink,一种将整体式长推理转化为迭代式短推理+中间摘要的新范式,在不修改模型架构的前提下实现理论上无界的推理深度、显著降低计算成本,Qwen2.5-Math-7B 在 AIME24 上提升11%。

Inpainting-Guided Policy Optimization for Diffusion Large Language Models

利用扩散语言模型独有的「inpainting(填空)」能力,在 GRPO 训练遇到「整组全错、优势归零」时注入部分 ground-truth 推理片段引导探索,从而恢复梯度信号、提升样本效率,在四个数学推理 benchmark 上刷新 full-attention 掩码 dLLM 的 SoTA。

InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning

针对 outcome-reward RL「整条轨迹一起奖惩、无法区分对错步骤」的信用分配难题,本文让模型对照参考答案自我验证、给错误轨迹的第一处错误提出一个单步纠正干预,再用 SFT 把这些干预「打补丁」进基模型后接 RL,在 4B 模型上把 IMO-AnswerBench 准确率提了近 14%,反超 gpt-oss-20b。

Is In-Context Learning Learning?

通过大规模控制变量实验系统分析 ICL 是否构成"学习",发现数学上 ICL 满足学习定义,但实证表明其泛化能力有限——模型主要依赖 prompt 中的结构规律进行模式推演(deduction),而非从示例中真正习得新能力。

Is It Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort

提出 TRACE(Truncated Reasoning AUC Evaluation)方法,通过逐步截断推理链并测量模型"多早"能获得奖励来量化推理努力程度,从而检测 CoT 监控无法发现的隐式奖励黑客行为,在数学和代码任务中比最强 CoT 监控器分别提升 65% 和 30% 以上的检测 F1。

KaVa: Latent Reasoning via Compressed KV-Cache Distillation

KaVa 把教师模型从显式 CoT 算出的 KV-cache 先做冗余-重要性压缩、再直接蒸馏进学生的连续隐式推理轨迹,用"逐步对齐 KV"这一新监督信号补上隐式推理长期缺乏的中间步监督,从而在自然语言推理 trace 上同时拿到 CoT 的精度和隐式推理的效率。

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

LaDiR 用 VAE 把每个推理步骤压缩成一"块"连续的思维 token,再用块级潜空间扩散(flow matching)对这些 token 反复去噪精炼,让 LLM 在语义层面做可迭代修正与并行多样探索,同时在数学、代码、规划任务上一致超越自回归 / 离散扩散 / 潜空间推理基线。

Latent-Guided Reasoning: Empowering Small LLMs with Large-Model Thinking

让大模型只做"认知规划"并把解题策略压成一小撮潜在向量(latent guidance),再交给小模型负责"语言实现"生成推理链,用大模型的思考能力武装小模型,把推理性能-成本权衡推到新平衡点。

Latent Veracity Inference for Identifying Errors in Stepwise Reasoning

把"CoT 每一步是否正确"建模成一组潜在 veracity 变量,用语言模型对「veracity + 最终答案」的联合似然作为代理奖励,通过离散 MCMC 搜索(Veracity Search)做后验推断来定位错误步骤,再把搜索结果蒸馏成一个无需真答案的零样本验证器(AVI),全程不需要逐步人工标注。

Lean4PHYS: Comprehensive Reasoning Framework for College-level Physics in Lean4

本文提出 Lean4PHYS——首个面向大学物理的 Lean4 形式化推理框架,它包含一个带单位系统的社区物理定理库 PhysLib 与一个含 200 道人工形式化题目的评测集 LeanPhysBench,并用实验揭示出"数学专家证明器在物理域上并不比通用大模型强"这一过拟合现象,同时证明把 PhysLib 放进上下文能让模型平均提升 11.90%。

Learning Global Hypothesis Space for Enhancing Synergistic Reasoning Chain

本文提出 GHS-TDA:先把 LLM 采样出的多条推理路径融合成一张「全局假设图」,再用拓扑数据分析(持续同调)从图里抽出稳定的「逻辑骨干」和「自洽闭环」,用结构稳定性而非局部置信度来挑选推理链,从而抑制误差传播、提升准确率与可解释性。

Learning to Reason over Continuous Tokens with Reinforcement Learning (HyRea)

HyRea 让 LLM 在推理时自主在「显式 token 推理」与「隐式 embedding 推理」之间动态切换:通过熵引导的冷启动 SFT 把低熵 CoT 步骤替换成连续 embedding,再用 GRPO 强化学习训练模型学会何时该切到隐空间,从而在数学推理上把输出 token 砍掉约一半而几乎不掉精度。

Learning to Reason via Mixture-of-Thought for Logical Reasoning

本文提出 Mixture-of-Thought(MoT)框架,让单个 LLM 学会用自然语言、代码、以及新引入的"真值表"三种互补的推理范式来做逻辑推理,并通过自演化训练把三种范式的能力联合提升、推理时用多数投票融合,在 FOLIO/ProofWriter 上比单一思维链基线最高提升 +11.7pp。

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

通过分析 RL 与 SFT 在不同难度题目上的训练动态,发现 RL 只擅长把"已会的题做对"而学不会"超纲题",于是提出 ReLIFT——在 RL 主训练中动态识别模型答全错的最难题、在线收集高质量 CoT 解答并穿插少量 SFT 步,用更少的演示数据和训练时间在六个推理基准上平均超越纯 RL/纯 SFT 及各种混合方法 +6.7 分。

Let's Explore Step by Step: Generating Provable Formal Statements with Deductive Exploration

本文提出 DExploration,把数学问题合成从"一次性生成"改成"在 Lean 4 里一步步演绎探索",用三个原子动作(引入变量/假设、演绎新事实、提交结论)边走边验证,从而生成天然可证、覆盖广、难度高的形式化命题;并用 Exploratory Transformation 把已有证明数据蒸馏成探索轨迹来训练智能体,最终把成功率从 40.70% 提到 54.52%,token 成本降 83%。

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

LEXam 把苏黎世大学 340 套真实法学院考试整理成 7,537 道英德双语题(开放问答 + 多选),不只看最终答案对不对,还用专家校准过的集成 LLM 评委去评判模型的多步法律推理过程,揭示当前 SOTA 模型在结构化法律推理上仍大面积翻车。

LingOly-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

提出LingOly-TOO基准,通过专家设计的正字法置换(grapheme-level permutation)对语言学奥赛题进行混淆,保留推理逻辑但消除知识/记忆捷径,将15个前沿模型的最高分从0.59降至0.48,系统量化了LLM推理能力被知识效应高估的程度。

Linking Process to Outcome: Conditional Reward Modeling for LLM Reasoning

CRM 把多步推理建模为「逐步逼近正确答案」的时序过程,用条件概率链式法则把每一步的过程奖励显式锚定到最终结果,从而解决步间依赖缺失与信用分配模糊两大顽疾,在 Best-of-N、beam search 和 RL 三类下游任务上都更稳、更抗 reward hacking。

LoC-Decomp: LLM Autoformalization via Logical Concept Decomposition and Iterative Feedback Correction

LoC-Decomp 用一个类 CoT 的"逻辑概念分解"模板把自然语言数学命题拆成模块化的 Lean 4 组件,再用"分而治之—回译"做细粒度语义一致性自检,并把语义错误与编译器语法错误统一进一个交替迭代修正循环,在 PutnamBench 上把形式化成功率从 SOTA 的 75% 拉到 93.09%。

Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation

LAG 把过往任务的推理轨迹存成「只保留少量 token、但 KV 值编码了完整上下文」的日志,新任务来时检索并拼接这些 KV 值直接复用先前的计算,让 LLM 像人一样从历史经验中学习,在多跳问答和推理任务上同时提升准确率和效率。

LogicReward: Incentivizing LLM Reasoning via Step-Wise Logical Supervision

提出LogicReward奖励函数,用Isabelle定理证明器做步骤级逻辑正确性验证,结合Autoformalization with Soft Unification减少自然语言歧义,训练出的8B模型在NLI和逻辑推理任务上超越GPT-4o 11.6%和o4-mini 2%。

Long Chain-of-Thought Reasoning Across Languages

本文系统性地把长链思维(long CoT)推理能力的跨语言迁移拆解到「缩放、预训练、后训练、推理」四个开发阶段,发现规模放大只能补齐"理解"而补不齐"用目标语言推理",并给出一个反直觉的实操结论:把英文推理轨迹翻译成目标语言来微调,比直接蒸馏目标语言轨迹更有效。

MAGO: Beyond Fixed Hyperparameters with Multi-Objective Pareto Optimization for Hybrid LLM Reasoning

MAGO 把"该不该开启长链推理"这一混合推理问题重写成多目标优化,用 Pareto 前沿维护 + 相关性感知的动态权重,在训练阶段自动平衡准确率、效率与决策校准三个目标,免去手动调超参,推理时零额外开销即可获得 2.2×–3× 的 token 节省。

Making, Not Taking, the Best of N

把 LLM 输出聚合从"从 N 个候选里挑一个最好的"(Best-of-N 选择范式)改成"用一个 fusor 模型把 N 个候选各自的精华合成一个更好的答案"(Fusion-of-N 合成范式),在测试时扩展和合成数据生成两个场景下都稳定超越 BON,甚至能超过 oracle 上界。

Making Slow Thinking Faster: Compressing LLM Chain-of-Thought via Step Entropy

本文提出用"步骤熵"(step entropy)量化 CoT 中每一步推理的信息贡献,发现剪掉 80% 最低熵的步骤几乎不损精度,并设计 SFT+GRPO 两阶段训练让模型在推理时自主插入 [SKIP] token,token 量降低 16–57% 而精度持平甚至提升。

Mathesis: Towards Formal Theorem Proving from Natural Languages

Mathesis 第一次系统地打通「自然语言数学题 → 形式化语句 → 机器可验证证明」整条链路,核心是用在线强化学习(GRPO + 分层偏好优化 HPO)训练出的 autoformalizer,再配上能给出连续语义分的 LeanScorer 评估框架与高难度 Gaokao-Formal 基准。

MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task

借鉴代码补全中的 Fill-in-the-Middle (FIM) 范式,训练一个专门的步骤扩展模型 MathFimer-7B,在已有数学解题链中插入更细粒度的中间推理步骤,从而系统性提升下游模型的数学推理能力。

MetaMuse: Algorithm Generation via Creative Ideation

针对 LLM 在生成系统算法时被"可用性偏差"困在 LRU/LFU 等经典启发式上的问题,MetaMuse 提出三条自我反思原则(在性能反馈空间度量多样性、用外部刺激而非内部随机性引导、用路标推理而非自由 CoT 落地),让 LLM 在不连续解空间中做"创意跃迁",在云厂商真实负载上把缓存缺失最多降 35.76%、装箱用量最多降 30.93%。

Mode-conditioning unlocks superior test-time compute scaling

针对并行采样中"模型坍缩到单一推理策略、重复采样反复犯同样错误"的多样性坍缩问题,本文提出模式条件化(ModC)框架——用专家模型或模式前缀显式地把测试时算力均匀分配到不同推理模式上,从而在数学推理与图搜索任务上把 Pass@k 扩展曲线整体抬高,并带来约 4× 推理效率提升。

MoDr: Mixture-of-Depth-Recurrent Transformers for Test-Time Reasoning

把深度递归 Transformer(Huginn)那条"单一链式"的隐空间循环模块,拆成多条共享主干、各带一个 LoRA 的递归分支,再用一个无辅助损失的硬门路由在生成每个 token 时动态接力选分支,仅训练 <0.2% 参数就把数学/常识推理准确率显著拉高。

MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs

MolecularIQ 是首个完全符号可验证的分子结构推理基准:所有答案都能用 RDKit 从分子图上精确算出,从而把"真正读懂结构"和"记住分子-属性配对"彻底解耦,并沿任务类型、分子复杂度、表示形式三个轴细粒度定位 38 个 LLM 在哪些任务、哪类结构上失败。

mR3: Multilingual Rubric-Agnostic Reward Reasoning Models

提出 mR3,一系列覆盖72种语言的多语言rubric-agnostic推理奖励模型,通过系统化的数据构建(GPT-OSS-120B蒸馏+难度过滤)和课程学习策略训练,14B模型在多语言评估基准上超越120B教师模型及所有同类基线,同时支持point-wise/pair-wise/binary三种评估范式。

∇-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

提出 ∇-Reasoner,将推理时的搜索从零阶(采样+评估)升级为一阶(梯度下降),在 token logits 空间上通过可微文本优化(DTO)结合 reward 梯度和 LLM 似然来迭代改进解码策略,在数学推理任务上提升 10-40% 准确率的同时减少 10-40% 的模型调用次数。

Native Reasoning Models: Training Language Models to Reason on Unverifiable Data

提出 NRT(Native Reasoning Training)框架,将推理链视为隐变量,通过模型自身对参考答案的预测置信度作为内在奖励信号训练 LLM 推理能力,无需外部验证器或专家推理示范;在 Llama-3.1-8B 上 9 个基准平均提升 10.2 分(46.0→56.2),超越需要验证器的 RLPR +5.4 分。

Neural Theorem Proving for Verification Conditions: A Real-World Benchmark

本文提出 NTP4VC——首个面向"验证条件(VC)证明"这一程序验证核心瓶颈的真实世界、多语言(Isabelle/Lean/Rocq)神经定理证明 benchmark,用工业级流水线(Why3/Frama-C)从 Linux/Contiki-OS 等真实项目抽取 600 条 VC,并揭示当前最强 LLM/证明器 pass@8 不足 12%、甚至打不过经典 hammer 的巨大差距。

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

NFT(Negative-aware Fine-Tuning)证明监督学习也能做"验证驱动"的自我提升:通过给负样本构造一个由目标正策略隐式参数化的负策略,把所有自生成答案(对的和错的)统一进最大似然训练,性能追平甚至超过 GRPO/DAPO,并在严格 on-policy 下与 GRPO 梯度完全等价。

Nudging the Boundaries of LLM Reasoning

指出GRPO无法从模型完全无法解决的难题(pass rate=0%)中学习的根本局限,提出NuRL方法在训练时对难题注入自生成的抽象hint(不泄露答案)使其变为可学习样本,跨3个模型6个benchmark一致超越GRPO并真正提升pass@k能力上界。

Off-Trajectory Reasoning: Can LLMs Collaborate on Reasoning Trajectories?

这篇论文提出"离轨推理"(off-trajectory reasoning)这一新问题——多个推理模型能否在同一条思维链上接力协作——并设计 Recoverability / Guidability 这对"双生测试"系统评估了 15 个开源推理 LLM,发现 benchmark 越强的模型反而越容易被干扰跑偏,且几乎所有模型都无法利用更强模型给出的正确引导突破自身能力上限。

On Code-Induced Reasoning in LLMs

这篇论文用一套数据中心的受控实验框架(10 种编程语言的平行指令数据 + 十余种结构/语义扰动 + 5 个模型家族 8 个规模、共 3,331 次实验),系统拆解"代码数据到底是哪一部分在帮助 LLM 推理",得出结论:真正关键的是代码的结构性骨架而非冗长的表层细节,伪代码/流程图等抽象能等价替代代码,甚至被破坏的代码只要保留表层规律性仍然有效。

On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning

提出 Regularized Policy Gradient (RPG) 框架,系统推导并分析了基于 Forward/Reverse KL 散度(归一化和非归一化形式)的策略梯度方法,发现 GRPO 的 KL 项存在理论不一致性,并在数学推理任务上取得优于 GRPO、REINFORCE++、DAPO 的结果。

On The Fragility of Benchmark Contamination Detection in Reasoning Models

系统性研究发现 LRM 的基准污染检测极其脆弱:SFT 阶段引入的污染在经过 GRPO 训练后检测信号几乎消失(PPO 式重要性采样/裁剪是根因),而对高级 LRM 直接用 CoT 做 SFT 污染则几乎不留任何可检测痕迹,现有 10 种检测方法均接近随机猜测。

On the Reasoning Abilities of Masked Diffusion Language Models

本文首次给出掩码扩散语言模型(MDM)推理能力的形式化刻画:证明 MDM 在有限精度对数宽度设定下与「填充循环 Transformer(PLT)」严格等价,能模拟思维链(CoT)所能解的全部问题,并且在可并行问题(如正则语言)上比 CoT 严格更高效——揭示了 CoT 的「顺序性瓶颈」。

On the Thinking-Language Modeling Gap in Large Language Models

本文用结构因果模型刻画"LLM 从人类语言学思考"这一过程,指出语言只是知识的载体而非思维本身,因此训练数据里的表达习惯会把偏差注入模型——当关键信息以"隐式表达"出现时 LLM 会忽略它,并提出一个 prompt 级干预 LoT(observe / expand / echo)在 11 个任务、4 个代表性 LLM 上缓解这种偏差。

Once-More: Continuous Self-Correction for Large Language Models via Perplexity-Guided Intervention

Once-More 是一个免训练、模型无关的推理时自我纠错框架:在生成过程中按"单元"(句子/公式/代码块)实时算困惑度,对高不确定性单元触发 Verifier 检查,被拒绝的单元用"反馈 + 困惑度引导的 logit 重分配"重新生成,从而在错误传播之前就把生成轨迹掰回正轨,在 AIME / GPQA / LiveBench 等多个推理 benchmark 上超过 Self-Refine、CRITIC 等代表性自纠方法。

OpenEstimate: Evaluating LLMs on Reasoning Under Uncertainty with Real-World Data

OpenEstimate 是一个让前沿大模型在真实世界数据上"凭脑子估概率分布"的评测基准:把公开观测数据集随机切片得到 178 个派生条件统计量作为真值,让模型把对这些量的信念表达成贝叶斯先验,再用准确度和校准度去衡量——结果发现六个前沿模型给出的先验大致只值"从真实分布里采 5 个样本",且置信度与准确度几乎不相关。

OpenThoughts: Data Recipes for Reasoning Models

作者用 1000+ 组受控实验把"推理模型 SFT 数据该怎么造"这件事拆成六个流水线阶段逐个消融,得出一套简单却反直觉的数据配方(少而精的题源 + LLM 难度/长度筛题 + 每题采 16 次答案 + 跳过答案验证 + 用更弱的 QwQ-32B 当教师),据此造出 OpenThoughts3-1.2M 数据集并训出 OpenThinker3-7B,在 AIME25/LiveCodeBench/GPQA 上分别比 R1-Distill-7B 高出 15.3/17.2/20.5 个百分点,成为同规模开源数据 SOTA。

Optimal Aggregation of LLM and PRM Signals for Efficient Test-Time Scaling

这篇论文用 MAP 估计证明:把 LLM 的多数共识和 PRM 的打分最优地合在一起,等价于一次加权多数投票,并发现最优权重高度依赖具体的 LLM-PRM 组合、且对低分回答应给负权重;据此提出几种廉价的离线校准方法去近似这个权重函数,用约 21.3% 的算力就超过原始加权投票的表现。

OptimalThinkingBench: Evaluating Over and Underthinking in LLMs

本文提出 OptimalThinkingBench,用一个统一基准同时度量 LLM 在简单题上的「过度思考」(生成几百个思考 token 却不提升准确率)和在难题上的「思考不足」,并用 thinking-adjusted accuracy + F1 把两者合成单一分数;对 33 个模型的评测显示没有任何模型能同时做好两端,现有提效方法也几乎都是按下葫芦浮起瓢。

OR-PRM: A Process Reward Model for Algorithmic Problem in Operations Research

针对运筹优化(OR)建模任务,作者发现现有 OR 数据集超过 30% 的标注严重错误,导致直接训练的 PRM 几乎失效;他们先用三阶段校验清洗出干净种子数据,再用 MCTS + GPT-4o 构造首个带步级正误标注的 OR-ProcessQA 数据集,训练出首个面向 OR 的生成式过程奖励模型 OR-PRM,在 Best-of-N 设置下让基座模型平均提升约 12.5%。

Overthinking Reduction with Decoupled Rewards and Curriculum Data Scheduling

从理论上揭示了现有长度惩罚方法的两个根本缺陷——错误惩罚高熵探索token和错误奖励冗余token,提出 DeCS 框架,通过解耦token级奖励和课程批次调度,在7个基准上将推理token减少50%以上同时保持甚至提升模型性能。

PEAR: Phase Entropy Aware Reward for Efficient Reasoning

本文发现大推理模型(LRM)的 token 熵与回复长度正相关、且「思考阶段」熵远高于「最终答案阶段」,据此提出 PEAR——一个把分阶段熵塞进 GRPO 奖励里的奖励机制:惩罚思考阶段的过高熵、对答案阶段保留适度探索,在六个 benchmark 上把回复长度砍掉 32%–57% 而准确率几乎不变(掉点 <1%),且对训练分布外任务有很强鲁棒性。

PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning

PERK 把长上下文推理重新表述为「测试时学习」:推理时不再把超长文本塞进上下文窗口,而是用梯度下降把上下文「写进」一个 LoRA 适配器里,再让模型从这块参数化记忆中回忆并推理;配合元学习两层循环与截断梯度展开,0.5B 的 Qwen 就能在长上下文推理上把同规模 in-context 微调基线平均拉高约 20%,并超过专门训练过的 7B+ 长上下文模型。

Plan-Answer-Refine-on-Graph: Structured Planning and Self-Refinement for Large Language Model Reasoning on Knowledge Graphs

PARoG 用 SPARQL 查询作监督信号训练一个小规划器把复杂问题拆成可组合的结构化子目标,再用「先答—检索—自精炼」的循环让 LLM 先凭参数知识试答、再用图谱证据纠错,在 WebQSP / CWQ / GrailQA 上显著超过 PoG 等 SOTA,尤其在合取、比较、最高级这类复杂逻辑查询上提升巨大。

Plan and Budget: Effective and Efficient Test-Time Scaling on Reasoning LLMs

提出 Plan-and-Budget 框架,通过将复杂查询分解为子问题并基于估计复杂度自适应分配 token 预算,实现推理 LLM 的高效测试时缩放——最高提升 70% 准确率、减少 39% token、E3 指标提升 193.8%。

Predicting LLM Reasoning Performance with Small Proxy Model

提出 rBridge,通过使用 frontier 模型的推理 trace 作为 gold label 并按 token 级任务对齐加权 NLL,使 ≤1B 的小模型能有效预测 13B-32B 大模型的推理性能,在数据集排名任务中实现 100× 以上的计算节省。

Premise Selection for a Lean Hammer

本文提出神经前提选择器 LeanPremise(对比学习训练的句子编码器)并把它接入 Aesop / Lean-auto / Duper,造出 Lean 上第一个端到端通用 hammer 工具 LeanHammer,相比现有前提选择器多证明 21% 的定理,并能泛化到训练时没见过的库。

Probing to Refine: Reinforcement Distillation of LLMs via Explanatory Inversion

这篇论文指出蒸馏出来的小模型会"放大"泛化缺陷(只记套路、一换方向就崩),于是用"解释性反演"生成逼学生讲清底层逻辑的探针,再用带"对话结构效用奖励"的 ExGRPO 强化学习把这些探针串成多轮对话去精炼学生,12 个数据集上让 Gemma-7B 平均比零样本涨 20.39%、比最强蒸馏基线涨 6.02%。

Process-Verified Reinforcement Learning for Theorem Proving via Lean

本文把 Lean 证明助手本身当作"符号过程预言机",从它的 elaboration 反馈中同时抽取整证明级(outcome)和逐 tactic 级(process)的可验证奖励,配合 first-error 传播和 first-token 信用分配注入 GRPO,让形式化定理证明的 RL 在 MiniF2F / ProofNet 上比仅用二值结果奖励的基线更稳更高(MiniF2F pass@64 +2.5%p)。

ProofBridge: Auto-Formalization of Natural Language Proofs in Lean via Joint Embeddings

ProofBridge 把"自然语言定理+证明 → Lean 4 定理+证明"整条形式化任务统一起来:先训一个把 NL 和 Lean 证明(按 DAG 结构编码)对齐到同一语义空间的联合嵌入模型,用它跨模态检索相似的 Lean 证明作为示范来做检索增强微调与推理,再配一个靠 Lean 类型检查 + 语义等价判定的迭代修复回路,在自建的 MINIF2F-TEST-PF 上比 Kimina-Prover-RL-1.7B 基线高出 +31.14% 语义正确率。

ProofFlow: A Dependency Graph Approach to Faithful Proof Autoformalization

ProofFlow 把自然语言证明先拆成一张刻画步骤依赖关系的有向无环图(DAG),再把每一步形式化成一条带显式依赖的高层 Lean 4 引理,从而在"语法正确"之外额外保住原始论证的逻辑结构,并配套提出综合评测指标 PROOFSCORE 和 184 题的大学级基准 PROOFFLOWBENCH,把自动形式化质量从基线的 0.279 推到 0.545。

ProofOptimizer: Training Language Models to Simplify Proofs without Human Demonstrations

ProofOptimizer 是第一个不需要任何人工化简示范就能学会缩短 Lean 证明的 7B 语言模型:它用「符号 linter + 7B 模型 + 迭代化简」三件套,靠 Lean 编译器自动验证、用专家迭代和 RL 自举训练,把 SOTA 神经证明器生成的冗长证明在 miniF2F 上平均压缩 87%、PutnamBench 上 57%、Seed-Prover 的 IMO 2025 证明上 50%,且化简后的证明编译更快、回流当训练数据还能反过来提升证明器性能。

Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization

这篇论文提出 LCPO(Length Controlled Preference Optimization),仅用 0.8k 条偏好样本、50 步训练,靠"挑模型自己已经会做的简单题、把最短回答当 chosen、最长当 rejected"的纯长度偏好做离线对齐,把 DeepSeek-R1-Distill 系列推理模型的平均输出长度砍掉 50%+ 而几乎不掉精度。

Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

针对中资源语言(韩语)缺乏长推理模型的问题,本文提出 Language-Mixed CoT——让模型在思考时以英语为"锚"做逻辑推演、同时保留韩语关键术语,再配上自采的 5.79M 原生韩语 prompt 与高产子集蒸馏,仅用 SFT 就训出 KO-REAson-35B,在 9 个韩语 benchmark 上取得最高平均分 64.0,且小模型平均提升 +18.6 分。

Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning

本文把 value-free RL(GRPO/DAPO)里用「组内均值」当优势基线的做法换成「组内 K-分位数」基线(QAE),用一个超参 \(K\) 在硬题上奖励稀有正确、在易题上惩罚残余错误,并证明这能同时防住熵塌缩与熵爆炸,在 AIME/AMC 数学推理上稳定地提升 pass@1。

R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

本文提出 R-HORIZON:通过把多道独立题目用「答案依赖」串成一条必须顺序求解的长链,既造出一个能压垮当前最强大推理模型的长程推理基准,又把同样的组合数据喂给 RLVR 训练,结果不仅大幅提升多题连解能力,连单题成绩也跟着涨(AIME2024 +7.5)。

Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards

作者发现数学推理的 RLVR 其实是一个"确定性转移 + 树状结构 + 二值终局奖励"的简化 MDP,在这种结构下只需评估一个固定的均匀随机策略的 Q 值、再按 softmax 采样,就能跳过 PPO/GRPO 那套"评估-改进"循环和一堆启发式 trick,得到既高质量(pass@1 +8.2、pass@256 +16.8)又高多样性(+20.5%)的推理策略。

Reasoning Scaffolding: Distilling the Flow of Thought from LLMs

本文提出 Reasoning Scaffolding,不再让小模型逐字克隆教师的文本 rationale,而是先把教师的长思维链抽象成一串离散、可解释的「语义信号」(如对比、补充、结论)当作脚手架,再用「预测下一个信号 + 在信号引导下生成下一步」的双任务目标训练学生模型,从而把推理的算法结构而非表面文字迁移给小模型,在 GSM8K、StrategyQA 等基准上准确率与逻辑一致性都显著超过现有蒸馏方法。

Reasoning with Sampling: Your Base Model is Smarter Than You Think

本文提出一种免训练、免数据集、免验证器的测试时采样算法:用 MCMC(Metropolis-Hastings)近似地从基座模型自身似然的"幂分布" \(p^\alpha\) 中采样,在 MATH500、HumanEval、GPQA、AlpacaEval 等单样本推理任务上把基座模型的表现拉到与 GRPO(RL 后训练)相当甚至更好,同时不损失多样本(pass@k)多样性。

Rectifying LLM Thought from Lens of Optimization

本文把长思维链(CoT)的推理过程类比成一次"梯度下降",提出 REPRO:用模型对正确答案的对数似然作为代理目标函数,沿推理轨迹打两个分(增量分 + 稳定分)合成过程级奖励,插进 RLVR 训练,从而在数学/科学/代码多个 benchmark 上一致提升推理精度并显著压缩"过度思考"的冗余 token。

Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

针对"每条数据只给一个优化后参考分子、没有中间推理轨迹"的指令式分子优化任务,本文提出 RePO:在 GRPO 式可验证奖励强化学习的基础上,加一个只作用在答案 token 上的"参考引导项",让模型在保持自由探索化学编辑空间的同时把输出锚定到参考分子,从而缓解早期奖励稀疏、显著提升"成功率×相似度"指标。

ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

提出 ReForm,一种反思式自动形式化范式,将自然语言数学问题转为 Lean 形式声明的过程从一次生成转变为"生成 → 语义自验证 → 修正"的迭代循环,并设计 PBSO 算法优化异构奖励信号,在四个基准上比最强基线平均提升 22.6 个百分点。

Reinforcing General Reasoning without Verifiers

本文提出 VeriFree——一种不需要任何验证器的 DeepSeek-R1-Zero 式强化学习方法:它不再判断模型答案对错,而是直接最大化「在模型自己生成的推理链条件下,参考答案被生成的概率」,从 RL 目标里严格推导出来,把 R1-Zero 训练从数学/代码扩展到化学、医疗、法律等无法规则判分的通用推理领域,且在 MMLU-Pro、GPQA、SuperGPQA 上追平甚至超过带验证器的方法。

RESTRAIN: From Spurious Votes to Signals — Self-Training RL with Self-Penalization

RESTRAIN 把"没有金标签"这件坏事变成训练信号:在 GRPO 上叠加伪标签加权、负 rollout 惩罚、prompt 级加权三层自惩罚机制,让模型不再盲信多数投票,从而在无标签数据上把 Qwen3-4B 的平均 Pass@1 推到 51.0%,几乎追平用金标签训练的 GRPO 上界(51.4%)。

Rethinking LLM Reasoning: From Explicit Trajectories to Latent Representations

针对慢思考推理模型动辄上千 token 的"过度思考"问题,本文先实证发现推理轨迹高度冗余(随机删 50% token 准确率仅掉 2 个点),进而提出 Latent Reasoning Tuning(LRT):用一个轻量推理网络 \(G_\phi\) 通过一次前向把输入映射成固定长度的隐式 latent 推理 token,替代逐 token 自回归生成的显式推理链,在数学与跨域基准上稳定超过现有高效推理方法,并胜过 Qwen3 的非思考模式。

Retrieval-of-Thought: Efficient Reasoning via Reusing Thoughts

把过往推理过程拆成可复用的「思维步骤」存进一张思维图谱,推理时检索并用奖励引导遍历动态拼出一份问题专属模板塞进 <think> 标签引导生成,在几乎不掉精度的前提下把输出 token 最多砍 40%、延迟砍 82%、成本砍 59%。

Reverse-Engineered Reasoning for Open-Ended Generation

针对"深度推理在开放式创作任务上无法落地"的难题,本文提出 REER(逆向工程推理)——不再正向地用 RL 试错或蒸馏去"造"推理过程,而是从已有的高质量答案"倒推"出能生成它的隐式思维链,用困惑度作为质量代理、以无梯度局部搜索合成 2 万条深度推理轨迹(DeepWriting-20K),训出的 8B 模型 DeepWriter 在写作 benchmark 上比肩甚至超过 GPT-4o 与 Claude 3.5。

RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models

提出推理忠实度(Reasoning Faithfulness)的形式化定义(立场一致性 + 因果影响),构建 7,186 实例/7 任务的 RFEval 基准,通过输出层反事实推理干预评估 12 个开源 LRM,发现 49.7% 的输出不忠实,且 RL 后训练会降低忠实度、准确率不是忠实度的可靠代理指标。

RL of Thoughts: Navigating LLM Reasoning with Inference-Time Reinforcement Learning

RLoT 把 LLM 的多步推理建模成一个马尔可夫决策过程,用强化学习训练一个不到 3K 参数的「导航器」,让它在推理过程中根据当前状态动态挑选并拼接五个认知启发的「基本逻辑块」,从而为每道题现场生成专属的逻辑结构——在 AIME/MATH/GPQA 等基准上最高提升 13.4%,并能让 sub-10B 模型逼近 10× 规模的大模型。

RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems

本文提出"推理抽象"(reasoning abstraction)——用自然语言写成的、可跨问题复用的过程性/事实性知识片段,并设计 RLAD 这套双玩家 RL 范式,联合训练一个"抽象生成器"和一个"抽象条件解答生成器",让模型先提议抽象再据此解题,在 AIME 2025 上相比纯长链思维 RL(DAPO)平均提升 44%。

ROC-n-Reroll: How Verifier Imperfection Affects Test-Time Scaling

本文用经典的 ROC 曲线,给出"不完美验证器下 Best-of-N 与拒绝采样到底能扩展到多好"的精确理论刻画,并证明两个反直觉结论:固定算力下拒绝采样优于 Best-of-N,且无法从低算力表现外推高算力表现。

Sample Lottery: Unsupervised Discovery of Critical Instances for LLM Reasoning

本文提出"彩票样本假设"——RLVR 训练集中存在一个极小子集,单独用它训练就能逼近全量数据的效果,并设计了无监督选样框架 CONST:用"程序波动性 + 结果波动性"刻画每道题的潜在价值,再用共形预测集的大小作为筛选标准,仅标注和训练 < 0.5% 的样本就达到接近全量数据的推理性能,平均超过各类基线 10.97%。

Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs

这篇论文指出推理任务里"低置信度步骤=值得多探索"是一个错误直觉,主张解码截断应该按 token 的"正确率"而非"概率"来校准:在置信度极低时直接退化为贪心(Greedy-Threshold),并用一张无需训练的校准网格把概率映射到正确率来动态设截断阈值(Calibrated-TopK / Calibrated-ε),在多个推理 benchmark 上稳定涨点,AIME 最多提升约 6%。

Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning

提出 Scaf-GRPO 框架,通过分层级的 in-prompt hint 注入(知识→规划→解题步骤)来克服 GRPO 训练中"学习悬崖"(zero-reward)问题,在 Qwen2.5-Math-7B 上将 AIME24 的 pass@1 相对提升 44.3%,同时保持 on-policy 训练一致性。

Elastic Reasoning:通过弹性推理实现可扩展的思维链

本文提出 Elastic Reasoning:把推理输出显式拆成"思考段"和"解答段"并分别分配 token 预算,配合一个把"思考被截断后还能答对"练进模型的预算受限 rollout(集成进 GRPO),让大推理模型在严格的 token 预算下依然稳定给出完整解答——训练成本仅为 L1 的零头,且即使不限预算也能让推理变得更短更高效。

Scaling Generalist Data-Analytic Agents

提出 DataMind——一套完整的数据分析 Agent 训练方案,通过细粒度任务分类+递归难度组合实现多样 query 合成、知识增强轨迹采样+自一致性过滤保证数据质量、SFT+RL 动态混合训练策略以及内存友好的异步 rollout 框架,训练出的 DataMind-14B 以 71.16% 平均分在多个基准上 SOTA,超越 GPT-5 和 DeepSeek-V3.1。

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

提出 SceneCOT,首个将 Chain-of-Thought 推理引入 3D 场景理解的框架,通过四阶段推理管线(任务识别→区域定位→实体接地→接地推理)将中间推理步骤显式关联到视觉 grounding,在 Beacon3D 上 Good Coherence 达到 34.7%(比最强 baseline 的 20.4% 高出 70%+)。

SCI-Verifier: Scientific Verifier with Thinking

针对科学推理答案"形式多样、等价表达难判"的痛点,本文同时从数据和模型两侧出手:构建覆盖数理化生与通用 QA 五大学科、带等价变换的跨学科验证基准 SCI-VerifyBench,并用 SFT+RL 两阶段后训练出一个"带简洁思考"的验证器 SCI-Verifier,8B 版本在科学验证任务上追平闭源 SOTA 模型 GPT-5。

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

提出SealQA挑战基准(含Seal-0/Seal-Hard/LongSeal三种变体),每道题均经NLP研究者精心设计以触发歧义/冲突/噪声搜索结果,GPT-5最高仅43.2%准确率,揭示test-time scaling在噪声检索下不产生可靠增益。

Segment-Level Attribution for Selective Learning of Long Reasoning Traces

用Integrated Gradients计算长推理链中每个segment对最终答案的归因强度和方向一致性,识别重要segment进行选择性SFT,相比全CoT训练提升准确率达4.7%同时缩短输出18%。

Selection, Reflection and Self-Refinement: Revisit Reasoning Tasks via a Causal Lens

这篇论文把 Sudoku、Maze、ARC 这类推理任务解释为因果选择机制下的潜变量约束满足问题,并提出 SR2 用反思式表示学习、依赖自我精炼和周期性中间对齐来迭代修正潜表示,在更少参数下显著提升结构化推理准确率。

Semantic Voting: A Self-Evaluation-Free Approach for Efficient LLM Self-Improvement on Unverifiable Open-ended Tasks

针对翻译、摘要这类「答案对不上字面、又没有可验证奖励」的开放式任务,本文提出 语义投票(semantic voting):用一个轻量句向量模型把模型自采样的若干候选答案两两算语义相似度、给每个候选打「与共识的对齐分」,直接挑出最高分/最低分组成 DPO 偏好对,全程不让 LLM 给自己当裁判,从而以自评方法千分之一到百分之几的算力拿到相当甚至更稳的自我提升效果。

ShinkaEvolve: Towards Open-Ended and Sample-Efficient Program Evolution

ShinkaEvolve 用「父代加权采样 + 代码新颖性拒绝采样 + Bandit 式 LLM 集成选择」三件套,把 LLM 驱动的程序进化从动辄数千次评估压到 150 次,并在圆填充、AIME agent 脚手架、ALE-Bench 竞赛编程、MoE 负载均衡损失四个领域上做到 state-of-the-art。

SIM-CoT: Supervised Implicit Chain-of-Thought

SIM-CoT 发现隐式思维链在增加推理 token 时会因缺乏细粒度监督而发生潜在表示坍缩,于是在训练阶段引入一个"用得完即弃"的辅助解码器,把每个隐式 latent 对齐到对应的显式推理步骤,从而稳定训练、丰富语义,在 GPT-2 上把 Coconut 提升 +8.2% 并首次让隐式 CoT 反超显式 CoT,推理时却不增加任何开销。

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

SimpleTIR 发现多轮工具集成推理(TIR)的 RL 训练崩溃根源在于工具反馈引入的低概率 token 累积,并提出一个即插即用的轨迹过滤策略——丢弃含「空转轮(void turn)」的整条轨迹——从而稳住梯度,把 Qwen2.5-7B base 的 AIME24 从纯文本基线 22.1 拉到 50.5。

SkillFactory: Self-Distillation for Learning Cognitive Behaviors

SkillFactory 用基座模型自己采样的对错解 + 自我反思,重排成带 <sample>/<reflect>/<verdict> 标签的"银级"轨迹做 SFT,给模型预装"验证—重试"等认知技能,再用 GRPO 强化——不依赖更强教师模型,就能让 RL 后的模型在更难任务变体和跨域任务上更强、更抗遗忘。

SLM-MUX: Orchestrating Small Language Models for Reasoning

本文发现「让模型互相讨论纠错」的编排方法在小语言模型(SLM)上不仅无效甚至掉点,转而提出无需训练、无需文本交互的 SLM-MUX——各 SLM 独立采样、按自一致性置信度选最终答案,再配上模型选择搜索与测试时扩展两套优化策略,仅用两个 SLM 就在 GPQA/GSM8K 上超过 Qwen2.5-72B。

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

提出 SFPO(Slow-Fast Policy Optimization),通过将每个训练步分解为"快速轨迹—重定位—慢速校正"三阶段结构,在不修改目标函数和 rollout 过程的前提下即插即用地增强 GRPO 的稳定性和样本效率,在数学推理基准上平均提升最高 2.80 分,rollout 减少最多 4.93 倍。

Smarter Not Harder: Generative Process Evaluation with Intrinsic-Signal Driving and Ability-Adaptive Reward Shaping

针对生成式过程奖励模型(GenPRM)做 RL 时三大隐患——判分依赖推理能力、密集步奖励触发 reward hacking、静态奖励压制探索——本文提出"用解题轨迹里的内在语义信号(反思/匹配)来判对错"+"把连续同对错的步合并成 thought 再发奖"+"按当前难度自适应缩放奖励",整合进过程监督 GRPO 得到 TP-GRPO,在 1.5B/7B 模型上用 5× 更少的样本超过 outcome-only GRPO。

Soft Tokens, Hard Truths

这篇论文提出一种不用离散 CoT 标注、只在连续 CoT embedding 上加噪声就能用 RL 训练的 soft/fuzzy token 方法,在数学推理上保持 pass@1 接近离散 CoT,同时显著改善 pass@32 多样性和域外能力保持。

Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning

提出 CAPO(Curvature-Aware Policy Optimization),通过在 LM head 最后一层建模二阶优化几何来预测并过滤会导致策略崩溃的 token 更新,在激进超参数(5× 学习率、1/12 batch size)下仍保持训练稳定,实现 MATH 上相较标准 GRPO 的 30× 样本效率提升。

STAT: Skill-Targeted Adaptive Training

用一个更强的 LLM 当"老师",先诊断学生模型在数学题上到底缺哪些技能,再据此重加权或合成训练数据做 SFT,让在 MATH 上已经"练饱和"的小模型继续涨点(MATH 最高 +7.5%、OOD 平均 +4.6%),而且和后续 GRPO 强化学习互补叠加。

StepORLM: A Self-Evolving Framework with Generative Process Supervision for Operations Research Language Models

StepORLM 让一个 8B 策略模型和一个生成式过程奖励模型(GenPRM)在自进化循环里互相打磨:策略采样的每条建模轨迹同时接受"求解器结果验证"和"GenPRM 全局过程批判"两路反馈,再用加权 DPO 对齐策略、用 SFT 精炼 GenPRM,最终在六个运筹基准上以小模型刷出 SOTA,且 co-evolved 的 GenPRM 还能当通用推理时验证器。

Strategic Scaling of Test-Time Compute: A Bandit Learning Approach

把"给一批 query 分配测试时计算预算"建模成一个全自适应的纯探索式 bandit 问题,用"边采样边估难度 + 答对就淘汰"的消除算法,在固定预算下把算力优先投给最可能受益的难题,理论上证明比均匀分配高效得多,实测在 MATH-500 / AIME25 / LiveCodeBench 上最高提升约 11%。

StreamingThinker: Large Language Models Can Think While Reading

StreamingThinker 让 LLM 像人一样"边读边想"——在输入逐句到达时就同步生成顺序对齐的推理片段、读完后再按需加深思考,通过流式 CoT 数据构造 + 流式注意力掩码/位置编码训练 + 并行 KV cache 推理三件套,在数学/逻辑/上下文 QA 推理上保持与传统"读完再想"相当的准确率,却把开始推理前的等待 token 砍掉约 80%、首答延迟降低 60% 以上。

String Seed of Thought: Prompting LLMs for Distribution-Faithful and Diverse Generation

本文提出 String Seed of Thought(SSoT),一种简洁的提示方法,通过指示 LLM 先生成随机字符串再从中提取随机性来选择答案,显著提升了概率指令跟随(PIF)的分布忠实度和开放式任务(DAG)的响应多样性,理论证明了 TV 距离随字符串长度指数衰减,实验表明推理型 LLM 的表现接近伪随机数生成器。

Structured Reasoning for LLMs: A Unified Framework for Efficiency and Explainability

这篇论文把 LLM 的推理过程显式拆成带标签的「步骤」并建模成一张有向图,再用「最大流奖励」和「最长公共子序列奖励」两个结构感知的算法去扩展 GRPO,让 DeepSeek-R1-Distill-Qwen-1.5B/7B 在更短上下文下推理得更简洁、更稳、更可解释,且超过 GRPO 等调过参的基线。

T1: Tool-Integrated Verification for Test-Time Compute Scaling in Small Language Models

小模型在测试时扩展里当验证器时,会因记不住算术/事实而误判,T1 用「先让代码解释器等外部工具过滤掉算错的候选、再让奖励模型打分」的两阶段验证,把记忆密集的活外包给工具,让 Llama-3.2-1B 在 MATH 上反超 Llama-3.1-8B。

Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking

把"用过程验证器引导语言模型生成"重新理解成"在生成树上做一次随机游走",并引入概率化的回溯(偶尔擦掉已生成的 token),从而即使验证器(价值函数)存在估计误差,也能证明性地避免误差沿生成长度被放大,最终在多项分布保真度指标上稳定优于不带回溯的逐动作采样。

TATTOO: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

针对通用 PRM 在表格推理上"看不出子表检索对不对、抓不住远距离 schema 依赖"的盲区,本文提出 TATTOO——一个把奖励拆成"表操作奖励 + 内在推理奖励"、并在验证过程中真的调用代码/查表工具的生成式 PRM;用 6 万条工具增强标注做 SFT 冷启动再加 RL 奖励塑形,仅 8B 参数就在 5 个表格推理 benchmark 上把下游策略模型平均提升 30.9%,超过 72B 的 Qwen2.5-Math-PRM。

Temperature as a Meta-Policy: Adaptive Temperature in LLM Reinforcement Learning

提出 TAMPO(Temperature Adaptive Meta Policy Optimization),将采样温度重新定义为可学习的元策略,通过双层循环在内环做 LLM 策略优化、外环根据轨迹优势信号自适应更新温度分布,无需额外 rollout,在数学推理基准上一致超越固定温度基线。

Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts

本文发现扩散语言模型(dLLM)在训练时隐式学到了一组"半自回归专家",不同的 block 解码顺序会激活不同专家;据此提出免训练推理方法 HEX,用多种 block 调度跑出多条生成路径再多数投票,在 GSM8K 上把准确率从 24.72% 提到 88.10%,甚至超过用 GRPO 强化微调过的模型。

Test-Time Scaling with Reflective Generative Model

本文提出反射式生成模型(RGM),让一个网络既当策略模型生成推理轨迹、又当过程奖励模型给轨迹打分——只额外加 50M 参数的 SPRM 头,并用自监督的 SPR Loss 摆脱过程级标注,使 32B 模型在 AIME24(84.2 vs. 79.6)上超过 OpenAI o3-mini,且打分性能胜过 72B 级奖励模型。

\(\textbf{Re}^{2}\): Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

本文提出 Re² 方法,通过纯强化学习训练 LLM 学会在推理过程中主动放弃无效思维链并重新开始求解,将罕见的 redo 行为从 0.5% 提升至 30% 以上,在相同训练计算预算下显著超越标准 RLVR 方法。

The CoT Encyclopedia:分析、预测并控制推理模型的思考方式

本文提出 CoT Encyclopedia,一个自下而上、数据驱动的框架:从模型自己生成的长思维链里自动挖掘推理策略维度、聚类成可解释的对比式 rubric,再用它预测并主动引导模型采用更优策略——在 5 个基准上把准确率/安全率提升了 12.2–16.1%,还揭示了「训练数据格式比领域更能塑造推理方式」这一关键洞察。

The First Impression Problem: Internal Bias Triggers Overthinking in Reasoning Models

推理模型在看到问题的瞬间就形成了对答案的"第一印象"(内部偏差),当这个直觉猜测与后续系统推理产生冲突时,模型会反复自我质疑、重新检查,导致推理长度膨胀 21%–43%,而现有所有缓解方法均无法从根本上消除这一效应。

The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

揭示短任务基准给出"收益递减"的假象——单步准确率的微小提升在长任务中指数级放大;发现 LLM 的"自我条件化效应"(自身错误增加后续出错概率),thinking 模型可修复此效应;GPT-5 thinking 可执行超过 2100 步长任务。

The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner

本文提出 TAIL(Turing mAchine Imitation Learning),用 Python 程序自动合成模仿图灵机执行过程的思维链(CoT)数据,把推理拆成"线性展开 + 原子状态 + 显式取数"三种结构,仅用合成数据微调 Qwen2.5-7B,就在 18 个算法任务上实现了对训练时未见过的更长序列的稳定泛化,并且超过了 DeepSeek-R1(671B)。

The Limits of Inference Scaling Through Resampling

这篇论文从理论和实证两方面论证:当验证器不完美(单元测试覆盖不全、有非零假阳性率)时,靠"反复采样直到通过验证器"来扩展推理计算存在一个无法逾越的准确率上限——无论给弱模型多少计算预算,它都追不上一个足够强的模型的单次准确率,而且最优采样次数往往低到个位数。

The Path of Least Resistance: Guiding LLM Reasoning Trajectories for Efficient Consistency

提出 PoLR(Path of Least Resistance),首个利用推理前缀一致性的推理时方法,通过聚类短前缀并仅扩展主导聚类来实现 Self-Consistency 的高效替代,可减少高达 60% token 使用和 50% 延迟。

The Path of Least Resistance: Guiding LLM Reasoning Trajectories with Prefix Consensus

提出 PoLR(Path of Least Resistance),首个利用推理前缀一致性的推理时方法,通过聚类短前缀并仅展开主导簇来替代标准 Self-Consistency,在 GSM8K/Math500/AIME/GPQA 等基准上保持甚至提升准确率的同时减少 40%–60% 的 token 用量和最高 50% 的延迟。

The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation

本文提出 DC-CoT——首个以数据为中心系统评估思维链(CoT)蒸馏的 benchmark,把"增强 / 筛选 / 混合"三类数据操作放在统一框架下,跨多组师生模型、多类推理任务做大规模实证,得出"数据增强(尤其 Reverse Thinking)收益最大、筛选保质、混合作用有限"等可落地结论。

Theory-Grounded Evaluation of Human-Like Fallacy Patterns in LLM Reasoning

本文用认知科学里的 Erotetic 推理理论(ETR)及其开源实现 PyETR 程序化生成 383 道形式化推理题,评测 38 个模型,发现一个反直觉现象:随着模型能力(Chatbot Arena Elo)变强,其逻辑错误中"恰好是 ETR 预测的人类式谬误"的比例反而上升,而整体答对率却和能力无关。

Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning

提出 THINKMERGE:让 LLM 并行跑 \(K\) 条推理链、各自思考完后在「作答阶段」逐 token 把它们的 next-token logits 做算术平均再采样,从而把「多数投票」从封闭题扩展到代码生成、深度研究 agent 等无法定义「多数」的开放式任务,训练无关、即插即用。

Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners

在 SFT 蒸馏出来的长思维模型和标准 RLVR 之间插入一个叫 TFPI 的廉价初始化阶段——做法只是在 rollout 时给输入直接补一个 </think> 跳过显式思考、用很短的上下文做多阶段 RL——就能让模型在慢思考模式下既更准又更省 token,并把后续标准 RLVR 的收敛速度、性能上限一起抬上去(4B 模型用不到 4K H20 小时就在 AIME24 上达到 89.0%)。

THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

提出 THOR 框架,通过 TIRGen 数据构建管线 + 层次化强化学习(episode 级 + step 级联合优化)+ 自修正推理机制三大组件,系统性解决 LLM 工具集成数学推理中数据构建、细粒度优化和推理增强三大挑战,在 MATH500/AIME 等基准上达到同规模 SOTA。

Tina: Tiny Reasoning Models via LoRA

在一个仅 1.5B 的小模型上,用 LoRA 做 RL(GRPO)后训练,只花 9 美元就把数学推理能力训到与同基座的全参数 SOTA 相当甚至更好,并提出"快速推理格式适配"假说来解释这种低成本为何奏效。

Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning

提出 Tool-Light 框架,从信息熵视角分析工具集成推理(TIR)的低效根源,用「熵引导采样 + 两阶段自进化 DPO」让模型学会"该调工具时调、不该调时不调",在 10 个数学与知识密集型任务上同时提升了工具调用的准确性与效率。

Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention

揭示大推理模型(LRM)的推理链即使最终回答安全也常包含有害内容的问题,提出 Intervened Preference Optimization(IPO),通过用安全触发器替换合规线索来纠正不安全推理轨迹,构造偏好对进行对齐训练,在 3 个 LRM 上将推理有害率降低超过 30% 且不损害推理能力。

Tracing the Traces: Latent Temporal Signals for Efficient and Accurate Reasoning

本文提出 Latent-Trajectory(LT)信号——通过追踪推理 token 生成过程中模型隐藏状态的「时间演化轨迹」(净变化、累积变化、对齐变化三个量),无需训练就能预测一条推理轨迹是否会得到正确答案,并用它指导多样本推理的提前停止与早期路径选择,在保持甚至提升准确率的同时把 token 消耗最多降低约 70%。

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

提出 Progressive Thought Encoding,在 KV 缓存受限条件下将被驱逐的思维 token 编码进 LoRA 权重,使大推理模型在 RL 训练时显存减半的同时推理准确率反超全缓存 LoRA(AIME2024/2025 上最高提升 +23.4%)。

TRAPO:用半监督强化学习增强 LLM 推理

TRAPO 提出半监督 RLVR 范式,用一小撮带标注样本「锚定」无标注样本的一致性奖励,并通过比对有/无标注样本的「通过率轨迹」相似度来挑选可靠的无标注样本,仅用 1K 标注 + 3K 无标注就以 42.6% 平均准确率超过用 45K 无标注训练的最强无监督方法(38.3%),用 10% 标注量即可追平全监督。

Tricks or Traps? A Deep Dive into RL for LLM Reasoning

这篇论文在统一开源框架里把 RL4LLM 常用的归一化、裁剪、损失聚合、超长过滤等"技巧"逐个隔离做了 160+ 组对照实验,澄清了它们各自的适用场景,并发现只需把"group-mean + batch-std 优势归一化"和"token-level 损失聚合"两招组合(称为 Lite PPO),就能在 vanilla PPO loss、无 critic 的设置下稳定超过堆料更多的 GRPO 和 DAPO。

TRIM: Hybrid Inference via Targeted Stepwise Routing in Multi-Step Reasoning Tasks

TRIM 把"大模型 vs 小模型"的路由粒度从整条 query 细化到每一个推理步——用过程奖励模型(PRM)识别"会让解题崩盘的关键步",只把这些步交给昂贵大模型重写,其余常规步骤让便宜小模型续写,从而在 MATH-500、AIME 等数学推理基准上用低至 20% 的昂贵 token 就追平大模型的精度。

TSLM: Tree-Structured Language Modeling for Divergent Thinking

TSLM 用几个特殊 token 把一棵完整搜索树(含成功路径与失败死路)线性序列化,让普通自回归语言模型在一次生成里原生地产出多分支探索结构,从而以监督学习的方式内化系统性搜索能力——在 Game of 24 上 pass@1 达到 100%(基线 17%),在更大的 Gridworld 外推任务上 91.5% 远超 Tree-of-Thought 的 42.7%,且推理速度显著更快。

TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

TUMIX 让同一个 LLM 派生出 15 个工具使用策略各不相同的智能体(纯文本 / 写代码 / 搜索 / 代码+搜索等),让它们并行作答并跨轮共享、相互精炼答案,再用 LLM-as-Judge 自适应早停 + 多数投票挑出最终答案;在 HLE / GPQA / AIME 上以几乎相同的推理成本,平均比最强的工具增强测试时扩展基线高出 3.55%。

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

提出TumorChain,面向消化系统五大器官肿瘤分析的交错多模态CoT推理框架,通过知识图谱驱动的1.5M CoT-VQA数据引擎、器官引导的迭代交错推理(IIR)和分割/分类/LLM三模型协同优化,实现从影像发现→临床印象→病理预测的完整推理链,平均精度84.41%,大幅超越GPT-5-Mini(51.59%)。

Understanding the Role of Training Data in Test-Time Scaling

从理论上分析训练数据属性如何影响 test-time scaling 的效果,证明 CoT 推理等价于伪牛顿法迭代,提出基于特征协方差最小特征值的任务难度度量,揭示"更多思考不一定更好"的 overthinking 现象机制,并给出多任务训练中最优任务选择策略——训练集应多样、相关且困难。

Uni-CoT: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

提出 Uni-CoT 分层宏-微推理框架,将多模态 CoT 分解为宏观任务规划(将复杂任务分解为子目标)和微观子任务执行(MDP 式自反思迭代优化),通过注意力掩码设计将 \(O(T^2)\) 复杂度降至 \(O(T)\),在 GenEval 上超越 BAGEL 基线 +0.02,实现了文本-图像交织的统一推理。

Unleashing Scientific Reasoning for Bio-Experimental Protocol Generation via Structured Component-based Reward Mechanism

本文把"生物实验协议生成"重构成一个可结构化、可验证的推理任务:用 Sketch-and-Fill 推理范式把自由文本拆成「思考→原子步骤→自然语言」三段输出,再用 SCORE 规则化组件奖励(步骤粒度 + 动作顺序 + 语义保真)替代昂贵的 LLM-as-judge 做 RL 信号,配合三阶段 Knowledge-to-Action 训练出 8B 模型 Thoth,在协议生成与多个生物医学基准上反超 GPT-5、DeepSeek-V3 等更大模型。

USTBench: Benchmarking and Dissecting Spatiotemporal Reasoning Capabilities of LLMs as Urban Agents

USTBench 把"LLM 当城市智能体"的时空推理能力拆成理解—预测—规划—反思四个过程维度,在交互式城市环境 UAgentEnv 里造了 62,466 条结构化 QA + 9 个真实城市下游任务,评了 14 个主流 LLM,发现它们在理解/预测上不错、但在长程规划和反思上普遍拉胯,而且专门做过推理后训练的模型(如 DeepSeek-R1)在城市任务上并不稳定地强于普通模型。

Variation in Verification: Understanding Verification Dynamics in Large Language Models

这篇论文系统拆解了"LLM 验证器到底什么时候靠谱"这个问题:通过在 12 个基准、15 个模型上的大规模受控实验,作者发现验证效果由问题难度、生成器能力、验证器能力三个维度共同决定——难度主导"认对"(TPR)、生成器能力主导"挑错"(TNR)、验证器能力与验证效果的关系则随难度呈饱和/线性/阈值三种形态,从而揭示了"用最强模型当验证器"这一默认做法在很多场景下其实是浪费。

Variational Reasoning for Language Models

本文把语言模型的"思维链"当成隐变量、把"答对"当成观测,用变分推理从 ELBO 出发推出训练目标:引入一个带"答案提示"的变分后验来采样更可能答对的思维链,用 IWAE 多轨迹紧界 + 准确率权重更新模型、用 forward-KL 更新后验防坍缩,并顺手证明 RFT 与 GRPO 都是"按准确率加权的局部 forward-KL"、因而隐含偏向简单题;在 Qwen2.5/Qwen3 多个尺度上稳定超过强基线。

VERICOT: Neuro-Symbolic Chain-of-Thought Validation via Logical Consistency Checks

VERICOT 把 LLM 思维链(CoT)的每一步翻译成一阶逻辑公式,用 SMT 求解器逐步检查它能否由「已建立的前提」蕴含,从而定位「无依据 / 自相矛盾 / 不可翻译」的推理步骤;这套验证信号既能预测最终答案是否正确,又能驱动自反思、SFT 和 DPO,让模型生成更可验证的推理。

Verifying Chain-of-Thought Reasoning via Its Computational Graph

提出 CRV(Circuit-based Reasoning Verification),通过将 LLM 的 MLP 替换为 transcoder 构建可解释归因图,从图的结构特征中提取推理错误的"指纹",实现白盒 CoT 推理验证,并可通过因果干预修正错误推理。

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

提出VisioMath基准,包含1800道K-12数学题目,所有选项均为高度视觉相似的图表,揭示了LMM在多图像-文本对齐上的核心短板,并探索三种对齐策略实现+12.6%的提升。

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

提出Vision-R1,通过Modality Bridging构建200K高质量多模态CoT数据进行冷启动初始化,再用渐进思维抑制训练(PTST)策略结合GRPO强化学习,在7B参数规模达到与OpenAI O1接近的多模态数学推理能力。

VoG: Enhancing LLM Reasoning through Stepwise Verification on Knowledge Graphs

VoG 用「计划—检索—验证—修正」三智能体迭代回环让 LLM 在知识图谱上做多跳推理:每一步都拿检索回来的 KG 三元组去核对当前推理计划,一旦发现不一致就用多臂老虎机自适应挑选上下文范围去改写计划,从而在三个 KGQA 基准上同时提升了准确率和效率(token 消耗反而比基线更低)。

WavefrontDiffusion: Dynamic Decoding Schedule for Improved Reasoning

针对扩散语言模型(DLM)解码时"该先确定哪些 token"这个调度问题,本文提出 WavefrontDiffusion——一个免训练的动态调度策略,让已确定 token 像水波一样向外扩展候选区域,使每个 token 在拥有足够上下文时才被定稿;在五个推理与代码基准上以完全相同的算力预算稳定超过当前最强的 BlockDiffusion。

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

提出 DMVR 框架和 α-DPG 算法,通过显式定义"过滤掉错误答案"的目标分布并用 α-散度族来逼近,统一了 RLVR(Reverse KL)和拒绝采样微调(Forward KL),在 Lean 定理证明上实现了精度-覆盖率 Pareto 前沿的最优表现。

When More Is Less: Understanding Chain-of-Thought Length in LLMs

本文系统揭示了"思维链越长越好"是个误解——任务准确率随 CoT 长度呈倒 U 型曲线,存在一个随任务难度增大、随模型能力增强而缩短的最优长度;作者用一个误差累积理论模型解释了这一现象并推导出 scaling law,进而给出"按最优长度造训练数据 + 推理时按长度过滤投票"两个实用配方。

When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models

系统研究量化、蒸馏、剪枝三种压缩方法对大型推理模型 (LRM) 的影响,通过性能基准测试和机制可解释性分析,揭示权重数量对知识记忆影响大于推理、最后一层 MLP up_proj 是最关键组件、以及当前量化方法过度压缩最后层等核心发现。

When Silence is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

这篇论文系统研究"如何教 LLM 在时序问答里该不知道就拒答",提出一条 CoT-SFT 冷启动 + GRPO 强化学习(带拒答感知奖励) 的流水线,让一个 1.5B 小模型在 TimeQA 上的 Exact-Match 反超 GPT-4o(Easy/Hard 分别 +3.46% / +5.80%),同时揭示出 SFT 会让模型过度自信、RL 提升准确率但拒答行为在难题上反而退化的 trade-off。

Where Did This Sentence Come From? Tracing Provenance in LLM Reasoning Distillation

把蒸馏学生在测试时输出的每一句话,按"教师/学生/共享/被激活"四类归因到它真正的来源模型,证明学生在新场景里确实复用了教师句、且这些句子与答对相关;再据此提出一个"挑教师句最多的训练样本"的数据选择策略,在多组教师-学生配对上平均提升 1.7%–2.5%。

Why is Your Language Model a Poor Implicit Reward Model?

本文通过理论和实验揭示了隐式奖励模型(IM-RM,如DPO)比显式奖励模型(EX-RM)泛化更差的根本原因——IM-RM过度依赖表面token级线索而非语义表示,导致在token分布偏移下准确率大幅下降,同时反驳了"生成-验证差距"假说。

Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking

针对大推理模型「想太多」的问题,本文提出 JET(Just-Enough Thinking):在 RL rollout 阶段把模型自己生成的长推理链渐进截断并补一句 stop-thinking 提示,构造出与模型自身分布一致的短推理样本,再配一个「先对后短」的质量受控长度奖励,让模型学会在信息够用时主动停止思考——在 Olympiad 上用 1.5B 模型实现 +4.6% 准确率的同时把输出长度压掉 46.3%。

Zero-Overhead Introspection for Adaptive Test-Time Compute

ZIP-RC 让大模型在每一步解码时复用输出头里没用上的预留 logits,零额外开销地预测「最终奖励 × 剩余长度」的联合分布,再用这个分布在线优化一个权衡质量/算力/延迟的「采样效用」,自适应地决定该多采样、该剪枝还是该停手——在混合难度数学基准上以同等甚至更低成本把准确率最多提升 12%。