ACL2026 LLM Reasoning 论文解读论文笔记推理 LLM 强化学习对齐/RLHF 对抗鲁棒压缩/编码

💡 LLM Reasoning¶

💬 ACL2026 · 82 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (16) · 🔬 ICLR2026 (241) · 🧪 ICML2026 (78) · 🤖 AAAI2026 (37) · 🧠 NeurIPS2025 (82) · 📹 ICCV2025 (3)

🔥 高频主题： 推理 ×57 · LLM ×20 · 强化学习 ×6 · 对齐/RLHF ×4 · 对抗鲁棒 ×3

Accurate Legal Reasoning at Scale: Neuro-Symbolic Offloading and Structural Auditability for Robust Legal Adjudication: 本文提出 Amortized Intelligence 范式：把 LLM 当作"一次性编译器"将法律合同编译成名为 DACL 的确定性有向无环图中间表示，运行时由轻量 agent 调度符号引擎执行，在 400 个真实合同事件上达到 99.5% 准确率，相比 GPT-5.2/Claude/Gemini 等推理大模型在复杂合同上准确率从 22-46% 直接跳到 98%，且 token 消耗降低 9.9 倍。
Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning: 本文提出 APMPO，用一个由当前奖励均值控制的"幂平均"统一了 GRPO（算术平均）与 GMPO（几何平均）目标，并配合基于奖励稳定度的自适应 clip 范围，使 RLVR 训练能在不同阶段动态切换"放大稀有高奖励"与"强调一致性"的策略，在 9 个数学/SQL/多模态推理基准上稳定超越 GRPO/DAPO/GMPO。
AIM-CoT: Active Information-driven Multimodal Chain-of-Thought for Vision-Language Reasoning: 提出 AIM-CoT 框架，通过信息觅食理论驱动的主动视觉证据选择(AVP)和基于注意力偏移的动态触发机制(DAT)，解决交错模态思维链(I-MCoT)中"看什么"和"何时看"两个核心问题。
Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data: 本文提出了一种预算感知的任意时推理（anytime reasoning）框架和 Anytime Index 指标，用于量化 LLM 在有限 token 预算下的推理质量-效率权衡，并设计了基于 LLM 自合成偏好数据的推理时自改进方法（PDP），在规划、数学和科学 QA 任务上显著提升了中间和最终解的质量。
C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences: 针对"自生成 rubric 经常误导 reward model"的两面性问题，作者用 LM 似然 margin 把自采样的 16 条 rubric 自动标注为"helpful / misleading"对，再用 DPO 训一个合作型 rubric generator + GRPO 训一个会先评估 rubric 可信度再下判断的"critical" verifier；只用二元偏好数据，C2 在 4 个偏好基准上比 GRPO 训的 reasoning RM 提升最多 6.5 点 (RM-Bench)，下游 DPO 的 LC win rate 涨 6 点，且 8B 模型靠自生 rubric 就能追平用 4× 大模型 (Qwen3-32B) 提供 rubric 的方案。
Calibration-Aware Policy Optimization for Reasoning LLMs: 作者首先证明 GRPO 类算法的"奖励-only"advantage 估计等价于一个对 AUC 不一致的 surrogate（\(\phi(t)=-t\)，scale-不变性破坏），导致准确率上升的同时相对校准 (perplexity AUC) 持续退化；据此提出 CAPO：把 advantage 换成基于 logistic AUC consistent surrogate 的"成对、uncertainty-aware"形式，再用 reference-model PPL 做去噪 masking，在 Qwen2.5-Math 1.5B/7B 上实现校准 +15~25%、准确率持平或反超 GRPO，AIME 推理时缩放再涨 5%。
Can Reasoning Path still be Effective as Input? Bridging Post-Reasoning to Chain-of-Thought Compression: 本文提出 post-reasoning 与 UCoT：先由轻量 compressor 用单次前向生成表示推理路径的 soft tokens，再让 executor 把这些 soft tokens 当作输入上下文进行短输出推理，从而在保持推理准确率的同时显著减少 CoT token 与延迟。
Chain-of-Thought as a Lens: Evaluating Structured Reasoning Alignment between Human Preferences and Large Language Models: 本文提出 Alignment Score——一种基于语义熵矩阵的语义级指标，通过比较模型生成的思维链与人类偏好参考链的中间步骤来量化推理对齐度，发现 Alignment Score 与任务准确率、可读性和连贯性高度相关，且 2-hop 推理是对齐的峰值深度。
ChAIRO: Contextual Hierarchical Analogical Induction and Reasoning Optimization for LLMs: 提出 ChAIRO，一个上下文层次化类比归纳与推理优化框架，通过三阶段 pipeline（类比案例生成→规则归纳→规则注入微调）让 LLM 在内容审核中自主生成类比案例并归纳显式审核规则，比单实例规则生成提升 F1 4.5%，比静态 RAG 提升 2.3%。
CoAct: Co-Active LLM Preference Learning with Human-AI Synergy: CoAct 在偏好对齐中用自一致性把无标注样本切成"高一致 / 低一致"两堆，再用 k-NN 距离从高一致样本里挑出"自洽但可能错"的隐患样本送给 Oracle 标注，剩下的高一致样本直接当 AI 自标数据，最后用 oracle-verified 样本做 in-context demo 生成新指令，把人和 AI 的监督在一个 DPO 循环里捏成一团，在 GSM8K/MATH/WebInstruct 上比最强基线再涨 4–8 个点。
CRISP: Compressing Redundancy in Chain-of-Thought via Intrinsic Saliency Pruning: 提出 CRISP 框架，发现 </think> token 的注意力模式能可靠区分推理链中的关键步骤和冗余步骤，据此设计四种原子操作的贪心搜索压缩流水线，在保持准确率的同时减少50-60%的 token 用量。
CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards: CSRP 用 CPT、带 CoT rationale 的 SFT 和带 Efficiency-Aware Reward 的 GRPO 三阶段训练中文文本纠错模型，在 NACGEC 上达到 50.99 \(F_{0.5}\)、在 CSCD 上达到 59.61 F1，并通过显式奖励编辑效率显著缓解 LLM 纠错中的过纠正问题。
Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective: 本文通过 Cross-CoT 实验和逐步分析，揭示了 CoT 推理的"解耦机制"：最终准确率由 CoT 内容决定（99% 方差贡献），但分布排序由模型内在先验主导（>80%），说明长 CoT 是强大的决策器但弱的分布校准器。
DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning: DELTA 是一种 training-free 的层级稀疏 attention：把 transformer 分成 "初始全 attention 层 + 少量 Δ-layer 重选 salient pages + 后续稀疏 attention 层" 三组，在 AIME / GPQA-Diamond 上 accuracy 持平或反超 full attention，同时把 attended token 数减少 \(4.25\times\)、端到端推理加速 \(1.54\times\)。
Discovering a Shared Logical Subspace: Steering LLM Logical Reasoning via Alignment of Natural-Language and Symbolic Views: 发现 LLM 内部存在一个共享的逻辑子空间，可同时对齐自然语言和符号逻辑两种推理表示，通过在推理时沿该子空间引导激活可无训练提升逻辑推理准确率最高达 11 个百分点。
Dissecting Failure Dynamics in Large Language Model Reasoning: 通过分析 LLM 推理轨迹，发现错误集中在早期的少数关键转折点，错误发生后模型进入"认知螺旋"——局部连贯但全局错误地不断延伸；基于此提出 GUARD 框架，在熵信号检测到的高风险转折点处进行短距分支修复。
Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding (CoRD): 作者提出 CoRD（Collaborative Reasoning Decoding），把多教师 Long-CoT 推理蒸馏从「先生成完整轨迹再后选」改造成「step-wise 协同解码」——每步让多个 LRM 提议候选 step，用 meta-prover 的 predictive perplexity 评分 + beam search 保留 Top-B 部分轨迹，最终 32B 学生在 AIME24/25 上超越所有单教师（79.6 / 70.2 vs 78.9 / 67.9）。
Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error: 提出 LTE (Learning to reason from Trial and Error)，通过将模型自身生成的错误答案作为提示引导额外 rollout，在不依赖外部专家的情况下有效缓解 RLVR 中的探索停滞问题。
Does Self-Consistency Improve the Recall of Encyclopedic Knowledge?: 作者对 MMLU 按学科应用 Sprague 等的 "=="-启发式把 57 个 subject 拆成 符号推理 与 知识召回 两个子集（约 1:2），实证证明 self-consistency (SC) 不仅在符号推理上有效——这是 CoT 已经擅长的领域——在知识召回上也能持续增益（n=20 时 +2.48），把 GPT-4o 的 MMLU 整体准确率推到 88.93%，并用"多数答案占比"作为置信度信号 (Pearson ρ ≈ 0.42) 给出机制解释。
DRP: Distilled Reasoning Pruning with Skill-aware Step Decomposition for Efficient Large Reasoning Models: DRP 让"短 CoT 老师 (GPT-4o)"在"长 CoT 学生 (R1-Distill-Qwen)"自己的推理轨迹上做技能级分步+剪枝/重写，再把这条"裁掉冗余但保留学生说话风格"的轨迹蒸馏回学生，在 GSM8K 把 7B 模型 token 从 917 砍到 328（−64%）的同时把 Pass@1 从 91.7% 提到 94.1%，且在 AIME/AMC/MATH500 等 OOD 任务上同时降 token、涨准确率。
DVMap: Fine-Grained Pluralistic Value Alignment via High-Consensus Demographic-Value Mapping: DVMap 把 LLM 的"多元价值对齐"从粗粒度的国家标签下沉到 11 维 demographic 属性档案，先用 Shannon 熵 = 0 的"高一致性档案"过滤出 5.6 万条 WVS 数据，再用 Structured CoT + GRPO（二值奖励）训练 Qwen3-8B，使其在 cross-demographic / cross-country / cross-value 三重泛化测试中超越 DeepSeek-v3.2、并和 GPT-4o 持平。
Efficient PRM Training Data Synthesis via Formal Verification: 本文提出 FoVer，一个利用形式化验证工具（Z3 和 Isabelle）为形式化推理任务的步骤级推理链自动标注正确性标签的框架，生成 FoVer-40K 训练集并微调 PRM，在 12 个推理基准上展示了从形式化到非形式化的迁移能力和跨任务泛化能力。
Efficient Process Reward Modeling via Contrastive Mutual Information: 提出 CPMI（Contrastive Pointwise Mutual Information），一种高效的自动步级奖励标注方法，通过对比推理步骤对正确答案和错误答案的条件概率变化量来估计步级贡献，比 Monte Carlo 估计减少 84% 构建时间和 98% token 生成量，同时在过程级评估和数学推理基准上取得更高准确率。
Efficient Test-Time Scaling via Temporal Reasoning Aggregation: 提出 TRACE 框架，通过在滑动窗口内聚合多步答案一致性和置信度轨迹两种互补信号来判断推理是否收敛，实现无需训练的动态早退，在减少25-30% token 用量的同时准确率仅降1-2%。
ETR: Entropy Trend Reward for Efficient Chain-of-Thought Reasoning: 提出 ETR (Entropy Trend Reward)：用动量加权的逐步熵下降作为 reward shaping 项加进 GRPO，让 LLM 的 CoT 自适应地在 "全局熵下降" 约束下提前收敛，相同正确性下平均压缩 CoT 长度 35–65%；在 DeepSeek-R1-Distill-7B 上带来 +9.9% 准确率同时减少 67% token。
Evo-Attacker: Memory-Augmented Reinforcement Learning for Long-Horizon Tool Attacks on LLM-MAS: 本文提出 Evo-Attacker，把面向 LLM 多智能体系统的工具返回篡改建模为带动态攻击记忆的长程强化学习问题，并用 Attack-Flow GRPO 优化检索、反思和修改决策，在多架构、多任务 benchmark 上显著降低系统成功率。
Failure Modes in Multi-Hop QA: The Weakest Link Effect and the Recognition Bottleneck: 本文提出 Multi-Focus Attention Instruction (MFAI) 作为语义探针，揭示多跳 QA 中的"最弱链效应"——多跳推理性能由最不可见证据的绝对位置决定而非事实间距离，失败主要源于识别瓶颈而非推理缺陷，且 System-2 推理模型能有效抵御位置偏差和误导性注意力线索。
FinReporting: An Agentic Workflow for Localized Reporting of Cross-Jurisdiction Financial Disclosures: FinReporting 把跨美国、日本、中国财报本地化拆成“规则抽取 + 本体映射 + 受限 LLM 校验/修复 + 人工复核”的可审计 agent workflow，用统一 IS/BS/CF schema 缓解不同司法辖区财务披露格式和会计语义不一致的问题。
Foresight Optimization for Strategic Reasoning in Large Language Models: 本文提出 Foresight Policy Optimization（FoPO），通过在策略优化中引入对手建模的前瞻修正项，使 LLM 能够显式预见对手行为并据此调整自身策略，在合作（Cooperative RSA）和竞争（Competitive Taboo）两类博弈任务上显著提升策略推理能力，并在跨域 γ-Bench 上取得一致性提升。
FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents: 本文提出 FS-Researcher，一个基于文件系统的双 Agent 深度研究框架，通过 Context Builder 构建层次化知识库、Report Writer 分节撰写报告，利用持久化工作空间突破上下文窗口限制，在 DeepResearch Bench 上达到 53.94 RACE（SOTA），并展示了上下文构建计算量与报告质量的正相关测试时扩展效应。
GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO: 本文提出 GanitLLM，首个真正用孟加拉语进行推理（而非翻译或用英语推理）的数学推理模型，构建了难度标注的孟加拉语数学数据集 Ganit，并提出 Curriculum-GRPO 解决低资源语言 GRPO 训练中的冷启动问题，4B 模型在 Bn-MGSM 上提升 8 个准确率百分点，孟加拉语推理 token 从 14% 提升至 88%。
HISR: Hindsight Information Modulated Segmental Process Rewards for Multi-turn Agentic Reinforcement Learning: HISR 用 GPT-4o 把 agent 轨迹切成与 sub-goal 对齐的 segment，再让一个 hindsight 模型与 policy 模型的似然比给每段算一个 importance 分数，去 modulate 段级过程奖励——在 Alfworld / Virtualhome / Webshop 上把信用分配做得更靠谱，平均得分较 SPA 涨 5+。
How Chain-of-Thought Works? Tracing Information Flow from Decoding, Projection, and Activation: 这篇论文从解码、概率投影和 FFN 激活三个层面反向追踪 CoT 的信息流，发现 CoT 可能主要通过约束答案结构、降低预测熵，并按任务类型调节神经元激活来提升推理表现，而不只是让模型“真的更会逻辑推理”。
Is Chain-of-Thought Really Not Explainability? Chain-of-Thought Can Be Faithful without Hint Verbalization: 论文系统反驳"CoT 不算可解释性"这一近年流行结论：用 Filler Tokens、FUR、faithful@k 与 Causal Mediation Analysis 四种互补指标证明，被 Biasing Features（hint verbalization）判为不忠实的 CoT 里超过一半其实"以其它方式"忠实地反映了模型推理；不忠实主要来自"自然语言对分布式计算做了 lossy 压缩"导致的不完整（incompleteness），而非真不忠实——增大采样预算可让 hint 出现概率涨到 90%，未明示 hint 的 CoT 也能因果性地传递 hint 影响。
JTPRO: A Joint Tool-Prompt Reflective Optimization Framework for Language Agents: JTPRO 提出了一种无需模型微调的联合优化框架，通过反思驱动的迭代编辑同时优化全局指令和逐工具的 schema/参数描述，在大规模工具库场景下显著提升工具选择和参数填充的端到端成功率，相比 GEPA 等基线在 OSR 上提升 5%–20%。
Language Model as Planner and Formalizer under Constraints: 本文提出 CoPE 基准，通过向经典规划环境注入形式化分类的自然语言约束，揭示出仅一句约束即可将当前最强 LLM 的规划性能减半，暴露了 LLM 规划鲁棒性的严重不足。
Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners: 本文系统性地研究了大型推理模型（LRM）在 11 种语言上的潜在推理行为，发现潜在推理能力存在于多语言中但分布不均（高资源语言强、低资源弱），且内部推理动态趋于以英语为中心的共享路径。
Learning to Edit Knowledge via Instruction-based Chain-of-Thought Prompting: CoT2Edit 提出通过 CoT 推理教 LLM 进行知识编辑的新范式——构建结构化和非结构化编辑的 CoT 指令数据，经 SFT 冷启动 + GRPO 优化训练，推理时结合 RAG 检索编辑事实，单次训练即在 6 个编辑基准上达到 SOTA 且具有强泛化能力。
LegalDrill: Diagnosis-Driven Synthesis for Legal Reasoning in Small Language Models: LegalDrill 用 Audit Agent 诊断 0.6B/1.7B 小模型在法律推理上的具体错误模式，让强 teacher（GPT-4o / Qwen3-30B）按错误指令"刻意复现+修正"生成偏好对，再用学生自己的 forced-choice 概率算 Difficulty Score 过滤掉它已会的样本，迭代 SFT+DPO 后 1.7B 学生在 LegalBench 多个子集上逼近 30B teacher。
LePREC: Reasoning as Classification over Structured Factors for Assessing Relevance of Legal Issues: 本文提出 LePREC，一种受法律专业人士启发的神经-符号框架，通过 LLM 生成推理问答对将非结构化法律文本转化为结构化特征，再利用稀疏线性模型进行相关性分类，在 769 个马来西亚合同法案例构建的 LIC 数据集上相比 GPT-4o 等 LLM 基线提升 30–40%。
LLM Reasoning as Trajectories: Step-Specific Representation Geometry and Correctness Signals: 本文把 LLM 的 chain-of-thought 推理看成在表征空间里的一条几何轨迹，发现 (a) 每个推理步骤都占据一个线性可分的子空间且越深层越清晰、(b) 正确与错误解在早期重叠、在后期系统性分叉，由此能在尚未输出答案时以 ROC-AUC 0.87 预测最终对错，并据此提出"轨迹引导"做推理修正和长度控制。
Logical Phase Transitions: Understanding Collapse in LLM Logical Reasoning: 本文发现 LLM 逻辑推理存在"逻辑相变"现象——性能在特定复杂度阈值处突然崩塌而非平滑退化，提出逻辑复杂度度量（LoCM）来量化这一现象，并设计神经符号课程调优框架（NSCT），通过自适应神经-符号对齐和复杂度感知课程优化，在五个基准上平均提升 naive prompting +1.26 和 CoT +3.95 准确率。
Long-Context Reasoning Through Proxy-Based Chain-of-Thought Tuning: ProxyCoT 利用短而充分的 proxy context 先获得高质量推理轨迹，再把这些轨迹蒸馏到完整长上下文输入上，使 4B 模型在 SciTrek、HotpotQA 和 Loong 上显著提升长上下文推理，同时减少推理时 CoT token。
MathAgent: Adversarial Evolution of Constraint Graphs for Mathematical Reasoning Data Synthesis: 提出基于约束图对抗进化的分层数据合成框架 MathAgent，将数据合成从文本生成任务重构为约束图的无监督优化问题，通过 Legislator 三Agent系统进化问题骨架再由 Executor 实例化为自然语言，仅 1K 合成样本即超越 LIMO 和 s1K 在八个数学基准上的表现。
Merlin's Whisper: Enabling Efficient Reasoning in Large Language Models via Black-box Persuasive Prompting: Whisper 把大推理模型的“少想但不降准确率”问题建模为黑盒 persuasive prompting，通过多视角自动生成和迭代筛选提示后缀，在 Qwen3、DeepSeek-R1-Distill 以及 Claude/Gemini API 上显著减少输出 token，同时基本保持推理准确率。
MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation: MTR-Bench 构建了一个包含 4 类、40 个任务、3600 个实例的自动化多轮推理评测框架，显示当前前沿推理模型在交互式、动态反馈环境中仍远未可靠。
N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization: N-GRPO 在 GRPO 的 rollout 阶段把「采样 token 再查嵌入」换成「锚点 token + 其语义近邻的嵌入加权混合」，用受控的嵌入级扰动注入探索多样性而不偏离语义流形，在 DeepSeek-R1-Distill-Qwen 等多个底座的数学推理 Pass@16/Pass@32 上稳定超过 GRPO 与高斯噪声基线。
On the Step Length Confounding in LLM Reasoning Data Selection: 本文发现基于自然度的 LLM 推理数据选择方法存在"步长混淆"问题——系统性地偏好每步更长的样本而非更高质量的样本，根因是推理步骤首 token 的低概率被长步骤稀释。提出 Aslec-drop（丢弃首 token 概率）和 Aslec-casl（因果回归去偏）两种校正方法，平均准确率提升 6-9%。
Parallel Test-Time Scaling for Latent Reasoning Models: 本文首次将并行测试时缩放（parallel TTS）引入潜在推理模型，提出两种基于不确定性理论的随机采样策略（MC-Dropout 和加性高斯噪声）以及一个步级对比训练的潜在奖励模型（LatentRM），使得在连续向量空间中进行推理的模型也能通过并行采样+聚合获得稳定的性能提升。
PPA-Plan: Proactive Pitfall Avoidance for Reliable Planning in Long-Context LLM Reasoning: PPA-Plan 在生成长上下文推理计划之前先预测可能的逻辑陷阱，并把这些陷阱转成 negative constraints 约束 planner，从而让 LLM 少走表面关键词匹配和错误假设路径，在多组长文 QA 数据集上提升准确率、NLI 分数并显著降低计划执行失败率。
Process Reward Models Meet Planning: Generating Precise and Scalable Datasets for Step-Level Rewards: 本文提出利用规划领域定义语言（PDDL）自动生成大规模、高精度的步骤级奖励数据集，用于训练过程奖励模型（PRM），在数学和非数学推理基准上均取得显著提升。
Reasoning Fails Where Step Flow Breaks: 提出 Step-Saliency 诊断工具发现大推理模型中两种深度相关的信息流失败模式（Shallow Lock-in 和 Deep Decay），并设计 StepFlow 测试时干预方法在不重训练的情况下修复信息传播、提升推理准确率。
Reinforced Efficient Reasoning via Semantically Diverse Exploration: ROSE 提出语义熵引导的 MCTS 分支策略和长度感知的段级优势估计，解决了现有 MCTS-based RLVR 方法探索多样性不足和推理效率低的问题，在多个数学推理基准上取得最优 pass@8 性能。
Reliability-Aware Adaptive Self-Consistency for Efficient Sampling in LLM Reasoning: ReASC 将 adaptive self-consistency 从“数答案票数”改成“判断可靠证据是否足够”，用响应置信度加权 Beta 累积，在 GSM8K、MATH500、Omni-Math 和 GPQA-Diamond 上以接近原准确率显著降低多样本推理成本。
Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning: 提出 Render-of-Thought（RoT），首次将文本 CoT 推理步骤渲染为图像，利用预训练视觉编码器作为语义锚点将 LLM 隐状态对齐到视觉嵌入空间，实现 3-4 倍 token 压缩和显著推理加速，同时保持推理链的可分析性。
ReProbe: Efficient Test-Time Scaling of Multi-Step Reasoning by Probing Internal States of Large Language Models: 这篇论文提出 ReProbe，用少于 10M 参数的轻量 transformer probe 读取冻结 LLM 的隐藏状态、注意力和 logits 来判断每一步推理是否可信，在数学、规划和问答任务上接近或超过大 750-810 倍的 PRM，并能作为 Best-of-N 和 beam search 的高效 step verifier。
Revisiting Entropy in Reinforcement Learning for Large Reasoning Models: 系统性研究了 RLVR 训练中 LLM 的熵动态，揭示正优势 token 是熵崩塌的主要驱动因素，并提出 Positive-Advantage Reweighting 方法通过动态调整正优势 token 的损失权重来有效调控模型熵。
Revisiting the Uniform Information Density Hypothesis in LLM Reasoning: 本文将心理语言学中的信息密度均匀性（UID）假说引入 LLM 推理分析，提出基于熵的步级信息密度度量框架，发现高质量推理轨迹呈现"局部均匀 + 全局非均匀"的反直觉模式，并证明该模式在 Best-of-N 采样中显著优于传统置信度/熵基线。
RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners: RSAT 用“结构化引用格式的 SFT + 以 NLI 忠实性为核心奖励的 GRPO”训练 1B-8B 小语言模型，让表格问答不只给答案，还能把每一步推理绑定到具体表格单元格，并把平均忠实性从 SFT 的 0.224 提升到 0.826。
Scaling Evaluation-Time Compute with Reasoning Models as Evaluators: 这篇论文把 test-time scaling 从“生成答案”扩展到“评估答案”，发现让 reasoning model 在评估时生成更多推理 token、逐步检查过程并结合 outcome/process 分数，可以在 ProcessBench 和 Best-of-N 重排序中超过训练好的 PRM/ORM。
Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models: 提出 GenCluster，一个可扩展的测试时计算框架，通过大规模并行生成→行为聚类→锦标赛排名→循环提交策略，首次使开源模型 gpt-oss-120b 在 IOI 2025 上达到金牌水平（446.75/600 分）。
SeLaR: Selective Latent Reasoning in Large Language Models: 本文提出 SeLaR，一种轻量级无训练框架，通过熵门控机制仅在模型不确定的"探索步"激活软嵌入潜在推理、在高置信的"确定步"保持离散解码，并引入熵感知对比正则化防止软嵌入向主导 token 坍缩，在五个推理基准上一致超越标准 CoT 和 SOTA 无训练方法。
Self-Awareness before Action: Mitigating Logical Inertia via Proactive Cognitive Awareness: 本文提出 SABA 推理框架，通过"先感知再行动"的范式，在做出最终决策前显式构建和审计知识状态——利用信息融合 (IF) 将叙事整合为可验证的基线状态，再通过查询驱动的结构化推理 (QSR) 递归识别和解决缺失前提——在侦探推理和通用推理基准上均取得最佳表现。
Self-Consistency from Only Two Samples: CoT-PoT Ensembling for Efficient LLM Reasoning: 提出 CoT-PoT 跨模态集成方法，利用链式推理（CoT）和程序化推理（PoT）两种根本不同推理模态的互补性，将自一致性所需的采样次数减少9.3倍，78.6%的问题仅需2个样本即可解决。
Self-Reinforcing Controllable Synthesis of Rare Relational Data via Bayesian Calibration: 本文提出RDDG，基于渐进式CoT的表格数据合成框架，通过核心集选择、关系挖掘和自强化反馈机制引导LLM生成高保真表格数据，在不平衡分类上平均提升2%+ Macro-F1。
Semantic-Aware Logical Reasoning via a Semiotic Framework: 提出 LogicAgent，一个基于格雷马斯符号方阵(Semiotic Square)的逻辑推理框架，通过多视角语义分析和反思验证，在语义复杂和逻辑复杂双重挑战下实现 SOTA 逻辑推理性能。
SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning: SHAPE 把 LLM 推理看成在“可解性潜势”状态空间中的轨迹，用长度感知的阶段级优势和熵驱动的 token 级重分配同时提升数学推理准确率并减少约 30% 生成 token。
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks: SPPO 把长链 CoT 推理中的 RLVR 从 token-level MDP 重写为 sequence-level contextual bandit，用只看 prompt 的标量 critic 估计题目可解性，从而用单样本 PPO 获得接近或超过 GRPO 的稳定性与性能，同时带来约 5.9 倍训练加速和更低显存占用。
Stabilizing Efficient Reasoning with Step-Level Advantage Selection: 这篇论文发现短上下文 GRPO 本身就会强烈压缩推理长度，但会因截断样本的错误信用分配导致训练不稳；作者提出 Step-level Advantage Selection，在推理步骤粒度选择性置零 advantage，在保持甚至提升 Pass@1 的同时显著减少推理 token。
Step-GRPO: Internalizing Dynamic Early Exit for Efficient Reasoning: 提出 Step-GRPO，将动态早退能力内化到模型中——通过语义步骤而非原始 token 来度量推理复杂度，用动态截断 Rollout 暴露简短正确轨迹，配合步骤感知相对奖励引导模型学习在适当时机停止推理，在 Qwen3-8B 上减少32%的 token 消耗且无准确率下降。
Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play: Stratagem 在文本游戏自博弈中不再只按输赢强化模型，而是用“抽象可迁移性”和“推理演化”两个轨迹级信号调制 advantage，使从游戏中学到的策略更能迁移到数学、通用推理和代码生成任务。
Strategy-Induct: Task-Level Strategy Induction for Instruction Generation: Strategy-Induct 提出一种仅需少量输入问题（无需标注答案）即可归纳任务级指令的框架：先为每个问题生成推理策略，再从策略-问题对中归纳出可复用的任务指令，在 BBH-Induct、Evals-Induct 和 Shift Cipher 三个基准上超越现有 SOTA 方法。
TemplateRL: Structured Template-Guided Reinforcement Learning for LLM Reasoning: TemplateRL 通过从小规模种子集合用 MCTS 抽象出结构化推理模板，在强化学习训练中引入这些模板作为显式指导，显著提升 LLM 多步推理效率和稳定性，在 AIME 上相比 GRPO 提升 99%。
Think Outside the Policy: In-Context Steered Policy Optimization: 提出 ICPO (In-Context Steered Policy Optimization)，利用大语言模型自身的上下文学习(ICL)能力作为隐式专家引导，在 RLVR 训练中扩展策略探索空间，无需依赖外部更强模型的推理轨迹。
TIME: Temporally Intelligent Meta-Reasoning Engine for Context-Triggered Explicit Reasoning: TIME 把显式推理从“始终开启的长思维链”改造成由时间和语篇线索触发的局部控制策略，通过 time 标签、tick 事件、短 think 块和四阶段 QLoRA 课程训练，让 Qwen3 系列在 TimeBench 上显著超过 thinking/no-thinking 基线，同时把推理 token 压缩到原来的约十分之一量级。
TInR：探索大语言模型中的工具内化推理: 本文提出 TInR-U 框架，通过将工具知识内化到 LLM 参数中（而非依赖外部文档），实现高效且可靠的工具辅助推理，在域内和域外测试中均优于现有方法。
ToolPRM: Fine-Grained Inference Scaling of Structured Outputs for Function Calling: ToolPRM 将函数调用拆成函数名选择、参数名选择、参数值填写等细粒度决策，训练 intra-call 过程奖励模型来指导 beam search，并提出“explore more but retain less”的结构化输出推理扩展原则，在 BFCL 和 ToolAlpaca 上稳定提升 Hammer2.1 系列工具调用模型。
Towards Effective In-context Cross-domain Knowledge Transfer via Domain-invariant-neurons-based Retrieval: 本文提出 DIN-Retrieval，通过识别 LLM 中跨域激活极性一致的域不变神经元（DIN），构建域鲁棒的表示子空间用于检索结构兼容的跨域示例，首次证明了使用跨域 ICL 示例提升 LLM 推理性能的可行性，在数学-逻辑推理迁移上平均提升 1.8%。
TrigReason: Trigger-Based Collaboration between Small and Large Reasoning Models: TrigReason 提出基于事件触发的大小推理模型协作框架，通过分析小模型三类推理风险（路径偏离、认知过载、恢复失能），设计策略引导、认知卸载和干预请求三种触发器替代逐步轮询验证，在保持 LRM 精度的同时将 1.70-4.79 倍更多推理步骤卸载给小模型，延迟降低 43.9%、API 成本降低 73.3%。
Understanding and Mitigating Spurious Signal Amplification in Test-Time Reinforcement Learning for Math Reasoning: 系统分析测试时强化学习（TTRL）中虚假信号的来源和放大机制——中频答案构成模糊区域是主要噪声源，GRPO 的组内归一化会放大这些虚假信号——提出 DDRL 框架通过均衡采样、固定优势值和共识离线精炼三管齐下缓解问题，在 Qwen2.5-Math-1.5B 上相对提升15.3%。
When Is Thinking Enough? Early Exit via Sufficiency Assessment for Efficient Reasoning: 提出 DTSR 框架，通过检测推理过程中的"反思信号"（如 Wait、Alternatively）并在该位置让模型自我评估当前推理的"充分性"来决定是否提前终止推理，在 Qwen3 系列模型上实现 28.9%–34.9% 的推理长度缩减且几乎不损失精度。
Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment: 提出 Rank-Surprisal Ratio (RSR) 指标，通过联合衡量推理轨迹对学生模型的"信息量"和"对齐度"来评估训练数据适配性，在 5 个学生模型和 11 个教师模型的组合中与训练后性能达到平均 0.86 的 Spearman 相关性，并成功应用于轨迹选择和教师选择。