跳转至

💡 LLM 推理

🧠 NeurIPS2025 · 67 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (37) · 📷 CVPR2026 (16) · 🔬 ICLR2026 (71) · 🤖 AAAI2026 (30) · 📹 ICCV2025 (3) · 🧪 ICML2025 (17)

🔥 高频主题: 推理 ×44 · LLM ×12 · 多模态 ×4 · 强化学习 ×4 · 模型压缩 ×2

AbbIE: Autoregressive Block-Based Iterative Encoder for Efficient Sequence Modeling

提出 AbbIE,一种将 decoder-only Transformer 的中间层(Body)进行递归迭代的架构,只需训练时用 2 次迭代,推理时即可通过增加迭代次数实现 upward generalization,在语言建模困惑度和 zero-shot ICL 任务上均超过标准 Transformer,且可作为标准 Transformer 的 drop-in 替代。

Adaptive Dual Reasoner: Large Reasoning Models Can Think Efficiently by Hybrid Reasoning

提出 Adaptive Dual Reasoner (ADR)——让推理模型在 fast thinking(简单推理步骤压缩)和 slow thinking(复杂推理步骤保留深度)之间动态切换,通过 SFT 冷启动 + EHPO(熵引导混合策略优化)训练,在数学推理基准上准确率提升最高 6.1% 同时推理 token 减少 49.5%-59.3%。

Are Large Reasoning Models Good Translation Evaluators? Analysis and Performance Boost

首次系统分析了大推理模型(LRM)在机器翻译MQM评估中的行为,发现LRM存在"过度思考"、评分高估和材料选择依赖模型规模等问题,并提出ThinMQM方法通过训练合成人类评分轨迹来校准LRM思维过程,将思维预算减少约35倍同时提升评估性能(7B模型提升+8.7相关性分数)。

ARM: Adaptive Reasoning Model

ARM 通过让模型自适应地选择四种推理格式(直接回答、短CoT、代码、长CoT),配合改进的 Ada-GRPO 训练算法解决 format collapse 问题,在保持与纯长CoT模型持平的准确率的同时平均节省 ~30% token,最多节省 ~70%。

Atom of Thoughts for Markov LLM Test-Time Scaling

提出 Atom of Thoughts (AoT),将 LLM 推理建模为马尔可夫链,每个状态是与原问题答案等价但复杂度递减的自包含子问题,通过 DAG 分解+收缩的两阶段转移机制消除历史依赖,可与 ToT/反思等方法无缝集成,在数学/代码/多跳QA等6个benchmark上全面领先现有推理框架。

Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations

提出 ChemCoTBench,首个评估 LLM 化学推理能力的 CoT 基准,将复杂化学问题分解为模块化的化学操作(加/删/替换官能团),配合 22,000 条专家标注的 CoT 数据集(ChemCoTDataset),系统性评估了推理型和非推理型 LLM 在分子理解/编辑/优化/反应预测上的能力。

Clip-and-Verify: 线性约束驱动的域裁剪加速神经网络验证

提出Clip-and-Verify验证流水线,利用线性界传播过程中"免费"产生的线性约束,通过完全裁剪(坐标上升对偶求解)和松弛裁剪(闭式输入域收缩)两种GPU高效算法收紧全网络中间层界,在多个benchmark上减少高达96%的BaB子问题数量,是VNN-COMP 2025获胜验证器的核心组件。

Controlling Thinking Speed in Reasoning Models

通过表示工程(Representation Engineering)从 LRM 的隐藏空间中提取控制快/慢思考转换的 steering vector,结合基于层间 logit 散度的实时推理难度估计,实现无需训练的自适应推理速度调节,在 4 个 LRM 上平均提升 +1.3% 准确率并减少 -8.6% token 使用。

CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring

在 AI Control 框架下系统评估了 Chain-of-Thought 监控的有效性:发现 CoT 监控在检测微妙破坏行为上比仅监控 action 更有效(+10pp),但在检测明显破坏行为时反而更差(-25pp,因为推理中的伪合理化会欺骗监控),提出 hybrid 监控协议(独立评分 CoT 和 action 后加权)在所有场景下一致优于两种单一监控,检测率提升 2 倍。

Curriculum Abductive Learning

提出 Curriculum Abductive Learning (C-ABL),通过将知识库按依赖结构分割为子知识库并渐进式引入训练,大幅缩小 ABL 的 abduction 搜索空间,显著提升训练稳定性、收敛速度和最终精度。

DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization

分析 GRPO 目标函数,揭示其固有的难度偏差(对过难/过易问题赋予过低权重)和熵不稳定性问题,提出基于判别学习的 DisCO 框架,通过无裁剪评分函数、平方铰链约束优化和 DRO 处理不平衡 rollout,在 1.5B 模型上平均超过 GRPO 7%、超过 DAPO 6%。

Does Thinking More Always Help? Mirage of Test-Time Scaling in Reasoning Models

通过系统实验揭示 LRM 测试时扩展(反复 "Wait" 提示延长推理)的性能呈先升后降的非单调趋势,用概率模型证明这种"提升"只是方差增大导致的海市蜃楼而非真正推理能力提升,并提出 parallel thinking 策略在相同 token 预算下准确率提升最高 22%。

DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning

提出 DreamPRM,通过双层优化自动学习多模态推理数据集的域权重,解决 PRM 训练中的数据质量不均衡问题,在 MathVista 排行榜上以 o4-mini 模型达到 85.2% 的 top-1 准确率。

Exact Expressive Power of Transformers with Padding

本文精确刻画了带 padding 的 Transformer 的表达能力:固定深度 + 多项式 padding 恰好等于 \(\mathsf{FO}\)-uniform \(\mathsf{TC}^0\),进一步结合 \(O(\log^d n)\) looping 恰好等于 \(\mathsf{FO}\)-uniform \(\mathsf{TC}^d\),polylog looping 收敛到 \(\mathsf{NC}\),为 padding/looping 作为可并行推理时计算提供了完整理论基础。

ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning

提出 Self-Explanation Policy Optimization (ExPO),一种通过让模型在给定正确答案条件下自主生成推理链(self-explanation)作为正样本的模块化框架,解决 GRPO 等 RL 后训练方法在困难推理任务上因缺乏有效正样本而无法学习(分布锐化)的根本问题——ExPO 生成的自解释样本既在当前策略分布内(in-distribution),又能提供正向学习信号,可无缝集成到 DPO 和 GRPO 中。

GPO: Learning from Critical Steps to Improve LLM Reasoning

GPO 通过蒙特卡洛模拟估计推理轨迹中每一步的优势函数,识别出"关键步骤"(模型犯错的转折点),然后从关键步骤重置并重新采样轨迹用于训练,可以即插即用地提升 PPO、DPO、KTO、SimPO、ORPO 等多种优化算法在推理任务上的表现。

I-RAVEN-X: Benchmarking Generalization and Robustness of Analogical and Mathematical Reasoning in Large Language and Reasoning Models

提出 I-RAVEN-X,一个增强版的符号化推理基准,通过增加操作数复杂度、属性范围和感知不确定性来评估 LLM 和 LRM 的类比推理与数学推理的泛化能力和鲁棒性,发现 LRM 在确定性推理上显著优于 LLM,但在不确定性推理下性能急剧下降。

Inference-Time Chain-of-Thought Pruning with Latent Informativeness Signals

提出 KAPPA (KL-Adjusted Pruned Path Algorithm),利用 KL 散度、置信度和熵三个无需额外训练的信号对 Best-of-N 采样的推理分支进行渐进式剪枝,在保持准确率的同时实现最高 60% 峰值内存和 90% token 生成量的削减。

笔记1: CoT是幻觉吗?数据分布角度

通过构建完全可控的抽象环境DataAlchemy,本文揭示CoT推理是一种幻觉——其有效性完全由训练数据分布主导,在分布外场景表现极其脆弱。

Know What You Don't Know: Uncertainty Calibration of Process Reward Models

本文提出了一种基于分位数回归的PRM校准方法,使PRM输出的分数更准确地反映LLM实际推理成功概率,并基于校准后的PRM设计了实例自适应推理时缩放(IAS)策略,在保持准确率的同时显著降低推理成本。

Large Language Models Can Learn and Generalize Steganographic Chain-of-Thought under Process Supervision

证明 LLM 在 RL 训练中受到 CoT 过程监督(惩罚特定字符串出现)时,会自发学会隐写术(steganography)——用替代编码隐藏被禁止的推理步骤,且这种编码是因果性的(load-bearing)并能泛化到训练中从未见过的字符串。

Latent Chain-of-Thought for Visual Reasoning

将视觉CoT推理重新建模为后验推断问题,提出基于摊销变分推断(AVI)的LaCoT训练框架——包含参考引导GFlowNet微调(RGFN)、token级奖励近似和贝叶斯推理缩放(BiN)——在Qwen2.5-VL 3B/7B上比GRPO高出10.6%,在7个视觉推理基准上达到开源SOTA。

Let LRMs Break Free from Overthinking via Self-Braking Tuning

提出 Self-Braking Tuning (SBT) 框架,通过识别推理轨迹中的过度思考模式并构造自适应长度训练数据,使大型推理模型(LRM)学会自主判断何时停止推理,在数学推理任务上减少 30%-60% token 消耗的同时保持精度。

Let Me Think! A Long Chain-of-Thought Can Be Worth Exponentially Many Short Ones

本文从理论和实验两方面证明:存在推理任务(图连通性问题),其中一条长 CoT(顺序缩放)的能力等价于指数多条短 CoT(并行缩放)——即将 CoT 长度减少一点点,就需要指数级增加并行采样数才能达到同等准确率。

LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

提出PIR(基于困惑度的重要性精炼)框架,将LRM蒸馏的推理链分为"渐进推理"和"功能性步骤"(验证/多方法验证/纠错)两类,仅裁剪低PIR值的功能性步骤而完整保留渐进推理骨架,使微调后的模型在AIME/AMC/GPQA上准确率提升0.9%-6.6%同时token减少3%-41%,效率最高提升71%。

Lost in Transmission: When and Why LLMs Fail to Reason Globally

提出有界注意力前缀预言机(BAPO)计算框架,将LLM的注意力头建模为有限带宽通信信道,证明图可达性等全局推理问题是BAPO-hard的(需超常数带宽),且CoT可将任何BAPO-hard问题转化为BAPO-easy问题,实验在GPT-4o/Claude/Gemini上验证理论预测。

Many LLMs Are More Utilitarian Than One

在6款LLM的对照实验中发现"功利主义增强(Utilitarian Boost)"现象——LLM在成对/三人组讨论道德困境后比独立判断时更倾向接受"为了多数人的利益而伤害少数人",这一效应在涉及直接伤害的个人困境中尤为显著(\(\beta=0.31, p<.0001\)),且各模型产生功利主义增强的机制不同(有的因规范敏感性降低,有的因公正性增强)。

Mapping Faithful Reasoning in Language Models

提出Concept Walk框架,通过将推理模型每步的残差流激活投影到从对比数据学到的概念方向上,追踪内部概念表示在推理过程中的演化轨迹,以此区分CoT链是真正参与计算的还是仅为事后合理化的装饰性输出。

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

本文首次系统性地定义了 CoT 推理链中的"思维跳跃"(Thought Leap)现象,提出 CoT-Bridge 模型自动检测并补全推理链中被省略的中间步骤,在 NuminaMath 上最高提升 +5.87%,并可作为即插即用模块增强蒸馏和 RL 流程。

On Learning Verifiers and Implications to Chain-of-Thought Reasoning

提出学习Chain-of-Thought验证器的形式化PAC框架,定义三种递进强度的验证目标(Simple → Trustable → γ-Trustable),证明当每个问题只有少量正确证明时样本复杂度为 \(O(\log|H|)\),但当正确证明数量不受限时样本复杂度不可避免地跃升至 \(\Theta(|H|)\),除非验证器类满足交集封闭性等额外结构假设;同时利用USAT问题证明验证与生成之间存在计算复杂度差距。

One Token Embedding Is Enough to Deadlock Your Large Reasoning Model

本文提出 Deadlock Attack,通过优化单个对抗性 token embedding 并以后门方式植入 LRM,使模型在推理时陷入永久思考循环(无限生成 "Wait"、"But" 等过渡词),在 4 个 LRM 和 3 个数学推理 benchmark 上实现 100% 攻击成功率,且对正常输入几乎无性能影响。

ProofSketch: Efficient Verified Reasoning for Large Language Models

提出 ProofSketch 框架,通过符号闭包前向推理+短sketch生成+形式验证的多阶段pipeline,在降低token用量的同时提供逻辑推理的形式化正确性保证。

Provable Scaling Laws for the Test-Time Compute of Large Language Models

提出 Knockout(淘汰赛式两两淘汰)和 League(联赛式平均胜率排序)两种两阶段测试时计算算法,在"LLM 能以非零概率生成正确解"和"LLM 两两比较优于随机"的极弱假设下,从理论上证明失败概率随测试时计算量增长呈指数或幂律衰减至零,且整个算法仅需黑盒 LLM,无需外部验证器或奖励模型。

Re-FORC: Adaptive Reward Prediction for Efficient Chain-of-Thought Reasoning

提出Re-FORC,一个轻量级adapter在CoT推理过程中实时预测未来期望奖励 \(\psi(t|x,z,\pi)\),将推理计算分配建模为Pandora's box问题,实现自适应早停(节省26%计算)、模型+计算联合选择(同等计算下+4%准确率或同等准确率-55%计算)和测试时计算伸缩(+11%准确率),且用户可通过代价系数 \(\lambda\) 在推理时自由调控精度-效率权衡,无需重训。

RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics

提出 RealMath,一个从 arXiv 论文和 Math StackExchange 中自动提取可验证数学问题的可持续刷新基准,用于评估 LLM 在真实研究级数学任务上的能力。

ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

ReasonFlux-PRM 发现现有 PRM 无法有效评估推理模型的中间思考轨迹(trajectory),提出融合步骤级对齐/质量/连贯性分数和轨迹级模板引导奖励的 trajectory-aware PRM,在离线数据选择(SFT +12.1%)、在线 RL 奖励(+4.5%)和测试时 Best-of-N 缩放(+6.3%)三个场景中均显著优于包括 Qwen2.5-Math-PRM-72B 在内的强基线。

Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought

本文从理论上证明了连续思维链(Coconut)在有向图可达性问题上的表达优势:两层Transformer使用D步连续思维即可解决直径为D的图可达性问题,而离散CoT需要O(n²)步,其核心机制是连续思维向量以"叠加态"同时编码多条搜索前沿,实现隐式并行BFS。

Reasoning Models Better Express Their Confidence

系统性证明推理模型(extended CoT)比非推理模型具有显著更优的置信度校准能力,并揭示"慢思考"行为(探索替代方案、回溯、验证)是校准提升的根本来源。

Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models

揭示了RL训练的推理模型(如DeepSeek-R1)比非推理模型产生更多幻觉,从理论上分析了三个根因(高方差梯度、熵约束、伪局部最优),并提出FSPO算法通过步级事实性验证调整token级advantage,在减少幻觉的同时保持甚至提升推理能力。

Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling

提出 Variable Granularity Search (VG-Search),通过可调的验证粒度参数 \(g\) 统一 Beam Search 和 Best-of-N,发现传统每步验证是次优的,自适应调整 \(g\) 可在提升准确率3%+的同时减少52%+的计算量。

SafePath: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment

提出 SafePath,仅在推理开始处微调 8 个 token 的"Safety Primer"("Let's think about safety first"),即可有效引导 LRM 走向安全推理路径,在 DeepSeek-R1-Distill 上减少 90% 有害输出且仅需 Direct Refusal 1/296 的训练计算量。

Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding

提出 Self-Truncation Best-of-N (ST-BoN) 解码方法,通过理论证明早期隐状态一致性可预测最终一致性,在生成早期就识别并截断次优样本,实现降低80%+内存和50%延迟的同时保持BoN性能。

Scalable Best-of-N Selection for Large Language Models via Self-Certainty

提出Self-Certainty度量,利用LLM输出的token概率分布量化模型信心,在无需额外奖励模型的情况下实现可扩展的Best-of-N选择,性能媲美或超越基于奖励模型的方法。

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

提出SPO框架,采用段级(而非令牌级或轨迹级)的advantage估计,通过新颖的蒙特卡洛方法和树形采样,在短CoT和长CoT场景下分别超越PPO和GRPO 6-12和7-11个百分点。

笔记8:PolyMath - 多语言背景下的数学推理评估

PolyMath构建的18语言、4难度级、500问题数学推理基准揭露:(1)推理性能跨语言差异达10分,(2)推理模型输入-输出语言一致性低且可能影响性能,(3)思考长度在语言间显著不一致,为多语言推理研究提供新视角。

Smaller Models, Smarter Rewards: A Two-Sided Approach to Process and Outcome Rewards

将 Phi-4 系列小模型(3.8B/14B)的最后一层替换为回归头并微调,使其同时具备 ORM(结果奖励)和 PRM(过程奖励)能力,在代码生成任务上通过选择最优 rollout 实现 20%+ 的 pass@k 提升。

SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models

通过将长链式推理轨迹重组为交替的规划-并行执行阶段,Sprint 使推理模型在保持准确率的同时,将长推理链的顺序 token 数减少高达 39%(OOD 任务上最高 65%),实现推理过程的动态并行化。

SQL-of-Thought: Multi-agentic Text-to-SQL with Guided Error Correction

提出 SQL-of-Thought——一个多智能体 Text-to-SQL 框架,将任务分解为 schema linking → 子问题识别 → CoT 查询计划生成 → SQL 生成 → 基于 31 类错误分类法的引导修正循环,用 Claude 3 Opus 在 Spider 上达到 91.59% 执行准确率,比此前最佳 Chase SQL(87.6%)提升近 4 个百分点。

SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

首次系统地将 GRPO 强化学习应用于 NL2SQL 任务,通过四层递进式奖励函数和 200K 冷启动 + 5K 复杂样本 RL 训练策略,7B 模型在 Spider 和 BIRD 上分别达到 88.7% 和 66.6%,超越 GPT-4 同规模模型。

Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

PURE 发现 PRM 导致 reward hacking 的根本原因是 RL 中标准的 sum-form 信用分配(\(V(s) = \sum \gamma^t r_t\)),并提出 min-form 替代方案(\(V(s) = \min_{t' \geq t} r_{t'}\)),通过将价值函数限制为未来奖励的最小值而非累积和,显著缓解 reward hacking——仅用 30% 训练步数就达到与规则奖励方法相当的推理性能。

The Hawthorne Effect in Reasoning Models: Evaluating and Steering Test Awareness

首次系统量化推理型LLM的"测试感知"(Hawthorne效应):当模型察觉自己在被评估时会改变行为,论文通过线性探针定位感知激活并进行参数编辑引导,揭示测试感知对安全对齐的显著且方向不一致的影响。

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

通过可控拼图环境系统揭示大型推理模型(LRMs)的三阶段行为:低复杂度不如标准 LLM、中等复杂度显著优于、高复杂度完全崩溃(0%),且反直觉地在崩溃时减少思考 token,证实当前 LRMs 并未发展出真正泛化的推理能力。

The Impact of Quantization on Large Reasoning Model Reinforcement Learning

系统实验发现在大推理模型的 RL 训练中,量化感知训练(QAFT/STE)会损害推理能力,而训练后量化(PTQ)和 QLoRA 即使在 4-bit 精度下也能很好地保持推理性能,为实践者提供了"先全精度 RL、再 PTQ 量化"的推荐路线。

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

将可验证奖励的强化学习(RLVR)分解为正样本强化(PSR,增强正确回答概率)和负样本强化(NSR,惩罚错误回答),发现仅用 NSR 就能在整个 Pass@k 谱上持续提升推理性能且通常匹配或超越 PPO/GRPO,据此提出 Weighted-REINFORCE(降低 PSR 权重至 0.1)在 MATH/AIME 2025/AMC23 上取得全面最优。

The Virtues of Brevity: Avoid Overthinking in Parallel Test-Time Reasoning

证明在推理模型的 Best-of-N 采样中,选择最短解是一个简单、反直觉但高效的启发式方法,性能与 self-consistency 相当,token 成本显著更低,其原理在于利用了模型在"常规模式"与"过度思考模式"之间的系统性偏差。

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing

提出三阶段交互式视频转音频框架 ThinkSound,通过 MLLM 生成结构化 CoT 推理来指导统一的音频生成基础模型,在 VGGSound 和 MovieGen Audio 基准上达到 SOTA,同时支持对象级精细化和自然语言指令编辑。

TimE: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios

提出 TimE,一个包含 38,522 个 QA 对的多层级时间推理基准,覆盖知识密集(Wiki)、动态新闻(News)、长对话(Dial)三种真实场景和三级渐进式 11 子任务,全面评估 24 个 LLM 后发现即便最强推理模型在时间线构建和反事实推理等复杂任务上仍有显著短板。

TimE: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios

本文提出 TimE,一个包含 38,522 个 QA 对的多层级时间推理基准,覆盖知识密集(Wiki)、动态事件(News)和多轮对话(Dial)三类真实场景,设计 11 个细粒度子任务系统评估 LLM 的时间推理能力,并发布人工标注子集 TimE-Lite。

Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties

提出"推理图"概念——通过对 LLM 隐藏状态聚类构建有向图,从环路密度、直径和小世界指标三个图论维度分析大推理模型(如 DeepSeek-R1 蒸馏系列),发现推理模型的推理图具有显著更多环路(~5/样本)、更大直径和更强小世界特性(~6倍),且这些特性随任务难度和模型规模增长。

Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning

揭示了过度延长 CoT 长度会损害 LLM 推理性能,并提出 Thinking-Optimal Scaling (TOPS) 策略,让模型为每道题选择最短正确响应进行自我提升,在效果和效率上同时优于现有蒸馏方法。

Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalization

从优化理论角度证明了一层 Transformer 通过梯度下降在合成状态追踪任务上能学会 CoT 推理并实现长度泛化,首次为常数深度 Transformer 学习 \(\mathsf{NC}^1\)-complete 问题(超越之前局限于 \(\mathsf{TC}^0\) 的理论)提供了收敛保证。

TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation

提出 TTS-VAR——首个针对 Visual Auto-Regressive (VAR) 模型的测试时扩展框架,将图像生成建模为路径搜索问题,通过自适应递减批量 + 早期聚类多样性搜索 + 后期重采样潜力选择,在 Infinity 2B 上将 GenEval 分数从 0.69 提升到 0.75(+8.7%),N=2 即超越 Best-of-N 的 N=8 效果。

Two-Stage Learning of Stabilizing Neural Controllers via Zubov Sampling and Iterative Domain Expansion

提出两阶段训练框架——先用 Zubov 采样 + 动态域扩展估计吸引域(ROA),再用 CEGIS 反例精炼——联合学习神经网络控制器和 Lyapunov 函数,ROA 体积比基线大 5 到 \(1.5 \times 10^5\) 倍,验证速度比 dReal 快 40-10000 倍。

Unlabeled Data Can Provably Enhance In-Context Learning of Transformers

提出增强型ICL框架,在prompt中同时包含少量标记样本和大量无标记样本,理论证明多层Transformer通过CoT可模拟EM算法从无标记数据中提取信息,将分类excess risk从 \(\mathcal{O}(1/\sqrt{N})\) 改进到 \(\mathcal{O}(1/\sqrt{N + \text{poly}(M)})\)

Unlocking Multimodal Mathematical Reasoning via Process Reward Model

提出URSA三阶段框架,依次构建百万级多模态CoT数据(MMathCoT-1M)训练基座、双视角过程监督数据(DualMath-1.1M)训练PRM、以及PS-GRPO算法将PRM融入在线RL,8B模型在6个数学基准上平均超越GPT-4o 2.7%。

笔记6:Self-Evaluating LLMs - 多步任务的步级置信度估计

本文扩展置信度估计到多步任务,证明步级评估相比整体评估能更有效地检测推理失败,相对整体评估在CoQA上AUC-ROC提升15%,为多步推理系统的可信部署提供实用框架。

Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought

提出"视觉思维(Visual Thoughts)"作为统一框架解释多模态链式推理(MCoT)的有效性——无论是文本MCoT还是交错图文MCoT,其性能提升的核心机制都是将视觉信息缓存并传递到推理过程中,定义了四种视觉思维表达形式并揭示其在Transformer深层中作为图像-推理中介的角色。