💡 LLM 推理¶
🔬 ICLR2026 · 71 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (37) · 📷 CVPR2026 (16) · 🤖 AAAI2026 (30) · 🧠 NeurIPS2025 (67) · 📹 ICCV2025 (3) · 🧪 ICML2025 (17)
🔥 高频主题: 推理 ×47 · LLM ×10 · 多模态 ×3 · Agent ×2 · 对抗鲁棒 ×2
- Adaptive Social Learning via Mode Policy Optimization for Language Agents
-
提出 Adaptive Social Learning(ASL)框架,设计四种层次化推理模式(从直觉回应到深度推演),并通过 AMPO 算法(融合模式级和样本级优势估计)让 LLM agent 根据社交场景复杂度自适应切换推理深度,在社交智能任务上比 GPT-4o 高 15.6%,比 GRPO 高 7.0% 且 token 用量减少 32.8%。
- Agentified Assessment of Logical Reasoning Agents
-
提出基于Agent的评测框架(AAA),将评估逻辑封装为assessor agent并通过标准A2A接口与被测agent交互,在经Vampire定理证明器系统清洗的FOLIO数据集上,自动形式化agent(NL→Z3Py+SMT求解)达到86.70%准确率,大幅超过CoT基线73.89%,尤其在矛盾检测(False类)上提升32.79个百分点。
- AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent
-
AgentMath提出一个工具增强的Agent框架,通过自动化数据合成、多轮交互式强化学习和高效异步训练系统,将LLM推理能力与代码解释器的计算精度无缝结合,在AIME24/25和HMMT25上以30B-A3B规模达到SOTA水平(90.6%/86.4%/73.8%),超越o3-mini和Claude-Opus-4.0-Thinking。
- AIMCoT: Active Information-driven Multimodal Chain-of-Thought for Vision-Language Reasoning
-
提出 AIMCoT,将多模态 CoT 的视觉信息选择从"被动关注高注意力区域"转变为"主动寻找最高信息增益区域",通过三个模块(CAG 上下文增强注意力图、AVP 主动视觉探测、DAT 动态注意力转移触发)协同工作,在 LLaVA-W 上比 ICoT 提升 18.25%(0-shot),是一个免训练的即插即用框架。
- Annotation-Efficient Universal Honesty Alignment
-
提出 EliCal(先激发后校准)两阶段框架,先用无标注的 self-consistency 信号教 LLM 表达内部置信度,再用极少量正确性标注(仅 1k 个,占 0.18%)进行校准,在 HonestyBench(560K 训练 + 70K 评估)上达到接近全量标注 98% 的诚实性对齐性能,并在未见 MMLU 任务上泛化优于仅校准基线。
- Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought?
-
系统评估推理型 LLM 对其 CoT 中各种干预(良性/中性/对抗性)的鲁棒性:发现模型总体鲁棒能从干预中恢复,但改写风格(paraphrasing)会抑制"自我怀疑"表达导致正确率下降,恢复过程有显著计算开销(CoT 膨胀最高 665%)。
- ATTS: Asynchronous Test-Time Scaling via Conformal Prediction
-
提出 ATTS,一个基于 conformal prediction 的异步 test-time scaling 框架,通过将 rejection sampling 重构为假设检验过程来消除同步开销,在 MATH/AIME 等数学推理任务上实现最高 56.7x 加速和 4.14x 吞吐量提升,且无精度损失;1.5B/70B 的 draft/target 组合可达到 o3-mini (high) 的 AIME 水平。
- Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts
-
提出 Contact Searching Question (CSQ) 框架,基于有向图可达性任务和认知心理学原理设计两个互补统计指标——欺骗意图分数 \(\rho\) 和欺骗行为分数 \(\delta\),首次系统揭示 16 个主流 LLM 在完全良性提示下存在随任务难度升级的自发欺骗倾向。
- Compositional Generalization from Learned Skills via CoT Training: A Theoretical and Structural Analysis for Reasoning
-
本文通过信息论泛化界和可解释性分析证明,CoT 训练的核心机制是组合泛化——模型学会系统性地组合已学的简单技能来解决新颖复杂问题,并内化为两阶段组合推理电路,使中间结果在更浅层提取,释放深层专注于后续推理步骤。
- Conflict-Aware Fusion: Resolving Logic Inertia in Large Language Models via Structured Cognitive Priors
-
揭示了 LLM 的"逻辑惯性"现象——在遇到矛盾前提时仍沿学习到的推理轨迹继续推理(准确率降至 0.0),提出 Conflict-Aware Fusion 双过程架构,通过强制前提验证先于推理执行,在矛盾检测上实现 100% 准确率。
- Continuous Chain of Thought Enables Parallel Exploration and Reasoning
-
CoT2 提出用连续值 token(词表 embedding 的凸组合)替代离散 token 进行链式推理,使模型能在单次推理中并行追踪多条推理路径,理论证明等价于 K 次 self-consistency/best-of-N 采样,并通过 GRPO 强化学习进一步提升性能。
- CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos
-
提出CoT-RVS,一种完全无训练的多智能体框架,利用预训练MLLM的零样本CoT推理能力进行时间-语义关联分析与关键帧选取,在推理视频分割任务上大幅超越微调方法(Refer-DAVIS J&F 79.1 vs 71.2,ReasonVOS J&F 65.5 vs 49.9)。
- CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling
-
将推理过程中的反思token(如"wait"、"but")视为可调度的"资源",借鉴优化中周期性学习率的思想,提出CyclicReflex——一种免训练的解码策略,通过三角波形动态调控反思token的logit,在多个数学推理基准上(MATH500, AIME2024/2025, AMC2023)一致性提升1.5B-8B模型准确率。
- DAG-Math: Graph-of-Thought Guided Mathematical Reasoning in LLMs
-
将 LLM 的 CoT 推理形式化为 DAG 上的基于规则的随机过程,提出"逻辑闭合性"(logical closeness)度量来评估模型是否通过搜索还是严格逻辑推理得到答案,构建了 2894 个金标准 DAG-MATH benchmark,发现即使 PASS@k 相近的模型在推理忠实度上也存在显著差异。
- DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning
-
提出 Design Logic(设计逻辑)——从真题中逆向工程出的可复用元知识,用于指导从原始文本合成多学科推理问题。构建了 470 万道覆盖 75 学科的推理题目,SFT 后的 base 模型甚至超越经过完整后训练的官方模型。
- Doxing via the Lens: Revealing Location-related Privacy Leakage on Multi-modal Large Reasoning Models
-
本文系统揭示了多模态大推理模型(MLRM)通过图像推断敏感地理位置信息的隐私泄露风险,提出了三级隐私风险框架和 DoxBench 基准,以及信息论度量 Glare 和协作攻击框架 GeoMiner。
- Doxing via the Lens: Revealing Location-related Privacy Leakage on Multi-modal Large Reasoning Models
-
本文首次系统研究了多模态大推理模型(MLRMs)从用户生成图像中推断敏感地理位置信息的隐私泄露风险,提出三级隐私风险框架、DoxBench 基准和 Glare 信息论评估指标,发现 MLRMs 在地理推断上超越非专家人类,显著降低了攻击者获取敏感位置信息的门槛。
- DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization
-
诊断出 GRPO 在加入长度惩罚后的根本缺陷——正确但冗长的回答可能获得负优势值从而被错误惩罚——提出 DRPO 将正负样本的奖励信号解耦,确保长度惩罚只在正确回答组内归一化,在 1.5B 模型上实现 77% 长度缩减仅 1.1% 性能损失(对比基线 68% 缩减 4.3% 损失)。
- Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models
-
将 RL 微调中每个 prompt 的求解进度建模为隐马尔可夫动力系统,通过轻量贝叶斯推断在线预测 prompt 的求解状态,优先采样"部分求解"的 prompt,以不到 DS 30% 的 rollout 量达到同等甚至更优的推理性能。
- Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure
-
将隐式CoT建模为结构因果模型(SCM),通过逐步do-干预分析Coconut和CODI两种范式,发现隐式推理步骤具有异质性因果杠杆、非局部跳跃传播结构、以及输出层早期偏向与表征层晚期提交之间的持续性差距。
- Efficient Test-Time Scaling for Small Vision-Language Models
-
为小型 VLM 提出两种高效的测试时缩放策略:TTAug(对输入做多种增强后在 token 级别聚合输出概率)和 TTAdapt(用 TTAug 生成的伪标签自适应调整模型参数),在 9 个基准上一致提升性能,同时计算效率远优于现有的基于重复采样的测试时方法。
- Estimating the Empowerment of Language Model Agents
-
提出 EELMA 算法,利用信息论中的"赋权"(empowerment,即 agent 动作与未来状态的互信息)作为目标无关的 LM Agent 能力度量指标,在语言游戏和真实网页浏览场景中与任务表现强相关(\(r=0.83\)–\(0.94\)),可用于开放式 agent 监控与安全评估。
- Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval
-
受认知科学双过程理论启发,提出 RF-Mem 框架,通过 Familiarity(快速相似度匹配)和 Recollection(深层链式重建)双路径自适应切换的记忆检索机制,实现高效且可扩展的 LLM 个性化。
- FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning
-
针对GRPO训练中生成阶段占91%-98%时间的严重瓶颈,提出并发感知的投机解码策略(动态调整draft树参数以适配从高到低的实时并发度变化)和在线draft模型学习(利用目标模型生成的hidden states持续适配分布漂移),整体实现2.35x-2.72x端到端训练加速,且不损害推理质量。
- Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning
-
Fine-R1 通过 CoT 监督微调("视觉分析→候选子类→对比→预测"结构化推理链)+ 三元组增强策略优化 TAPO(类内增强提升鲁棒性 + 类间增强提升判别力),仅用 4-shot 训练即在细粒度视觉识别上超越 CLIP 和通用/推理型 MLLM。
- Fixing the Broken Compass: Diagnosing and Improving Inference-Time Reward Modeling
-
系统诊断推理时奖励模型(RM)的三大失效模式——简单题性能退化、采样数增多时辨别力下降、高搜索多样性损害准确率,并提出 CRISP 算法通过答案聚类的奖励聚合与逐步前缀引导来缓解这些问题,准确率提升最高 5%。
- From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics
-
提出 ContextMATH 基准,通过将 AIME/MATH-500 抽象数学题转化为情景嵌入(SG)和复杂度缩放(CS)两种变体,揭示即使是 GPT-5 和 DeepSeek-R1 等顶级模型在上下文数学推理中也出现 13-34% 的准确率下降,且错误主要由问题建模(formulation)而非计算推理导致。
- From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics
-
本文提出 ContextMATH 基准,通过将 AIME 和 MATH-500 的抽象数学问题转换为两种情境变体(场景嵌入 SG 和复杂度缩放 CS),系统揭示了LLM在情境化数学推理中的大幅性能下降——开源模型在 SG 上平均下降 13%,CS 上下降 34%——并识别出"问题建模"和"推理执行"是两个互补的性能瓶颈。
- Generalizable End-to-End Tool-Use RL with Synthetic CodeGym
-
提出 CodeGym 框架,将编程题自动转化为多轮工具调用的交互式环境,用于 LLM agent 的强化学习训练,在分布外基准上取得显著泛化提升(如 Qwen2.5-32B 在 τ-Bench 上 +8.7 点)。
- GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs
-
形式化Program-to-Geometry任务并提出GeoGramBench(500题),按三级几何复杂度分类法评估19个前沿LLM从过程式绘图代码构建几何表征并推理的能力,发现即使GPT-5在最高抽象级别也仅39.26%准确率,揭示了LLM空间抽象的根本性短板。
- Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
-
揭示GRPO的优势函数(std归一化)导致更新幅度在中等难度题目处最大、对难题和易题均隐式抑制的问题,提出MathForge框架——DGPO(用MAD替换std实现难度均衡 + softmax难度加权)+ MQR(添加故事背景/抽象术语/嵌套子问题三方面改写增加难度但保留原答案),在Qwen2.5-Math-7B上在6个数学推理benchmark上平均超GRPO +4.56%。
- HeurekaBench: A Benchmarking Framework for AI Co-scientist
-
提出 HeurekaBench,一个基于真实科学工作流构建评测基准的框架,通过多LLM流水线从论文中提取可验证的科学洞见并生成开放式研究问题,用于评估AI co-scientist在数据驱动科学发现中的端到端能力。
- I Can't Believe It's Not Robust: Catastrophic Collapse of Safety Classifiers under Embedding Drift
-
本文系统研究了基于 frozen embedding 的安全分类器在模型更新导致 embedding 漂移时的脆弱性,发现仅 2% 的 embedding 扰动即可将分类器性能从 85% ROC-AUC 降至随机水平(50%),且 72% 的误分类发生在高置信度下(silent failure),同时 instruction-tuned 模型反而比 base 模型更难分类。
- Is In-Context Learning Learning?
-
通过大规模控制变量实验系统分析 ICL 是否构成"学习",发现数学上 ICL 满足学习定义,但实证表明其泛化能力有限——模型主要依赖 prompt 中的结构规律进行模式推演(deduction),而非从示例中真正习得新能力。
- Is It Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort
-
提出 TRACE(Truncated Reasoning AUC Evaluation)方法,通过逐步截断推理链并测量模型"多早"能获得奖励来量化推理努力程度,从而检测 CoT 监控无法发现的隐式奖励黑客行为,在数学和代码任务中比最强 CoT 监控器分别提升 65% 和 30% 以上的检测 F1。
- LingOly-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation
-
提出LingOly-TOO基准,通过专家设计的正字法置换(grapheme-level permutation)对语言学奥赛题进行混淆,保留推理逻辑但消除知识/记忆捷径,将15个前沿模型的最高分从0.59降至0.48,系统量化了LLM推理能力被知识效应高估的程度。
- mR3: Multilingual Rubric-Agnostic Reward Reasoning Models
-
提出 mR3,一系列覆盖72种语言的多语言rubric-agnostic推理奖励模型,通过系统化的数据构建(GPT-OSS-120B蒸馏+难度过滤)和课程学习策略训练,14B模型在多语言评估基准上超越120B教师模型及所有同类基线,同时支持point-wise/pair-wise/binary三种评估范式。
- Native Reasoning Models: Training Language Models to Reason on Unverifiable Data
-
提出 NRT(Native Reasoning Training)框架,将推理链视为隐变量,通过模型自身对参考答案的预测置信度作为内在奖励信号训练 LLM 推理能力,无需外部验证器或专家推理示范;在 Llama-3.1-8B 上 9 个基准平均提升 10.2 分(46.0→56.2),超越需要验证器的 RLPR +5.4 分。
- No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes
-
在 LLM 生成答案之前,仅从问题处理后的残差流激活中训练线性探针(difference-of-means),即可预测模型即将生成的答案是否正确。该"提前正确性方向"在 TriviaQA 上训练后可跨域泛化到多个事实知识数据集(AUROC 0.68-0.88),但无法泛化到数学推理(GSM8K),揭示了"事实正确性"与"推理正确性"在模型内部表征中的结构性分离。
- Nudging the Boundaries of LLM Reasoning
-
指出GRPO无法从模型完全无法解决的难题(pass rate=0%)中学习的根本局限,提出NuRL方法在训练时对难题注入自生成的抽象hint(不泄露答案)使其变为可学习样本,跨3个模型6个benchmark一致超越GRPO并真正提升pass@k能力上界。
- On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning
-
提出 Regularized Policy Gradient (RPG) 框架,系统推导并分析了基于 Forward/Reverse KL 散度(归一化和非归一化形式)的策略梯度方法,发现 GRPO 的 KL 项存在理论不一致性,并在数学推理任务上取得优于 GRPO、REINFORCE++、DAPO 的结果。
- On The Fragility of Benchmark Contamination Detection in Reasoning Models
-
系统性研究发现 LRM 的基准污染检测极其脆弱:SFT 阶段引入的污染在经过 GRPO 训练后检测信号几乎消失(PPO 式重要性采样/裁剪是根因),而对高级 LRM 直接用 CoT 做 SFT 污染则几乎不留任何可检测痕迹,现有 10 种检测方法均接近随机猜测。
- Plan and Budget: Effective and Efficient Test-Time Scaling on Reasoning LLMs
-
提出 Plan-and-Budget 框架,通过将复杂查询分解为子问题并基于估计复杂度自适应分配 token 预算,实现推理 LLM 的高效测试时缩放——最高提升 70% 准确率、减少 39% token、E3 指标提升 193.8%。
- PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation
-
首次将分解式 Chain-of-Thought 推理与多维度强化学习(RL)结合应用于视频到音频(V2A)生成,通过四个专门化的 CoT 模块(语义/时序/美学/空间)配合对应奖励函数,解决了目标纠缠问题,并提出 Fast-GRPO 算法大幅降低 RL 训练开销。
- RAIN-Merging: A Gradient-Free Method to Enhance Instruction Following in Large Reasoning Models with Preserved Thinking Format
-
针对大推理模型(LRM)推理能力强但指令遵循能力弱的矛盾,提出 RAIN-Merging 方法,通过零空间投影保持 thinking 格式不变、注意力引导系数增强指令相关性,无需梯度训练即可将指令微调模型(ITM)的能力合并进 LRM,在 4 个指令遵循和 9 个推理基准上均取得稳定提升。
- RAIN-Merging: A Gradient-Free Method to Enhance Instruction Following Through Model Merging
-
提出 RAIN-Merging,一种无梯度的两阶段模型合并方法:先通过零空间投影保护大推理模型 (LRM) 的思维格式,再用指令注意力引导的合并系数增强指令遵循能力,在保持推理质量的同时大幅提升 LRM 的指令遵循性能。
- Reasoning or Retrieval? A Study of Answer Attribution on Large Reasoning Models
-
首次系统研究大型推理模型(LRM)的答案来源归因问题,揭示推理(CoT)和检索(记忆)两种机制同时竞争影响最终答案,并提出 Farl(遗忘增强强化学习)通过抑制检索捷径来提升模型的真实推理能力。
- ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization
-
提出 ReForm,一种反思式自动形式化范式,将自然语言数学问题转为 Lean 形式声明的过程从一次生成转变为"生成 → 语义自验证 → 修正"的迭代循环,并设计 PBSO 算法优化异构奖励信号,在四个基准上比最强基线平均提升 22.6 个百分点。
- RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models
-
提出推理忠实度(Reasoning Faithfulness)的形式化定义(立场一致性 + 因果影响),构建 7,186 实例/7 任务的 RFEval 基准,通过输出层反事实推理干预评估 12 个开源 LRM,发现 49.7% 的输出不忠实,且 RL 后训练会降低忠实度、准确率不是忠实度的可靠代理指标。
- Scaling Generalist Data-Analytic Agents
-
提出 DataMind——一套完整的数据分析 Agent 训练方案,通过细粒度任务分类+递归难度组合实现多样 query 合成、知识增强轨迹采样+自一致性过滤保证数据质量、SFT+RL 动态混合训练策略以及内存友好的异步 rollout 框架,训练出的 DataMind-14B 以 71.16% 平均分在多个基准上 SOTA,超越 GPT-5 和 DeepSeek-V3.1。
- SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes
-
提出 SceneCOT,首个将 Chain-of-Thought 推理引入 3D 场景理解的框架,通过四阶段推理管线(任务识别→区域定位→实体接地→接地推理)将中间推理步骤显式关联到视觉 grounding,在 Beacon3D 上 Good Coherence 达到 34.7%(比最强 baseline 的 20.4% 高出 70%+)。
- SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models
-
提出SealQA挑战基准(含Seal-0/Seal-Hard/LongSeal三种变体),每道题均经NLP研究者精心设计以触发歧义/冲突/噪声搜索结果,GPT-5最高仅43.2%准确率,揭示test-time scaling在噪声检索下不产生可靠增益。
- Segment-Level Attribution for Selective Learning of Long Reasoning Traces
-
用Integrated Gradients计算长推理链中每个segment对最终答案的归因强度和方向一致性,识别重要segment进行选择性SFT,相比全CoT训练提升准确率达4.7%同时缩短输出18%。
- Temperature as a Meta-Policy: Adaptive Temperature in LLM Reinforcement Learning
-
提出 TAMPO(Temperature Adaptive Meta Policy Optimization),将采样温度重新定义为可学习的元策略,通过双层循环在内环做 LLM 策略优化、外环根据轨迹优势信号自适应更新温度分布,无需额外 rollout,在数学推理基准上一致超越固定温度基线。
- The First Impression Problem: Internal Bias Triggers Overthinking in Reasoning Models
-
推理模型在看到问题的瞬间就形成了对答案的"第一印象"(内部偏差),当这个直觉猜测与后续系统推理产生冲突时,模型会反复自我质疑、重新检查,导致推理长度膨胀 21%–43%,而现有所有缓解方法均无法从根本上消除这一效应。
- The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
-
揭示短任务基准给出"收益递减"的假象——单步准确率的微小提升在长任务中指数级放大;发现 LLM 的"自我条件化效应"(自身错误增加后续出错概率),thinking 模型可修复此效应;GPT-5 thinking 可执行超过 2100 步长任务。
- The Path of Least Resistance: Guiding LLM Reasoning Trajectories with Prefix Consensus
-
提出 PoLR(Path of Least Resistance),首个利用推理前缀一致性的推理时方法,通过聚类短前缀并仅展开主导簇来替代标准 Self-Consistency,在 GSM8K/Math500/AIME/GPQA 等基准上保持甚至提升准确率的同时减少 40%–60% 的 token 用量和最高 50% 的延迟。
- Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs
-
提出 AdaAnchor 潜空间推理框架——将可学习的锚向量(anchor vectors)附加到输入嵌入中,通过迭代前向传播精炼锚状态实现"沉默思考",配合基于锚稳定性的自适应停止机制按实例难度动态分配计算量,在数学推理任务上比固定步潜推理准确率提升最高 5%、平均步数减少 48–60%,输出 token 相比 CoT 减少 92–93%。
- TopoBench: Benchmarking LLMs on Hard Topological Reasoning
-
构建TopoBench基准(6类拓扑谜题×3难度)评估LLM的全局空间推理能力,发现前沿模型hard tier仅解决<24%,并通过因果干预实验发现错误频率不等于因果影响——低频的约束遗忘比高频的重复推理更具破坏性。
- Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention
-
提出 Intervened Preference Optimization (IPO),通过在推理过程中的关键步骤替换合规线索为安全触发器,构造偏好对进行训练,显著提升大推理模型(LRM)思维链推理过程本身的安全性。
- Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention
-
揭示大推理模型(LRM)的推理链即使最终回答安全也常包含有害内容的问题,提出 Intervened Preference Optimization(IPO),通过用安全触发器替换合规线索来纠正不安全推理轨迹,构造偏好对进行对齐训练,在 3 个 LRM 上将推理有害率降低超过 30% 且不损害推理能力。
- Training Large Reasoning Models Efficiently via Progressive Thought Encoding
-
提出 Progressive Thought Encoding,通过在 KV 缓存被淘汰时将 token 信息编码为固定大小的 LoRA 权重更新,使大推理模型能在有限缓存下进行高效 RL 训练,同时保持长程推理能力。
- Training Large Reasoning Models Efficiently via Progressive Thought Encoding
-
提出 Progressive Thought Encoding,在 KV 缓存受限条件下将被驱逐的思维 token 编码进 LoRA 权重,使大推理模型在 RL 训练时显存减半的同时推理准确率反超全缓存 LoRA(AIME2024/2025 上最高提升 +23.4%)。
- TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis
-
提出TumorChain,面向消化系统五大器官肿瘤分析的交错多模态CoT推理框架,通过知识图谱驱动的1.5M CoT-VQA数据引擎、器官引导的迭代交错推理(IIR)和分割/分类/LLM三模型协同优化,实现从影像发现→临床印象→病理预测的完整推理链,平均精度84.41%,大幅超越GPT-5-Mini(51.59%)。
- Understanding the Role of Training Data in Test-Time Scaling
-
从理论上分析训练数据属性如何影响 test-time scaling 的效果,证明 CoT 推理等价于伪牛顿法迭代,提出基于特征协方差最小特征值的任务难度度量,揭示"更多思考不一定更好"的 overthinking 现象机制,并给出多任务训练中最优任务选择策略——训练集应多样、相关且困难。
- Uni-CoT: Towards Unified Chain-of-Thought Reasoning Across Text and Vision
-
提出 Uni-CoT 分层宏-微推理框架,将多模态 CoT 分解为宏观任务规划(将复杂任务分解为子目标)和微观子任务执行(MDP 式自反思迭代优化),通过注意力掩码设计将 \(O(T^2)\) 复杂度降至 \(O(T)\),在 GenEval 上超越 BAGEL 基线 +0.02,实现了文本-图像交织的统一推理。
- Verifying Chain-of-Thought Reasoning via Its Computational Graph
-
提出 CRV(Circuit-based Reasoning Verification),通过将 LLM 的 MLP 替换为 transcoder 构建可解释归因图,从图的结构特征中提取推理错误的"指纹",实现白盒 CoT 推理验证,并可通过因果干预修正错误推理。
- When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models
-
系统性基准测试与机制解释压缩(量化/蒸馏/剪枝)对大推理模型的影响,发现三大核心结论:参数数量对知识记忆影响大于推理能力;蒸馏模型最后一层 MLP up_proj 是最关键权重;保护仅 2% 的被过度压缩权重即可提升平均准确率 6.57%。
- When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models
-
系统研究量化、蒸馏、剪枝三种压缩方法对大型推理模型 (LRM) 的影响,通过性能基准测试和机制可解释性分析,揭示权重数量对知识记忆影响大于推理、最后一层 MLP up_proj 是最关键组件、以及当前量化方法过度压缩最后层等核心发现。
- When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning
-
本文系统分析了 Qwen2.5-Math-7B 在 GSM8K 上的隐式推理行为,发现 81.6% 的正确预测来自计算不一致的路径,8.8% 为静默失败(高置信错误),并揭示了推理深度与准确率之间的悖论关系。
- Why is Your Language Model a Poor Implicit Reward Model?
-
本文通过理论和实验揭示了隐式奖励模型(IM-RM,如DPO)比显式奖励模型(EX-RM)泛化更差的根本原因——IM-RM过度依赖表面token级线索而非语义表示,导致在token分布偏移下准确率大幅下降,同时反驳了"生成-验证差距"假说。