DeepPrune: Parallel Scaling without Inter-Trace Redundancy¶

会议: ACL 2026 Findings
arXiv: 2510.08483
代码: https://deepprune.github.io/
领域: 模型压缩
关键词: 并行推理, CoT剪枝, 推理冗余, 答案等价预测, 推理效率

一句话总结¶

本文提出 DeepPrune，通过训练专门的判断模型从部分推理轨迹预测答案等价性，结合在线贪心聚类算法动态剪枝冗余的并行 CoT 路径，在保持竞争准确率（3 个百分点以内）的同时减少 65.73%-88.50% 的 token 消耗。

研究背景与动机¶

领域现状：并行扩展（如 best-of-n 采样）通过同时生成多条推理轨迹来增强 LLM 推理能力，总 token 消耗可达 100M+。现有高效推理方法主要关注序列扩展的过度思考问题，对并行扩展的效率研究较少。

现有痛点：(1) 超过 80% 的并行推理轨迹产生相同的最终答案，代表了大量浪费的计算；(2) 基于置信度的早停方法无法减少轨迹间冗余，且有过早终止正确推理的风险；(3) 浅层语义相似度（如 SentenceBERT）无法从早期推理阶段预测最终答案等价性。

核心矛盾：并行扩展的收益来自答案多样性（少数不同答案中可能包含正确答案），但绝大多数（80%+）并行轨迹产生相同答案，多样性极低。

本文目标：在保留答案多样性的前提下，主动剪枝冗余的并行推理轨迹。

切入角度：训练专门的判断模型来理解推理过程的深层语义，从部分推理轨迹预测两条轨迹是否最终会得到相同答案。

核心 idea：早期发现答案等价 → 保留多样轨迹 + 剪枝冗余轨迹 → 高效并行扩展。

方法详解¶

整体框架¶

DeepPrune 分两个阶段。离线训练阶段：构造大量「并行轨迹对」并标注它们最终答案是否等价的二元标签，用 Focal Loss 加过采样训练出一个判断模型（judge model），让它能从两条轨迹各自的前 \(N\) 个 token 就预判二者是否殊途同归（OOD 上 AUROC=0.7072）。在线剪枝阶段：并行生成多条推理轨迹时，用判断模型把轨迹动态聚成「答案等价组」——新轨迹与已有各组的代表比对，判为等价就归入该组并立即停止生成（剪掉冗余），判为不等价就新开一组；每组只留一条代表继续推理，最后对存活的各组代表做多数投票（majority voting）得到最终答案。这样既掐掉了 80%+ 的冗余计算，又把不同答案各自保成一组、不破坏答案多样性。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph TRAIN["答案等价判断模型（离线训练）"]
        direction TB
        A["OOD 数据<br/>AIME 2022/2023 + MATH 500"] --> B["构造并行轨迹对<br/>标注答案等价二元标签"]
        B --> C["训练判断模型<br/>Qwen3-4B + Focal Loss + 过采样"]
    end
    C --> D["并行生成多条推理轨迹<br/>各取前 N 个 token"]
    subgraph PRUNE["在线贪心聚类与动态剪枝"]
        direction TB
        D --> E{"判断模型比对<br/>与各组代表是否答案等价"}
        E -->|等价| F["归入该组并剪枝<br/>停止继续生成"]
        E -->|不等价| G["新开一组<br/>代表轨迹继续生成"]
    end
    F --> H["对各组代表多数投票<br/>输出最终答案"]
    G --> H

关键设计¶

1. 答案等价判断模型：从半截推理就看出两条轨迹会不会殊途同归

剪枝冗余轨迹的前提是"早期就能判断两条轨迹最终是否得到相同答案"，但浅层语义相似度（SentenceBERT，AUROC=0.58，几乎等于随机）和通用 LLM（AUROC=0.66）都做不到——它们只看文本表面，读不懂推理过程的深层语义。本文为此专门训了一个判断模型：以 Qwen3-4B 为底座，输入是两条轨迹各自的前 \(N\) 个 token，输出是它们答案等价的概率。

训练时刻意用 OOD 的 AIME 2022/2023 和 MATH 500 构造轨迹对，与评估集 AIME 2024/2025 严格不重叠，并用 Focal Loss 加过采样缓解正负样本失衡（等价对远多于不等价对）。这样训出来的模型在 OOD 上达到 AUROC=0.7072，明显超过 SentenceBERT（0.58）和通用 LLM（0.66）两个基线，能在轨迹只跑了一半时就预判它会不会和别人撞答案。

更关键的是跨模型泛化：真实部署里不可能为每个新上线的推理模型重训一个判断模型，因此本文在训练集与评估集完全隔离的设定下，验证它能直接迁移到训练时未见过的推理模型（DeepSeek-8B、Qwen3-32B、GPT-OSS-20B），逼模型学到「推理过程是否同质」这种与具体生成模型无关的信号、而非记住某个模型的表面文风——这是整套方案具备实用价值的前提。

2. 在线贪心聚类与动态剪枝：边推理边收敛，不等全部跑完

光有判断模型还不够，关键是怎么用它省算力。本文不做事后剪枝，而是在推理进行中维护一组"答案等价组"：每当某条轨迹生成出新片段，就用判断模型拿它和已有各组的代表轨迹比一遍，若判为等价就直接剪掉这条（停止继续生成），若不等价就为它新开一组；每组只留一条代表轨迹继续往下跑。

这种在线贪心的好处是冗余轨迹在半途就被掐断、而不是白白生成到底，省下的 token 远多于事后剪枝；同时"每组留一条代表"保证了答案多样性不被破坏——少数不同答案各自成组，正确答案所在的稀有分支不会被误剪。所有轨迹处理完后，对存活的各组代表做多数投票得出最终答案。贪心虽不保证全局最优，但在实践中很好地平衡了效率与多样性。

损失函数 / 训练策略¶

判断模型用 Focal Loss 训练这个二分类任务，并对少数类（不等价对）过采样以平衡数据，二者共同缓解"等价对占绝大多数"带来的类别失衡。

实验关键数据¶

主实验¶

与标准共识采样的对比（LLaDA 推理模型）

方法	Token 减少率	准确率差异
标准共识采样	0%	基线
置信度早停	~30%	可能损害
DeepPrune	65.73%-88.50%	≤3%

消融实验¶

组件	效果
判断模型 AUROC	0.7072（OOD 泛化）
SentenceBERT 基线	0.58（接近随机）
通用 LLM 基线	0.66（次优）

关键发现¶

DeepPrune 在三个挑战性基准（AIME 2024、AIME 2025、GPQA）上减少 65-88% token
准确率损失控制在 3 个百分点以内
判断模型成功泛化到未见过的推理模型
剪枝保留了答案多样性——高多样性轨迹不会被误剪

亮点与洞察¶

定量揭示了并行推理的核心效率问题：80%+ 的轨迹产生相同答案
从"推理理解"而非"文本相似"出发训练判断模型，是对浅层方法的重要改进
在线剪枝设计使得加速在推理过程中即时生效

局限与展望¶

判断模型的 AUROC（0.7072）仍有提升空间，可能导致少量有价值轨迹被误剪
在线聚类的贪心策略可能次优
依赖特定的判断阈值，不同场景可能需要调整
仅在数学推理任务上验证，其他推理类型的效果待确认

评分¶

新颖性: ⭐⭐⭐⭐ 并行推理冗余分析和答案等价判断模型是新颖贡献
实验充分度: ⭐⭐⭐⭐ 三个基准、多模型验证、OOD 泛化测试
写作质量: ⭐⭐⭐⭐ 问题分析清晰，方法直观
价值: ⭐⭐⭐⭐ 为推理时并行扩展的效率化提供了实用工具