跳转至

CRISP: Compressing Redundancy in Chain-of-Thought via Intrinsic Saliency Pruning

会议: ACL 2026
arXiv: 2604.17297
代码: GitHub
领域: LLM推理效率
关键词: 思维链压缩, 注意力显著性, 推理冗余, 贪心搜索, 高效推理

一句话总结

提出 CRISP 框架,发现 </think> token 的注意力模式能可靠区分推理链中的关键步骤和冗余步骤,据此设计四种原子操作的贪心搜索压缩流水线,在保持准确率的同时减少50-60%的 token 用量。

研究背景与动机

领域现状:推理型 LLM(如 DeepSeek-R1、OpenAI o1)通过生成长链思维链(CoT)实现强大推理能力,但也带来巨大的计算开销和延迟。CoT 压缩成为实际部署的必需。

现有痛点:现有 CoT 压缩方法通常依赖外部代理模型(如独立的 LLM)来评估和剪枝推理步骤。但外部压缩器与源模型的内在推理动态不对齐——它们经常将自我纠正等关键中间步骤误判为冗余,破坏推理链的逻辑连贯性。

核心矛盾:需要找到一种信号来区分推理链中的"关键逻辑步骤"和"冗余步骤",但这种信号不应来自外部模型(会引入不对齐),而应来自模型自身的内在机制。

本文目标:利用模型自身的内在信号(而非外部代理)来指导 CoT 压缩。

切入角度:观察到 </think> token 在深层注意力中充当"信息锚点"——模型在生成最终答案时主要关注 </think> 位置而非中间推理步骤,而 </think> 的注意力分布恰好反映了各推理步骤对最终答案的贡献大小。

核心 idea:利用 </think> token 的注意力模式作为步骤显著性的内在指标,通过四种原子操作(保留、剪枝、重写、融合)的贪心搜索构造压缩推理路径,再用 LLM 精炼器恢复语法连贯性。

方法详解

整体框架

CRISP 包含三个阶段:(1)原始 CoT 生成——从源模型获取完整推理轨迹;(2)关键推理路径搜索——利用 </think> 注意力评估步骤显著性,通过动态操作符压缩推理链;(3)精炼与微调——用 LLM 恢复压缩路径的语义连贯性,然后用多任务目标微调目标模型。

关键设计

  1. </think> 作为信息锚点的发现:

    • 功能:提供无需外部模型的步骤显著性信号
    • 核心思路:通过注意力可视化发现,在深层中 </think> token 逐渐聚合前方推理链的信息,最终答案生成时模型主要关注 </think> 位置。步骤显著性 \(S_i\) 定义为所有层、所有头上 </think> 对步骤 \(r_i\) 中 token 的注意力权重之和的归一化。高注意力步骤编码关键信息(剪除后 PPL 飙升),低注意力步骤可安全移除(PPL 仅微增)
    • 设计动机:外部代理与源模型的推理动态不对齐,而 </think> 的注意力模式是源模型自身"认为什么重要"的直接反映
  2. 四种原子操作的贪心搜索:

    • 功能:在显著性引导下灵活压缩推理链
    • 核心思路:定义四种操作——Keep(保留高显著步骤)、Prune(移除低显著步骤)、Rewrite(用 LLM 精简步骤)、Fuse(合并语义重复步骤)。动态动作空间根据显著性分数和语义相似度约束允许的操作。奖励函数 \(R(a) = \log P_\theta(y|x, \mathcal{C} \oplus a(r_i)) - \log P_\theta(y|x, \mathcal{C}) - \beta \cdot \text{Len}(a(r_i))\) 平衡答案似然增益和长度惩罚
    • 设计动机:简单阈值过滤会切断逻辑依赖或保留冗余;四种操作提供了从完全保留到完全移除的连续压缩粒度
  3. 压缩路径精炼与多任务微调:

    • 功能:恢复压缩路径的语义连贯性并训练模型
    • 核心思路:贪心搜索产生的骨架可能有语法断裂,用高级 LLM 精炼器以原始 CoT 为参考恢复流畅性。微调采用控制 token \(\kappa\) 的多任务策略:带 \(\kappa\) 的输入生成压缩推理,不带的生成完整推理,避免灾难性遗忘
    • 设计动机:离散搜索操作(特别是 Prune 和 Fuse)可能引入逻辑断层,需要精炼步骤恢复

损失函数 / 训练策略

标准自回归负对数似然损失,混合原始轨迹和压缩轨迹训练。3个 epoch,学习率 \(1 \times 10^{-5}\),基于 MATH 数据集的2500个样本。注意力阈值 \(\tau_{\text{high}}\)\(\tau_{\text{low}}\) 分别取前30%和后20%分位数。

实验关键数据

主实验

方法 模型 GSM8K Acc GSM8K Tok MATH-500 Acc MATH-500 TE
Original 1.5B 81.6 1669 78.2 2.22
CRISP 1.5B 80.6 587 75.0 4.14
Original 7B 90.8 1376 87.4 2.86
CRISP 7B 90.1 374 84.2 7.35

消融实验

方法 1.5B 平均 TE 7B 平均 TE 说明
Original 2.10 2.81 基线
CoD (提示策略) 2.61 4.31 控制粒度不足
TALE (外部压缩) 2.31 3.15 外部不对齐
A*-Thought 2.99 4.04 搜索但无内在信号
CRISP 4.31 6.80 最优效率-准确率权衡

关键发现

  • CRISP 在 Token Efficiency 上大幅领先所有基线(7B模型上6.80 vs 次优4.31)
  • 7B模型上 GSM8K 只用374个 token(原始1376),准确率仅掉0.7%
  • </think> 注意力验证实验清晰:剪除高注意力步骤 PPL 飙升,剪除低注意力步骤 PPL 几乎不变
  • 显著性分数呈现非均匀分布,只有少量步骤对最终答案有高贡献

亮点与洞察

  • </think> 作为信息锚点的发现极有洞察力:揭示了推理模型的内在注意力机制如何"总结"整个推理过程,这一发现对理解推理模型的工作原理有独立价值
  • 四种原子操作的设计提供了灵活的压缩粒度:比简单的保留/删除更精细,Fuse 和 Rewrite 允许在压缩的同时保留信息
  • Token Efficiency 指标的采用使得效率-准确率权衡可量化比较

局限与展望

  • 贪心搜索的计算开销(每步评估多个操作)可能在超长 CoT 上成为瓶颈
  • 精炼步骤依赖外部 LLM,引入了额外成本
  • 仅在数学推理数据集上验证,代码和逻辑推理的泛化性未测试
  • 控制 token 的多任务训练策略相对简单,可能存在更好的训练方案

相关工作与启发

  • vs CoD/TALE(提示/外部压缩): CoD 通过提示限制长度但控制不精细,TALE 用外部模型压缩但引入不对齐。CRISP 利用模型自身的注意力信号,从根源避免了不对齐问题
  • vs RL方法(如长度惩罚): RL 方法计算开销大且对奖励设计敏感,CRISP 通过后处理压缩避免了 RL 的不稳定性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ </think> 信息锚点的发现有原创性,四种操作的贪心搜索设计精巧
  • 实验充分度: ⭐⭐⭐⭐ 两个模型规模+三个基准+多种基线,但领域覆盖有限
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,发现引人入胜,实验组织良好 代码: 待确认
    领域: llm_reasoning
    关键词: 待补充

一句话总结

待深读论文后补充

研究背景与动机

待深读论文后补充

方法详解

待深读论文后补充

实验关键数据

待深读论文后补充

亮点与洞察

待深读论文后补充

局限性 / 可改进方向

待深读论文后补充

相关工作与启发

待深读论文后补充

评分

  • 新颖性: 待评
  • 实验充分度: 待评
  • 写作质量: 待评
  • 价值: 待评