Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective¶

会议: ACL 2026
arXiv: 2601.03154
代码: 无
领域: LLM推理
关键词: Chain-of-Thought, 人类标签变异, 分布对齐, 推理解耦, 模型先验

一句话总结¶

本文通过 Cross-CoT 实验和逐步分析，揭示了 CoT 推理的"解耦机制"：最终准确率由 CoT 内容决定（99% 方差贡献），但分布排序由模型内在先验主导（>80%），说明长 CoT 是强大的决策器但弱的分布校准器。

领域现状：推理增强的 LLM（如 DeepSeek-R1、Qwen3）通过长 CoT 在单答案任务上表现出色。然而许多现实任务本质上是模糊的，人类标注者之间存在合理的分歧（Human Label Variation, HLV），需要模型预测概率分布而非单一答案。

现有痛点：(1) CoT 推理是否有助于更好地逼近人类标签分布？(2) 如果有帮助，是 CoT 内容本身还是模型的内在参数知识在起作用？(3) CoT 可能会不自觉地压制有效的替代解释，偏向 top-1 选择。

核心矛盾：CoT 推理的设计目标是通过中间步骤逐步缩小不确定性、产生高置信度结论——这与 HLV 任务需要保留概率模糊性的要求天然冲突。

本文目标：系统地解耦 CoT 推理中"内容效果"和"模型先验效果"对输出分布的不同影响。

切入角度：Cross-CoT 实验——将一个模型的 CoT 注入另一个模型，测试推理是否可转移；逐步分析——截断 CoT 观察影响如何随推理步骤演变。

核心 idea：CoT 将概率质量集中到最可能的答案上（锁定 top-1），但无法精细调节非 top-1 选项的概率分配——后者由模型先验决定。

在 ChaosNLI 基准上（100 名标注者的集体意见分布）评估推理 LLM。使用三个互补指标：准确率（top-1 正确性）、JSD（分布对齐）、Spearman ρ（排序对齐）。通过两种解耦实验揭示 CoT 的作用机制。

Cross-CoT 实验:
- 功能：分离 CoT 内容效果和模型先验效果
- 核心思路：将模型 A 生成的 CoT 注入模型 B，观察模型 B 的输出分布受 CoT 内容还是自身先验的影响更大。用 ANOVA 分析方差贡献：如果 CoT 内容决定性地影响某个指标，则该指标的方差主要由 CoT 来源解释
- 设计动机：如果 CoT 是通用的推理器，那么注入任何好的 CoT 都应改善输出；如果模型先验主导，则 CoT 来源不重要
逐步分析（Step-wise Analysis）:
- 功能：追踪 CoT 对不同指标的影响在推理过程中如何演变
- 核心思路：在 CoT 的不同截断点（25%、50%、75%、100%）测量输出分布，观察准确率和分布指标的变化趋势
- 设计动机：如果 CoT 对准确率和分布的影响有不同的时间动态，则说明它们由不同机制驱动
多指标互补评估:
- 功能：全面评估 CoT 对输出分布的影响
- 核心思路：准确率仅评估 top-1，JSD 评估整体分布对齐，Spearman ρ 评估排序对齐且不受单调变换影响。三个指标共同揭示 CoT 的多面影响
- 设计动机：仅用准确率无法发现 CoT 对分布结构的影响（或缺乏影响）

本文是分析性研究，不涉及模型训练。使用 7 个 SOTA 推理 LLM（Qwen3、DeepSeek-R1 等），在 ChaosNLI 的三个子集上进行评估。

CoT 推理对分布指标的影响（MNLI）

模型	ACC(无CoT)	ACC(有CoT)	JSD(无CoT)	JSD(有CoT)
Qwen3	0.688	0.644	0.093	0.080↓
R1-Llama	0.666	0.689	0.082	0.077↓
R1-Qwen	0.734	0.672	0.080	0.072↓

Cross-CoT ANOVA 方差贡献分析