Benford's Curse: Tracing Digit Bias to Numerical Hallucination in LLMs¶
会议: NeurIPS 2025
arXiv: 2506.01734
代码: https://github.com/shamy28/Benford-Curse
领域: 模型压缩
关键词: Benford定律, 数字偏差, 数值幻觉, FFN神经元, 选择性剪枝
一句话总结¶
本文发现 LLM 的数值幻觉根源于预训练语料中符合 Benford 定律的数字频率分布——数字 1 出现概率 ~30% 而数字 9 仅 ~5%,这种偏差被 FFN 后期层的特定"数字选择性神经元"内化,提出数字选择性分数(DSC)定位偏差神经元并通过剪枝 0.01% 的神经元修正 1.36-3.49% 的错误预测。
研究背景与动机¶
领域现状:LLM 在基本数值推理任务(加减乘除、序列预测)上频繁出错,生成的数字系统性地偏向小数字。这种"数值幻觉"严重限制了 LLM 在金融、科学计算等需要精确数值的场景中的应用。
现有痛点:之前的研究关注 LLM 的推理链错误或 tokenization 问题,但没有追溯到训练数据本身的数字分布偏差。Chain-of-Thought 等方法可以改善推理但无法修复底层的数字生成偏差。
核心矛盾:真实世界数据天然遵循 Benford 定律(首位数字 1 的概率约 30.1%),但数值推理任务需要均匀的数字生成能力。预训练数据的统计特性被模型内化为系统性偏差。
本文目标 (a) 证明 LLM 数值偏差确实来源于训练数据的 Benford 分布;(b) 定位负责偏差的具体神经元;(c) 探索轻量级修正方法。
切入角度:用 Logit Lens 技术追踪数字偏好在 Transformer 各层的演化轨迹,发现偏差集中在后期层的 FFN 模块中,而非注意力模块。通过 DSC 指标精确定位偏差神经元。
核心 idea:Benford 定律分布的训练数据 → 后期层 FFN 的数字选择性神经元 → 系统性数值幻觉 → DSC 定位 + 靶向剪枝修正。
方法详解¶
整体框架¶
分析预训练语料数字分布(验证 Benford 定律)→ 构建均匀分布的数字偏差基准(7 个任务,>1000 例/任务)→ Logit Lens 追踪各层数字偏好轨迹 → 提出 DSC 量化神经元的数字选择性 → Spearman 相关分析 FFN vs 注意力 → 剪枝最偏向数字 1 的 0.01% FFN 神经元
关键设计¶
-
数字偏差基准(Digit Bias Benchmark):
- 功能:构建均匀分布答案的数值推理测试集来隔离模型的生成偏差
- 核心思路:7 个任务(加减法、乘法、除法、表达式求值、整数根、一元一次方程、数列求和),每个任务 >1000 例,答案中每个数字(0-9)出现概率均为 ~10%。比较模型生成数字的频率分布与均匀分布的偏离
- 设计动机:如果答案本身不偏,而模型生成偏向小数字,那偏差就一定来自模型本身。"首位错误数字"分析进一步发现错误位置也遵循 Benford 分布
-
数字选择性分数(DSC)+ 层级定位:
- 功能:量化每个 FFN 神经元对特定数字的偏好程度
- 核心思路:\(\text{DSC}_i = S / \text{rank}(i)\),其中 \(S\) 是所有数字 token 的排名之和。Logit Lens 分析发现数字偏差在第 20-27 层(接近最后)急剧出现。Spearman 相关分析显示 FFN 输出的 DSC 与残差流的 DSC 在后期层高度相关(\(r=0.949\)),而注意力模块的相关性弱得多
- 设计动机:精确定位到"哪些层的哪些模块的哪些神经元"负责编码数字偏差,为靶向修正提供基础
-
靶向神经元剪枝:
- 功能:通过移除最偏向数字 1 的神经元来修正数值幻觉
- 核心思路:按 DSC 排序筛选出最偏向数字 1 的前 0.01% FFN 神经元,将其权重置零。在 LLaMA2-7B/Mistral-7B/Qwen2.5-7B 上验证
- 设计动机:只剪极少量神经元(0.01%),最小化对模型其他能力的影响。实验表明可修正 1.36-3.49% 的错误,且数字 1 的频率从 16.26% 降到 11.17%
损失函数 / 训练策略¶
- 纯分析工作 + 推理时干预,无训练
- 在 Olmo-Mix-1124 预训练语料上验证 Benford 分布
- 跨 4 个模型族验证(LLaMA2, Mistral, Qwen2.5, Gemma2)
实验关键数据¶
主实验¶
| 模型 | 数字1频率(原始) | 数字1频率(剪枝后) | Evaluate任务修正率 | GSM8k修正率 |
|---|---|---|---|---|
| LLaMA2-7B | 16.26% | 11.17% | 1.36% | 2.35% |
| Mistral-7B | 15.63% | 11.85% | 1.22% | — |
| Qwen2.5-7B | 16.45% | 14.72% | 3.49% | 2.12% |
(目标均匀分布: 10%/数字)
消融实验¶
| 分析维度 | 发现 |
|---|---|
| 偏差出现层 | 第 20-27 层(接近最后),早期层几乎无偏差 |
| FFN vs 注意力 | FFN 的 DSC 与残差 DSC 相关性 r=0.949,注意力模块弱 |
| Pearson 相关(语料频率 vs 神经元偏好) | r=0.949(极强正相关) |
| 首位错误数字分布 | 紧密遵循 Benford 定律(比生成数字本身更偏) |
关键发现¶
- 预训练语料的数字频率与 Benford 定律高度一致(数字 1 约 30%,数字 9 约 5%)
- 这种分布被 FFN 后期层的特定神经元内化——数字 1 选择性最高的神经元数量远超数字 9
- 模型的"首位错误数字"比整体输出更偏——表明偏差在决策边界上最强
- 仅剪枝 0.01% 的神经元就能显著减少数字 1 的过度生成
- 4 个不同模型族展现出一致的模式,说明这是普遍现象
亮点与洞察¶
- Benford 定律视角极其新颖:首次将经典统计定律与 LLM 数值幻觉联系起来,提供了数据驱动的因果解释(虽然作者谨慎地未声明因果性)
- 层级定位的精度令人印象深刻:偏差不是全模型均匀分布的,而是集中在 FFN 后期层的极少数神经元中——0.01% 就能产生可观的修正效果
- "首位错误数字"的 Benford 分析特别有趣:这意味着模型在"不确定"时更倾向于猜小数字,暗示了一种基于频率的隐式先验
局限与展望¶
- 仅在 7-9B 模型上实验,更大模型或 MoE 架构是否有同样现象未知
- 仅证明了相关性而非因果性——需要在控制数字分布的数据上重新训练才能确认因果关系
- 剪枝方法粗糙,可能同时伤害正确预测——修正率仅 1.36-3.49%
- 主要分析单数字 tokenizer 模型,多数字 tokenizer(如 GPT-4)的行为可能不同
相关工作与启发¶
- vs GoT/CoT 等推理增强: 推理链改善逻辑但不修复底层数字偏差,本文直接处理偏差根源
- vs 数值嵌入方法: NumericalEncoding 等方法从 token 表示入手,本文从训练数据分布和神经元偏好入手
- vs Tokenizer 数值表示研究:xVal 等改进数字 tokenization,但不解决训练数据的数字分布偏差
- vs Debiasing in NLP:文本去偏方法关注社会偏见,本文的数字去偏是全新维度
- vs Tokenizer 数值表示研究:xVal 等改进数字 tokenization,但不解决训练数据的数字分布偏差
- vs Debiasing in NLP:文本去偏方法关注社会偏见,本文的数字去偏是一个全新维度
- 可迁移技术:DSC 指标和条件剪枝可推广到其他类型的生成偏差分析
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Benford 定律视角全新,层级定位分析深入
- 实验充分度: ⭐⭐⭐⭐ 4 个模型族 + 7 个任务 + 层级分析 + 剪枝验证
- 写作质量: ⭐⭐⭐⭐⭐ 故事线从观察→机制→干预层层递进,非常吸引人
- 价值: ⭐⭐⭐⭐⭐ 揭示了 LLM 数值幻觉的一个根本原因,对模型改进有直接指导