Benford's Curse: Tracing Digit Bias to Numerical Hallucination in LLMs¶

会议: NeurIPS 2025
arXiv: 2506.01734
代码: https://github.com/shamy28/Benford-Curse
领域: 模型压缩
关键词: Benford定律, 数字偏差, 数值幻觉, FFN神经元, 选择性剪枝

一句话总结¶

本文发现 LLM 的数值幻觉根源于预训练语料中符合 Benford 定律的数字频率分布——数字 1 出现概率 ~30% 而数字 9 仅 ~5%，这种偏差被 FFN 后期层的特定"数字选择性神经元"内化，提出数字选择性分数（DSC）定位偏差神经元并通过剪枝 0.01% 的神经元修正 1.36-3.49% 的错误预测。

研究背景与动机¶

领域现状：LLM 在基本数值推理任务（加减乘除、序列预测）上频繁出错，生成的数字系统性地偏向小数字。这种"数值幻觉"严重限制了 LLM 在金融、科学计算等需要精确数值的场景中的应用。

现有痛点：之前的研究关注 LLM 的推理链错误或 tokenization 问题，但没有追溯到训练数据本身的数字分布偏差。Chain-of-Thought 等方法可以改善推理但无法修复底层的数字生成偏差。

核心矛盾：真实世界数据天然遵循 Benford 定律（首位数字 1 的概率约 30.1%），但数值推理任务需要均匀的数字生成能力。预训练数据的统计特性被模型内化为系统性偏差。

本文目标 (a) 证明 LLM 数值偏差确实来源于训练数据的 Benford 分布；(b) 定位负责偏差的具体神经元；(c) 探索轻量级修正方法。

切入角度：用 Logit Lens 技术追踪数字偏好在 Transformer 各层的演化轨迹，发现偏差集中在后期层的 FFN 模块中，而非注意力模块。通过 DSC 指标精确定位偏差神经元。

核心 idea：Benford 定律分布的训练数据 → 后期层 FFN 的数字选择性神经元 → 系统性数值幻觉 → DSC 定位 + 靶向剪枝修正。

方法详解¶

整体框架¶

分析预训练语料数字分布（验证 Benford 定律）→ 构建均匀分布的数字偏差基准（7 个任务，>1000 例/任务）→ Logit Lens 追踪各层数字偏好轨迹 → 提出 DSC 量化神经元的数字选择性 → Spearman 相关分析 FFN vs 注意力 → 剪枝最偏向数字 1 的 0.01% FFN 神经元

关键设计¶

数字偏差基准（Digit Bias Benchmark）:
- 功能：构建均匀分布答案的数值推理测试集来隔离模型的生成偏差
- 核心思路：7 个任务（加减法、乘法、除法、表达式求值、整数根、一元一次方程、数列求和），每个任务 >1000 例，答案中每个数字（0-9）出现概率均为 ~10%。比较模型生成数字的频率分布与均匀分布的偏离
- 设计动机：如果答案本身不偏，而模型生成偏向小数字，那偏差就一定来自模型本身。"首位错误数字"分析进一步发现错误位置也遵循 Benford 分布
数字选择性分数（DSC）+ 层级定位:
- 功能：量化每个 FFN 神经元对特定数字的偏好程度
- 核心思路：\(\text{DSC}_i = S / \text{rank}(i)\)，其中 \(S\) 是所有数字 token 的排名之和。Logit Lens 分析发现数字偏差在第 20-27 层（接近最后）急剧出现。Spearman 相关分析显示 FFN 输出的 DSC 与残差流的 DSC 在后期层高度相关（\(r=0.949\)），而注意力模块的相关性弱得多
- 设计动机：精确定位到"哪些层的哪些模块的哪些神经元"负责编码数字偏差，为靶向修正提供基础
靶向神经元剪枝:
- 功能：通过移除最偏向数字 1 的神经元来修正数值幻觉
- 核心思路：按 DSC 排序筛选出最偏向数字 1 的前 0.01% FFN 神经元，将其权重置零。在 LLaMA2-7B/Mistral-7B/Qwen2.5-7B 上验证
- 设计动机：只剪极少量神经元（0.01%），最小化对模型其他能力的影响。实验表明可修正 1.36-3.49% 的错误，且数字 1 的频率从 16.26% 降到 11.17%

损失函数 / 训练策略¶

纯分析工作 + 推理时干预，无训练
在 Olmo-Mix-1124 预训练语料上验证 Benford 分布
跨 4 个模型族验证（LLaMA2, Mistral, Qwen2.5, Gemma2）

实验关键数据¶

主实验¶

模型	数字1频率（原始）	数字1频率（剪枝后）	Evaluate任务修正率	GSM8k修正率
LLaMA2-7B	16.26%	11.17%	1.36%	2.35%
Mistral-7B	15.63%	11.85%	1.22%	—
Qwen2.5-7B	16.45%	14.72%	3.49%	2.12%

（目标均匀分布: 10%/数字）

消融实验¶

分析维度	发现
偏差出现层	第 20-27 层（接近最后），早期层几乎无偏差
FFN vs 注意力	FFN 的 DSC 与残差 DSC 相关性 r=0.949，注意力模块弱
Pearson 相关（语料频率 vs 神经元偏好）	r=0.949（极强正相关）
首位错误数字分布	紧密遵循 Benford 定律（比生成数字本身更偏）

关键发现¶

预训练语料的数字频率与 Benford 定律高度一致（数字 1 约 30%，数字 9 约 5%）
这种分布被 FFN 后期层的特定神经元内化——数字 1 选择性最高的神经元数量远超数字 9
模型的"首位错误数字"比整体输出更偏——表明偏差在决策边界上最强
仅剪枝 0.01% 的神经元就能显著减少数字 1 的过度生成
4 个不同模型族展现出一致的模式，说明这是普遍现象

亮点与洞察¶

Benford 定律视角极其新颖：首次将经典统计定律与 LLM 数值幻觉联系起来，提供了数据驱动的因果解释（虽然作者谨慎地未声明因果性）
层级定位的精度令人印象深刻：偏差不是全模型均匀分布的，而是集中在 FFN 后期层的极少数神经元中——0.01% 就能产生可观的修正效果
"首位错误数字"的 Benford 分析特别有趣：这意味着模型在"不确定"时更倾向于猜小数字，暗示了一种基于频率的隐式先验

局限与展望¶

仅在 7-9B 模型上实验，更大模型或 MoE 架构是否有同样现象未知
仅证明了相关性而非因果性——需要在控制数字分布的数据上重新训练才能确认因果关系
剪枝方法粗糙，可能同时伤害正确预测——修正率仅 1.36-3.49%
主要分析单数字 tokenizer 模型，多数字 tokenizer（如 GPT-4）的行为可能不同

评分¶

新颖性: ⭐⭐⭐⭐⭐ Benford 定律视角全新，层级定位分析深入
实验充分度: ⭐⭐⭐⭐ 4 个模型族 + 7 个任务 + 层级分析 + 剪枝验证
写作质量: ⭐⭐⭐⭐⭐ 故事线从观察→机制→干预层层递进，非常吸引人
价值: ⭐⭐⭐⭐⭐ 揭示了 LLM 数值幻觉的一个根本原因，对模型改进有直接指导