Lost in Transmission: When and Why LLMs Fail to Reason Globally¶

会议: NeurIPS 2025 (Spotlight)
arXiv: 2505.08140
代码: 无
领域: LLM推理
关键词: communication complexity, bounded attention, chain-of-thought, LLM limitations, computational framework
作者: Tobias Schnabel, Kiran Tomlinson, Adith Swaminathan, Jennifer Neville (Microsoft)

一句话总结¶

提出有界注意力前缀预言机(BAPO)计算框架，将LLM的注意力头建模为有限带宽通信信道，证明图可达性等全局推理问题是BAPO-hard的（需超常数带宽），且CoT可将任何BAPO-hard问题转化为BAPO-easy问题，实验在GPT-4o/Claude/Gemini上验证理论预测。

研究背景与动机¶

核心矛盾¶

核心矛盾：领域现状：LLM全局推理的系统性失败：基于Transformer的LLM在需要整合输入大部分信息的任务上（如图可达性、变量追踪、多数投票聚合）持续失败，即使模型规模很大也无济于事。

缺乏原理性解释：现有工作多在实证层面观察失败，缺少形式化框架来解释为什么某些任务难而某些容易，也无法预测哪类问题LLM会失败。

信息流瓶颈假说：论文认为失败根源并非计算能力不足（增加MLP宽度或层数无效），而是注意力机制的通信带宽限制——信息在残差流之间通过注意力传递时存在容量瓶颈。

CoT有效性的理论空白：Chain-of-Thought在实践中对复杂推理有帮助，但缺乏严格理论解释其为何以及何时有效。

通信复杂性的已有框架不够精准：已有工作用通信复杂性研究Transformer能力，但未能准确建模因果注意力中前缀→后缀的单向信息流特性。

实用意义：理解带宽限制可以指导架构设计（如增大带宽）、推理策略选择（CoT分解）和任务难度预判。

方法详解¶

BAPO计算框架¶

核心定义：\((b_p, b_a)\)-BAPO（有界注意力前缀预言机） - 将输入序列在任意位置分为前缀和后缀两部分 - 前缀流（模拟早期token的残差流）：可做无限计算，但只能向后缀发送 \(b_p\) 比特信息 - 后缀流（模拟最后一个token的残差流）：可通过注意力从前缀获取 \(b_a\) 比特信息 - 总通信带宽为 \((b_p, b_a)\)，要求对所有可能的分割位置都能正确输出 - 简化假设：前缀/后缀有无限计算能力、单token输出、完美位置编码

问题分类（三个硬度类） - BAPO-easy：常数带宽 \((O(1), O(1))\) 即可解决（如：检查首尾元素是否相同） - BAPO-hard：需要超常数带宽 \(\omega(1)\)，随输入长度增长（如：图可达性、字符串相等判定） - BAPO-Σ-hard：带宽依赖于字母表大小 \(|\Sigma|\)（如：第k大元素，k为常数时需 \(O(|\Sigma|)\)）

分析的6个问题及其带宽 1. First-Last（首尾比较）：BAPO-easy，\((0,1)\) 2. Equality（字符串相等）：BAPO-hard，\(\Omega(n)\) 3. Graph Reachability（图可达性）：BAPO-hard，至少 \(\Omega(\sqrt{n})\) 4. Variable Tracking（变量追踪）：BAPO-hard 5. Majority（多数投票）：BAPO-hard 6. Code Tracing（代码追踪）：映射到图可达性，BAPO-hard

CoT的理论作用 - 定理：对任何可判定问题，使用足够多的CoT推理token后，常数带宽 \((2,3)\) 的BAPO可以模拟图灵机的单步计算 - 推论：CoT使常数带宽BAPO变成图灵完备的，任何BAPO-hard问题都可通过CoT分解为一系列BAPO-easy子步骤 - 代价：可能需要大量推理token（实验中o3和Gemini 2.5 Flash使用10k+ token解决BAPO-hard问题）

实验设计¶

在6个合成任务上测试GPT-4o、Claude Haiku、Gemini 1.5 Pro（无CoT）和带CoT版本
变化输入大小 \(n\)（如图节点数从10到200），观察准确率随 \(n\) 的变化
扩展到真实任务：情感分析聚合、代码追踪

实验关键数据¶

表1：BAPO-easy vs BAPO-hard 在LLM上的表现¶

任务类型	典型问题	带宽需求	GPT-4o/Claude/Gemini(n=200)
BAPO-easy	First-Last比较	\((0,1)\)	~100%准确率，保持稳定
BAPO-hard	图可达性	\(\Omega(\sqrt{n})\)	随n增大急剧下降至~50%(随机水平)
BAPO-hard	字符串相等	\(\Omega(n)\)	中等n时已开始失败
BAPO-hard	变量追踪	超常数	较小n时即失败

表2：CoT对BAPO-hard问题的效果¶

模型	CoT方式	BAPO-hard准确率	推理token量
GPT-4o等(无CoT)	-	随n增大→随机	N/A
GPT-4o(250词CoT限制)	外部CoT	有限提升，n>50后仍下降	~250词
o3 / Gemini 2.5 Flash	内部推理	保持高准确率	10,000+ tokens

关键发现：(1) BAPO-easy/hard的分类精确预测了LLM的成功/失败模式；(2) CoT有效但需足够长的推理链——250词限制不够，o3/Gemini的内部长推理则可解决；(3) 真实任务(情感聚合、代码追踪)中也观察到与理论一致的BAPO-hard失败。

亮点与洞察¶

优雅的理论框架：BAPO模型将复杂的Transformer行为抽象为简洁的通信带宽问题，建立了理论-实验的清晰对应，AC评价其为"clean and valuable theoretical contribution"
原理性解释CoT：首次证明CoT的理论效力——将BAPO变成图灵完备，提供了CoT有效性的形式化保证，而非仅实证观察
精确的预测能力：BAPO-easy/hard分类在GPT-4o、Claude、Gemini上都得到验证，理论预测与实验高度吻合
架构设计启示：指出增加MLP宽度/层数（计算能力）无法解决问题，关键在于增大注意力通信带宽，为架构改进提供方向性指引
NeurIPS 2025 Spotlight：4位审稿人中3位给Accept(5分)，AC强调其在理解LLM方面的重要性和对后续研究的激发作用

局限与展望¶

模型抽象过度简化：假设前缀/后缀有无限计算能力、完美位置编码、单token输出，与真实Transformer差距较大，限制了直接应用性
任务集合有限：仅分析6个合成问题，尚未覆盖更多自然语言中的推理任务；理论下界多数是松弛的
有效带宽的根因不明：论文承认不理解"为什么LLM的有效带宽如此有限"，可能与泛化能力的权衡有关
CoT实验不够充分：250词CoT限制下的实验效果不明显（Figure 4），仅o3/Gemini内部推理成功，但这些是闭源模型无法深入分析
缺少训练小模型的验证：审稿人建议在BAPO-hard任务上从头训练小Transformer以隔离架构因素，论文未做此实验

评分¶

维度	评分	说明
新颖性	⭐⭐⭐⭐⭐	全新的BAPO计算框架，首次将通信带宽视角系统性地应用于LLM推理失败分析
技术深度	⭐⭐⭐⭐⭐	严格的理论证明(图灵完备性、带宽下界) + 多模型实验验证，39页完整论文
实验充分性	⭐⭐⭐	合成任务验证了理论预测，但任务数量有限、CoT实验不够充分
实际影响	⭐⭐⭐⭐	为理解LLM局限性和CoT有效性提供理论基础，可指导架构设计和推理策略