ICLR2026 LLM推理 benchmark topological reasoning spatial reasoning puzzle error diagnosis causal intervention

TopoBench: Benchmarking LLMs on Hard Topological Reasoning¶

会议: ICLR2026
arXiv: 2603.12133
代码: GitHub
领域: LLM推理
关键词: benchmark, topological reasoning, spatial reasoning, puzzle, error diagnosis, causal intervention

一句话总结¶

构建TopoBench基准(6类拓扑谜题×3难度)评估LLM的全局空间推理能力，发现前沿模型hard tier仅解决<24%，并通过因果干预实验发现错误频率不等于因果影响——低频的约束遗忘比高频的重复推理更具破坏性。

背景与动机¶

LLM在代数/符号推理上表现强劲，但在需要维护全局空间不变量（连通性、闭环、对称性）的任务上能力不足
现有谜题/推理基准多测试局部模式匹配或单元格级运算，不要求跨网格的全局约束维护
拓扑约束在电路布局、路径规划、分子结构分析等实际应用中普遍存在
现有评估仅报告准确率，无法区分模型失败源于推理本身还是空间信息提取/表示的局限
需要将观察性错误分类与因果验证结合的诊断方法

方法详解¶

整体框架¶

TopoBench = 拓扑谜题基准构建 + 观察性错误分类 + 因果干预验证 + 缓解策略测试

TopoBench基准¶

6类谜题覆盖不同拓扑/几何约束，每类3个难度(easy/medium/hard)，共900个实例： - FlowFree：路径连通——连接颜色匹配的端点且路径不交叉(5×5→12×12) - Bridges(Hashiwokakero)：网络连通——用桥连接编号岛屿，满足度数/交叉/连通约束 - Loopy(Slitherlink)：闭环约束——在网格边上画单一闭环，满足每格边数要求 - Galaxies(Tentai Show)：旋转对称——将网格划分为以标记中心旋转对称的区域 - Undead：反射与可见性——放置怪物满足穿过镜面的视线计数 - Pattern(Nonogram)：连续性——填充二进制网格匹配行/列run-length线索

难度通过两个轴控制：(1)棋盘大小(5×5→10×10/12×12)，(2)生成器内部难度旋钮(无需回溯的推理深度)。配备puzzle-specific验证器，二值评分(正确/错误,无部分分)。

两阶段诊断流程¶

阶段一(观察)：用LLM-as-Judge协议(GPT-5-mini)标注750条CoT推理链，分类为11种错误类型，统计各类错误频率。

阶段二(因果干预)：将4种错误模式注入部分金标准解题路径前缀(每条件各300题)，测量注入后下游准确率变化。通过对比注入前后的准确率差(Δ accuracy)量化每种错误的因果效应。

4种干预错误模式¶

RR(重复推理)：重复先前已尝试的推理路径而无实质变化——观察频率33%但因果效应≈0
PC(过早承诺)：过早锁定错误方向继续推进——因果效应~11pp准确率下降
STF(状态追踪失败)：推理过程中内部棋盘状态与实际不一致
CF(约束遗忘)：执行违反规则的动作——仅在4%trace中出现但因果效应~11pp

缓解策略¶

Cell-aligned网格表示：使每行token化为等数token的输入格式，大多数谜题family准确率提升
Tool-augmented约束查询：外部引擎维护棋盘状态并提供结构化约束信息(Bridges hard +10%)
提示级规划引导：鼓励规划和回溯的prompt变体——无显著改善，表明此类行为不可通过prompt可靠激发

实验¶

模型	Easy Avg	Medium Avg	Hard Avg
GPT-5-mini-high	0.71	0.44	0.24
Gemini-3-Flash	0.60	0.35	0.09
DeepSeek V3.2	0.58	0.37	0.10
Qwen3-235B	0.31	0.12	—
Qwen3-32B	0.07	—	—

因果干预实验¶

干预错误	观察频率	Bridges Δacc	Undead Δacc	因果效应
RR(重复推理)	33%	-0.5pp	+0.3pp	无
PC(过早承诺)	18%	-11pp	-11pp	强
CF(约束遗忘)	4%	-11pp	-9pp	强
STF(状态追踪失败)	12%	-5pp	-6pp	中等

关键发现: 1. Galaxies和Loopy在medium/hard上几乎所有模型准确率为0，全局不变量(旋转对称/闭环)是最难的约束类型 2. 错误频率≠因果影响：约束遗忘(CF)仅在4%失败trace中出现，但因果效应~11pp；重复推理(RR)在33%出现但因果效应≈0——是搜索的良性副产品 3. 过早承诺(PC)和约束遗忘(CF)是真正致命的错误模式，频率较低但破坏力极大 4. 工具增强：提供结构化约束信息(如剩余度数、连通性状态)可提升Bridges hard 10%，但提供ASCII网格视觉状态反而降低准确率 5. 核心结论：瓶颈在于从空间表示中提取结构化约束信息，而非对约束进行推理 6. 提示级干预(鼓励规划/回溯)在所有设置下均未产生有意义改善 7. 最强模型GPT-5-mini-high在hard tier仅24%，最强开源DeepSeek V3.2仅10%——远低于人类100%

亮点与洞察¶

错误频率≠因果影响的发现极具洞察力，挑战了常见假设
因果干预实验设计严谨：在金标准解题路径上注入控制变量
缓解策略实验区分了"空间表示解析"vs"约束推理"的瓶颈
6类谜题覆盖不同拓扑约束类型，设计全面

局限性¶

仅在DeepSeek V3.2上做因果干预分析(其他模型不暴露完整CoT或API限制)
谜题虽控制良好但与真实工程任务(电路布局/路径规划)有差距
ASCII文本输入限制了多模态模型的潜力（虽有初步多模态探索）
人类参考基于experienced solver，未报告新手人类的难度感知
hard tier大部分近零，区分度不足——可能需要更细粒度的难度梯度

评分¶

新颖性: ⭐⭐⭐⭐⭐ (因果干预+拓扑推理诊断组合独特)
实验充分度: ⭐⭐⭐⭐⭐ (9模型+6谜题+3难度+因果实验+缓解策略)
写作质量: ⭐⭐⭐⭐⭐ (结构清晰，分析深入)
价值: ⭐⭐⭐⭐ (揭示LLM空间推理的根本瓶颈)

TopoBench: Benchmarking LLMs on Hard Topological Reasoning¶

一句话总结¶

背景与动机¶

方法详解¶

整体框架¶

TopoBench基准¶

两阶段诊断流程¶

4种干预错误模式¶

缓解策略¶

实验¶

因果干预实验¶

亮点与洞察¶

相关工作与启发¶

局限性¶

相关工作¶

评分¶

TopoBench: Benchmarking LLMs on Hard Topological Reasoning¶

一句话总结¶

背景与动机¶

方法详解¶

整体框架¶

TopoBench基准¶

两阶段诊断流程¶

4种干预错误模式¶

缓解策略¶

实验¶

因果干预实验¶

亮点与洞察¶

相关工作与启发¶

局限性¶

相关工作¶

评分¶

相关论文¶