TopoBench: Benchmarking LLMs on Hard Topological Reasoning¶
会议: ICLR2026
arXiv: 2603.12133
代码: GitHub
领域: LLM推理
关键词: benchmark, topological reasoning, spatial reasoning, puzzle, error diagnosis, causal intervention
一句话总结¶
构建TopoBench基准(6类拓扑谜题×3难度)评估LLM的全局空间推理能力,发现前沿模型hard tier仅解决<24%,并通过因果干预实验发现错误频率不等于因果影响——低频的约束遗忘比高频的重复推理更具破坏性。
背景与动机¶
- LLM在代数/符号推理上表现强劲,但在需要维护全局空间不变量(连通性、闭环、对称性)的任务上能力不足
- 现有谜题/推理基准多测试局部模式匹配或单元格级运算,不要求跨网格的全局约束维护
- 拓扑约束在电路布局、路径规划、分子结构分析等实际应用中普遍存在
- 现有评估仅报告准确率,无法区分模型失败源于推理本身还是空间信息提取/表示的局限
- 需要将观察性错误分类与因果验证结合的诊断方法
方法详解¶
整体框架¶
TopoBench = 拓扑谜题基准构建 + 观察性错误分类 + 因果干预验证 + 缓解策略测试
TopoBench基准¶
6类谜题覆盖不同拓扑/几何约束,每类3个难度(easy/medium/hard),共900个实例: - FlowFree:路径连通——连接颜色匹配的端点且路径不交叉(5×5→12×12) - Bridges(Hashiwokakero):网络连通——用桥连接编号岛屿,满足度数/交叉/连通约束 - Loopy(Slitherlink):闭环约束——在网格边上画单一闭环,满足每格边数要求 - Galaxies(Tentai Show):旋转对称——将网格划分为以标记中心旋转对称的区域 - Undead:反射与可见性——放置怪物满足穿过镜面的视线计数 - Pattern(Nonogram):连续性——填充二进制网格匹配行/列run-length线索
难度通过两个轴控制:(1)棋盘大小(5×5→10×10/12×12),(2)生成器内部难度旋钮(无需回溯的推理深度)。配备puzzle-specific验证器,二值评分(正确/错误,无部分分)。
两阶段诊断流程¶
阶段一(观察):用LLM-as-Judge协议(GPT-5-mini)标注750条CoT推理链,分类为11种错误类型,统计各类错误频率。
阶段二(因果干预):将4种错误模式注入部分金标准解题路径前缀(每条件各300题),测量注入后下游准确率变化。通过对比注入前后的准确率差(Δ accuracy)量化每种错误的因果效应。
4种干预错误模式¶
- RR(重复推理):重复先前已尝试的推理路径而无实质变化——观察频率33%但因果效应≈0
- PC(过早承诺):过早锁定错误方向继续推进——因果效应~11pp准确率下降
- STF(状态追踪失败):推理过程中内部棋盘状态与实际不一致
- CF(约束遗忘):执行违反规则的动作——仅在4%trace中出现但因果效应~11pp
缓解策略¶
- Cell-aligned网格表示:使每行token化为等数token的输入格式,大多数谜题family准确率提升
- Tool-augmented约束查询:外部引擎维护棋盘状态并提供结构化约束信息(Bridges hard +10%)
- 提示级规划引导:鼓励规划和回溯的prompt变体——无显著改善,表明此类行为不可通过prompt可靠激发
实验¶
| 模型 | Easy Avg | Medium Avg | Hard Avg |
|---|---|---|---|
| GPT-5-mini-high | 0.71 | 0.44 | 0.24 |
| Gemini-3-Flash | 0.60 | 0.35 | 0.09 |
| DeepSeek V3.2 | 0.58 | 0.37 | 0.10 |
| Qwen3-235B | 0.31 | 0.12 | — |
| Qwen3-32B | 0.07 | — | — |
因果干预实验¶
| 干预错误 | 观察频率 | Bridges Δacc | Undead Δacc | 因果效应 |
|---|---|---|---|---|
| RR(重复推理) | 33% | -0.5pp | +0.3pp | 无 |
| PC(过早承诺) | 18% | -11pp | -11pp | 强 |
| CF(约束遗忘) | 4% | -11pp | -9pp | 强 |
| STF(状态追踪失败) | 12% | -5pp | -6pp | 中等 |
关键发现: 1. Galaxies和Loopy在medium/hard上几乎所有模型准确率为0,全局不变量(旋转对称/闭环)是最难的约束类型 2. 错误频率≠因果影响:约束遗忘(CF)仅在4%失败trace中出现,但因果效应~11pp;重复推理(RR)在33%出现但因果效应≈0——是搜索的良性副产品 3. 过早承诺(PC)和约束遗忘(CF)是真正致命的错误模式,频率较低但破坏力极大 4. 工具增强:提供结构化约束信息(如剩余度数、连通性状态)可提升Bridges hard 10%,但提供ASCII网格视觉状态反而降低准确率 5. 核心结论:瓶颈在于从空间表示中提取结构化约束信息,而非对约束进行推理 6. 提示级干预(鼓励规划/回溯)在所有设置下均未产生有意义改善 7. 最强模型GPT-5-mini-high在hard tier仅24%,最强开源DeepSeek V3.2仅10%——远低于人类100%
亮点与洞察¶
- 错误频率≠因果影响的发现极具洞察力,挑战了常见假设
- 因果干预实验设计严谨:在金标准解题路径上注入控制变量
- 缓解策略实验区分了"空间表示解析"vs"约束推理"的瓶颈
- 6类谜题覆盖不同拓扑约束类型,设计全面
相关工作与启发¶
- 相比GridPuzzle(Tyagi等2024)仅做观察性错误分类,TopoBench增加了因果干预验证——将频率与因果解耦
- 相比ARC/BIG-Bench Hard测试抽象泛化,TopoBench专注拓扑/几何约束维护
- 相比Sudoku-Bench等拉丁方变体,TopoBench要求全局不变量(连通/闭环/对称)而非局部约束
- 发现prompt引导无效,暗示拓扑推理能力需要架构/训练层面的突破
局限性¶
- 仅在DeepSeek V3.2上做因果干预分析(其他模型不暴露完整CoT或API限制)
- 谜题虽控制良好但与真实工程任务(电路布局/路径规划)有差距
- ASCII文本输入限制了多模态模型的潜力(虽有初步多模态探索)
- 人类参考基于experienced solver,未报告新手人类的难度感知
- hard tier大部分近零,区分度不足——可能需要更细粒度的难度梯度
相关工作¶
- 推理基准: GSM8K/MATH (代数), ARC (抽象), SATBench (逻辑), Sudoku-Bench (Latin square)
- 错误诊断: GridPuzzle (Tyagi et al. 2024) 观察性错误分类; LLM-as-judge (Liu et al. 2023)
- 空间推理: Othello-GPT (Li et al. 2023) 状态追踪; VGRP-Bench, Enigmata 视觉网格评估
- 工具增强: ReAct (Yao et al. 2023), Toolformer (Schick et al. 2023)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (因果干预+拓扑推理诊断组合独特)
- 实验充分度: ⭐⭐⭐⭐⭐ (9模型+6谜题+3难度+因果实验+缓解策略)
- 写作质量: ⭐⭐⭐⭐⭐ (结构清晰,分析深入)
- 价值: ⭐⭐⭐⭐ (揭示LLM空间推理的根本瓶颈)