跳转至

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

会议: ICLR2026
arXiv: 2603.12133
代码: GitHub
领域: LLM推理
关键词: benchmark, topological reasoning, spatial reasoning, puzzle, error diagnosis, causal intervention

一句话总结

构建TopoBench基准(6类拓扑谜题×3难度)评估LLM的全局空间推理能力,发现前沿模型hard tier仅解决<24%,并通过因果干预实验发现错误频率不等于因果影响——低频的约束遗忘比高频的重复推理更具破坏性。

背景与动机

  1. LLM在代数/符号推理上表现强劲,但在需要维护全局空间不变量(连通性、闭环、对称性)的任务上能力不足
  2. 现有谜题/推理基准多测试局部模式匹配或单元格级运算,不要求跨网格的全局约束维护
  3. 拓扑约束在电路布局、路径规划、分子结构分析等实际应用中普遍存在
  4. 现有评估仅报告准确率,无法区分模型失败源于推理本身还是空间信息提取/表示的局限
  5. 需要将观察性错误分类与因果验证结合的诊断方法

方法详解

整体框架

TopoBench = 拓扑谜题基准构建 + 观察性错误分类 + 因果干预验证 + 缓解策略测试

TopoBench基准

6类谜题覆盖不同拓扑/几何约束,每类3个难度(easy/medium/hard),共900个实例: - FlowFree:路径连通——连接颜色匹配的端点且路径不交叉(5×5→12×12) - Bridges(Hashiwokakero):网络连通——用桥连接编号岛屿,满足度数/交叉/连通约束 - Loopy(Slitherlink):闭环约束——在网格边上画单一闭环,满足每格边数要求 - Galaxies(Tentai Show):旋转对称——将网格划分为以标记中心旋转对称的区域 - Undead:反射与可见性——放置怪物满足穿过镜面的视线计数 - Pattern(Nonogram):连续性——填充二进制网格匹配行/列run-length线索

难度通过两个轴控制:(1)棋盘大小(5×5→10×10/12×12),(2)生成器内部难度旋钮(无需回溯的推理深度)。配备puzzle-specific验证器,二值评分(正确/错误,无部分分)。

两阶段诊断流程

阶段一(观察):用LLM-as-Judge协议(GPT-5-mini)标注750条CoT推理链,分类为11种错误类型,统计各类错误频率。

阶段二(因果干预):将4种错误模式注入部分金标准解题路径前缀(每条件各300题),测量注入后下游准确率变化。通过对比注入前后的准确率差(Δ accuracy)量化每种错误的因果效应。

4种干预错误模式

  • RR(重复推理):重复先前已尝试的推理路径而无实质变化——观察频率33%但因果效应≈0
  • PC(过早承诺):过早锁定错误方向继续推进——因果效应~11pp准确率下降
  • STF(状态追踪失败):推理过程中内部棋盘状态与实际不一致
  • CF(约束遗忘):执行违反规则的动作——仅在4%trace中出现但因果效应~11pp

缓解策略

  1. Cell-aligned网格表示:使每行token化为等数token的输入格式,大多数谜题family准确率提升
  2. Tool-augmented约束查询:外部引擎维护棋盘状态并提供结构化约束信息(Bridges hard +10%)
  3. 提示级规划引导:鼓励规划和回溯的prompt变体——无显著改善,表明此类行为不可通过prompt可靠激发

实验

模型 Easy Avg Medium Avg Hard Avg
GPT-5-mini-high 0.71 0.44 0.24
Gemini-3-Flash 0.60 0.35 0.09
DeepSeek V3.2 0.58 0.37 0.10
Qwen3-235B 0.31 0.12
Qwen3-32B 0.07

因果干预实验

干预错误 观察频率 Bridges Δacc Undead Δacc 因果效应
RR(重复推理) 33% -0.5pp +0.3pp
PC(过早承诺) 18% -11pp -11pp
CF(约束遗忘) 4% -11pp -9pp
STF(状态追踪失败) 12% -5pp -6pp 中等

关键发现: 1. Galaxies和Loopy在medium/hard上几乎所有模型准确率为0,全局不变量(旋转对称/闭环)是最难的约束类型 2. 错误频率≠因果影响:约束遗忘(CF)仅在4%失败trace中出现,但因果效应~11pp;重复推理(RR)在33%出现但因果效应≈0——是搜索的良性副产品 3. 过早承诺(PC)和约束遗忘(CF)是真正致命的错误模式,频率较低但破坏力极大 4. 工具增强:提供结构化约束信息(如剩余度数、连通性状态)可提升Bridges hard 10%,但提供ASCII网格视觉状态反而降低准确率 5. 核心结论:瓶颈在于从空间表示中提取结构化约束信息,而非对约束进行推理 6. 提示级干预(鼓励规划/回溯)在所有设置下均未产生有意义改善 7. 最强模型GPT-5-mini-high在hard tier仅24%,最强开源DeepSeek V3.2仅10%——远低于人类100%

亮点与洞察

  • 错误频率≠因果影响的发现极具洞察力,挑战了常见假设
  • 因果干预实验设计严谨:在金标准解题路径上注入控制变量
  • 缓解策略实验区分了"空间表示解析"vs"约束推理"的瓶颈
  • 6类谜题覆盖不同拓扑约束类型,设计全面

相关工作与启发

  • 相比GridPuzzle(Tyagi等2024)仅做观察性错误分类,TopoBench增加了因果干预验证——将频率与因果解耦
  • 相比ARC/BIG-Bench Hard测试抽象泛化,TopoBench专注拓扑/几何约束维护
  • 相比Sudoku-Bench等拉丁方变体,TopoBench要求全局不变量(连通/闭环/对称)而非局部约束
  • 发现prompt引导无效,暗示拓扑推理能力需要架构/训练层面的突破

局限性

  • 仅在DeepSeek V3.2上做因果干预分析(其他模型不暴露完整CoT或API限制)
  • 谜题虽控制良好但与真实工程任务(电路布局/路径规划)有差距
  • ASCII文本输入限制了多模态模型的潜力(虽有初步多模态探索)
  • 人类参考基于experienced solver,未报告新手人类的难度感知
  • hard tier大部分近零,区分度不足——可能需要更细粒度的难度梯度

相关工作

  • 推理基准: GSM8K/MATH (代数), ARC (抽象), SATBench (逻辑), Sudoku-Bench (Latin square)
  • 错误诊断: GridPuzzle (Tyagi et al. 2024) 观察性错误分类; LLM-as-judge (Liu et al. 2023)
  • 空间推理: Othello-GPT (Li et al. 2023) 状态追踪; VGRP-Bench, Enigmata 视觉网格评估
  • 工具增强: ReAct (Yao et al. 2023), Toolformer (Schick et al. 2023)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (因果干预+拓扑推理诊断组合独特)
  • 实验充分度: ⭐⭐⭐⭐⭐ (9模型+6谜题+3难度+因果实验+缓解策略)
  • 写作质量: ⭐⭐⭐⭐⭐ (结构清晰,分析深入)
  • 价值: ⭐⭐⭐⭐ (揭示LLM空间推理的根本瓶颈)