ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning¶

会议: ICLR 2026
arXiv: 2503.24378
代码: https://ibm.github.io/ACPBench
领域: 模型压缩
关键词: planning benchmark, PDDL, generative evaluation, symbolic validator, action reasoning

一句话总结¶

构建 ACPBench Hard——基于 PDDL 形式化系统的 8 类开放式生成规划推理 benchmark（13 域 × 8 任务 = 1040 题），配备具有严格正确性保证的符号验证器，系统测评 15 个 LLM 后发现：即使最强推理模型 o1-preview 在半数任务上准确率 ≤66%，所有模型在最基本的"列举可执行动作"任务上几乎完全失败，暴露了当前 LLM 在规划推理方面的根本不足。

研究背景与动机¶

现有 LLM 规划评估存在两层瓶颈。第一层：PlanBench、AutoPlanBench 等 benchmark 只关注端到端计划生成/验证，黑箱模型失败时无法定位具体原因。ACPBench v1 将规划过程拆解为 7 个原子推理任务（可适用性、状态转移、可达性等），但采用布尔/多选格式。第二层：多选格式与真实规划器的需求脱节——规划器需要从庞大的动作空间中生成答案，而非从 4 个选项里挑一个。模型在多选题上答对不代表能完成生成任务，且开放式生成的评估本身就困难得多（部分任务验证复杂度为 PSPACE-complete）。

本文的核心思路：将 ACPBench 的 7 个任务从多选升级为开放式生成，新增"下一步动作"任务（对应最优规划），为 8 个任务各设计一个基于 PDDL 的符号验证器，彻底避免 LLM-as-judge 的不可靠性。

方法详解¶

8 类原子规划推理任务¶

ACPBench Hard 将规划能力分解为动作级、状态级、计划级三个层次的 8 个原子任务：

层次	任务	缩写	生成目标	验证复杂度
动作级	可适用性	App	列举当前状态下所有可执行动作	O(\|A\|)
动作级	状态转移	Prog	给定动作，列出正效果（新增为真）和负效果（变为假）	O(\|F\|)
状态级	命题可达性	Reach	找出从当前状态永远不可能为真的命题	PSPACE-complete
状态级	动作可达性	AReach	找出永远不可能变得可执行的动作	PSPACE-complete
计划级	计划验证	Val	识别动作序列中第一个不可执行的动作	O(1)
计划级	计划简化	Just	移除计划中 1-2 个冗余动作并输出简化计划	O(\|π\|·\|F\|)
计划级	里程碑	Land	找出任何合法计划都必须经过的必要子目标	PSPACE-complete
计划级	下一步动作(新)	NextA	选择一个使最优目标距离减少 1 的动作	PSPACE-complete

关键设计¶

符号验证器体系：每个任务配备专用验证算法。简单任务（App/Prog/Val）用集合比较即可；困难任务（Reach/AReach/Land/NextA）先查预计算缓存，未命中时调用 PDDL 规划器求解，从而保证验证的完备性与正确性。例如 Landmarks 验证通过构造辅助规划任务 Π'（添加标记命题 p_nach），检验是否存在不经过候选里程碑的合法计划。
数据构造管线：基于 ACPBench 的 13 个 PDDL 域，每域每任务生成 10 个问题（共 1040 题）。计划由 top-quality planner 生成，备用 diverse planner。题目通过模板从 PDDL 转为自然语言。
宽松语法解析器：为处理模型输出格式不一致的问题，设计了基于 grammar 的宽松解析器，可自动丢弃不符合语法的 token，最大限度提取有效答案。

实验关键数据¶

小/中型模型结果¶

模型	App	AReach	Just	Land	NextA	Prog	Reach	Val
Granite 3.1 8B	0.00	0.00	0.21	0.08	0.22	0.36	0.33	0.09
Llama 3.1 8B	0.00	0.00	0.22	0.06	0.25	0.40	0.33	0.13
DeepSeek Coder 33B	0.02	0.02	0.21	0.10	0.17	0.42	0.18	0.15
Granite 34B Code	0.02	0.00	0.17	0.11	0.18	0.43	0.28	0.12

小型模型在 App 和 AReach 上几乎为零，最高的 Prog 也仅 43%。

大型模型 & 推理模型结果¶

模型	App	AReach	Just	Land	NextA	Prog	Reach	Val
Mixtral 8x22B	0.10	0.02	0.31	0.26	0.32	0.68	0.37	0.23
Llama 3.1 70B	0.12	0.02	0.44	0.20	0.42	0.65	0.28	0.20
GPT-4o mini	0.07	0.01	0.14	0.04	0.35	0.59	0.22	0.27
Llama 3.1 405B	0.14	0.04	0.59	0.15	0.48	0.74	0.26	0.48
GPT-4o	0.25	0.01	0.54	0.29	0.55	0.78	0.32	0.62
DeepSeek V3	0.21	0.05	0.65	0.12	0.47	0.76	0.32	0.56
o1-mini	0.38	0.06	0.44	0.38	0.64	0.70	0.60	0.78
GPT OSS 20B	0.03	0.09	0.14	0.47	0.62	0.72	0.50	0.14
GPT OSS 120B	0.00	0.13	0.05	0.49	0.78	0.79	0.68	0.70
o1-preview	0.44	0.12	0.46	0.56	0.80	0.89	0.66	0.26
DeepSeek R1	0.05	0.01	0.52	0.20	0.36	0.77	0.24	0.53

表示形式消融（DeepSeek V3）¶

表示	App	AReach	Just	Land	NextA	Prog	Reach	Val	平均
NL	0.21	0.05	0.65	0.12	0.47	0.76	0.32	0.56	0.39
PDDL	0.31	0.07	0.74	0.21	0.53	0.87	0.33	0.55	0.44
PDDL+NL	0.32	0.09	0.68	0.19	0.60	0.88	0.37	0.61	0.47

加入 PDDL 形式化描述后平均准确率从 39%→47%，但当 PDDL 可用时，直接用传统规划器更合适。

核心发现¶

Applicability 几乎全军覆没：最基本的"列举所有可执行动作"，小模型≈0%，最强 o1-preview 仅 44%。严格要求生成完整集合是主要原因——如果改用 Jaccard 相似度评分，o1-preview 可达 57%，Mixtral 从 10%→38%。
Action Reachability 是最难任务：需要对动作前置条件中多个命题的联合可达性进行推理，o1-preview 仅 12%。多数正确答案来自识别"None"（所有动作均可达）的情况。
无全能模型：没有任何模型在所有 8 个任务上都最优。GPT-4o 在 5/8 任务最佳，但 Just 被 DeepSeek V3 超过 11%，AReach 被超过 4%。
推理模型性价比存疑：o1 系列计算成本远超普通 LLM，但仅在 Prog（89%）和 NextA（80%）有显著优势，半数任务 ≤66%。
o1-preview 在 Val 上反常低分（26%）：错误案例中 86% 的答案与正确索引仅相差 1，说明模型接近正确但差一步。
Progression 是最容易的任务（o1-preview 89%），但即使如此模型仍会犯低级错误，如不识别"堆叠方块后顶部方块变为 clear"等合理效果。

亮点与洞察¶

精准定位能力缺陷：通过将规划过程拆解为 8 个原子任务，可以精确诊断模型在哪个环节失败。App≈0% 说明 LLM 连最基本的"枚举可执行动作"都做不到——这是一切规划的前提。
符号验证器的方法论意义：为开放式生成任务提供了完全可靠的自动评估方案，部分验证算法本身的构造（如 Landmarks 的辅助规划任务）具有独立的技术贡献。
生成 vs 多选的鸿沟：同一模型（GPT-4o）在多选格式上的错误率远低于生成格式（除 Val 外），说明多选题严重高估了模型的规划推理能力。

局限性与改进方向¶

基于模板的自然语言不够自然，与真实世界规划场景存在差距
仅覆盖 13 个 PDDL 域，可能不足以代表所有规划推理模式
只评估单次生成的最终答案，未考虑多步迭代自纠正能力
宽松解析器仅提取第一个答案，可能遗漏模型的多次尝试
未来方向：构造带推理链（CoT）的训练数据、扩展到物体计数等新任务类型

评分¶

新颖性: ⭐⭐⭐⭐ 生成式规划推理 benchmark + 完备符号验证器
实验充分度: ⭐⭐⭐⭐⭐ 15 模型 × 8 任务 + 表示消融 + 复杂度分析 + 逐域分析
写作质量: ⭐⭐⭐⭐ 任务定义与验证算法清晰，观察分析细致
价值: ⭐⭐⭐⭐⭐ LLM 规划推理能力诊断的标杆测试平台