BuildArena: A Physics-Aligned Interactive Benchmark of LLMs for Engineering Construction¶

会议: ICML2026
arXiv: 2510.16559
代码: https://github.com/AI4Science-WestlakeU/BuildArena
领域: LLM评估 / 具身智能 / 工程构建
关键词: LLM基准, 物理仿真, 3D构建, 智能体工作流, Besiege

一句话总结¶

BuildArena 把 LLM 丢进物理沙盒游戏 Besiege 里，让它用自然语言一砖一瓦搭桥、造车、造火箭，再用物理引擎跑仿真打分，从而第一次系统评测了 LLM"把语言变成能跑得动的真实结构"的工程构建能力——结果显示只有 GPT-5 在难任务上勉强能打，其余模型在 Hard 级别几乎全军覆没。

研究背景与动机¶

领域现状：工程构建自动化的理想形态是"用户说一句'设计一个满足火星任务的火箭'，系统就自动完成设计、制造、装配"。LLM 拥有广博知识、强推理、会规划会调工具，看上去是这条路线的天然候选。

现有痛点：但现有 LLM 基准几乎全在测数学和编程，评测发生在纯文本或静态环境里，从不和物理世界交互；已有的物理推理数据集（如 PHYRE）只考"理解物理"，不考"多步搭建";程序化 3D/CAD 生成虽然能产出模型，却很少验证生成的设计在真实物理条件下能不能装配、能不能动。

核心矛盾：工程构建本质上是一个增量式、约束驱动的过程——结构一步步装配，每个新构件必须连到已有结构上，且每一步都要连续验证物理可行性（如避免碰撞）。这要求"广度知识 × 深度分析"的结合，而当前没有任何框架能评估 LLM 是否真能把自然语言规格翻译成物理上站得住、跑得动的装配体。

本文目标：拆成两个子问题——(1) 怎么构造既覆盖工程难度谱、又能扩展的任务集；(2) 怎么让只会吐文字的 LLM 真正去操作一个带物理约束的 3D 构建空间，并自动评估结果。

切入角度：作者盯上了 Besiege——一个被全球玩家社区验证过"符合人类物理直觉"的物理仿真沙盒游戏，模块丰富、可组合成复杂物体。它天然提供了高保真物理环境，缺的只是一个让 LLM 能用语言操作的接口。

核心 idea：搭一套"任务定义 → LLM 智能体构建 → 物理仿真评估"三段式可定制流水线，并为 Besiege 复刻一个开源的 3D 空间几何计算库当语言接口，让 LLM 用自然语言增量搭建、用物理仿真客观打分。

方法详解¶

整体框架¶

BuildArena 是一个评测框架而非单个模型：输入是一段自然语言任务规格（目标 + 约束 + 测试流程 + 评估指标），输出是 LLM 搭出来的结构在 Besiege 里跑仿真得到的客观分数。整条流水线分三大可定制部件——任务定义、LLM 智能体构建、仿真评估。任务规格喂给一个由五个 LLM 实体组成的智能体工作流，工作流通过调用空间几何计算库一步步把结构搭出来、导出成 Besiege 可加载的文件，最后由统一脚本载入仿真器执行任务专属协议、记录轨迹与指标。为提高可靠性，每个"任务-模型"对采样 64 次取均值。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["任务规格<br/>自然语言 prompt"] --> B["任务设计策略<br/>3类×3级·6难度维度"]
    B --> C["规划：Planner 出构建计划"]
    C --> D["草图-评审环路<br/>Drafter ↔ Reviewer"]
    D --> E["搭建-引导环路<br/>Builder ↔ Guidance"]
    E -->|"调用 Build/Refine/Query/Control"| F["空间几何计算库<br/>复刻 Besiege 物理约束"]
    F -->|"返回状态描述/报错"| E
    E --> G["导出 Besiege 文件"]
    G --> H["仿真评估<br/>64次采样取均值"]

关键设计¶

1. 可扩展任务设计策略：用 6 个工程难度维度撑起 3 类×3 级的任务谱

要测"工程能力"，先得说清工程难在哪。作者从工程实践里抽象出 6 个难度维度——量化（需要多少显式数值推理）、鲁棒性（对单点失效的容忍度）、规模（跨度/载荷/模块数）、组合性（层级子结构构建与集成的深度）、精度（放置与朝向的几何严格程度）、歧义（任务指引的清晰完整度）。在这些维度上实例化出三类代表性任务：Transport（在平面上定向移动，指标为最大运输距离）、Support（跨越间隙支撑载荷的桥，指标为最大承载重量）、Lift（造火箭，Lv.1 造火箭引擎用推重比 \(\text{TWR}\) 衡量、\(\text{TWR}\gg 1\) 才算可行，Lv.2/3 造火箭飞行器用最大高度衡量）。每类任务再设 Easy/Medium/Hard 三级：例如 Transport 从 Lv.1 起去掉"造四轮车"的明确指令、把运输目标从机器本身换成带尺寸要求的货物，同时考验指令理解和大结构搭建。难任务（Support Lv.2/3、Lift Lv.3）已具备长程组合结构，单实例需要数百个搭建动作并带迭代环境反馈。这套"维度→任务→分级"的设计是个可复用模板，新增任务类别和难度等级都能往里加。

2. 五智能体协作工作流：用粗到细 + 多轮修订把"造"这件事拆成可执行的对话

LLM 不能一口气吐出一个能跑的结构，必须像人一样边搭边改。作者设计了一个统一的基线工作流，要求所有实体用同一个 LLM、只靠 prompt 区分角色，从而保证不同模型在同样的智能体设定下公平比较。它遵循粗到细 + 多轮修订结构，含五个实体——Planner（规划）、Drafter（出草图）、Reviewer（评审）、Builder（搭建）、Guidance（引导），Transport 任务额外加一个 Controller。流程走三个阶段：规划阶段由 Planner 把任务描述和初始模块集变成结构化构建计划；草图-评审环路里 Drafter 出设计图、Reviewer 审查并指导修订，循环到通过为止（违规则失败终止）；搭建-引导环路里 Guidance 逐步给出高层建议指定下一个动作、Builder 把建议翻译成几何计算库能执行的格式化命令，库更新状态并返回描述性反馈或报错，直到 Guidance 确认完工、把最终状态导出为无冲突、可仿真的运行文件。这个工作流只是基线，整个部件可被用户自定义替换。

3. 3D 空间几何计算库：给闭源 Besiege 造一个开源的语言接口

Besiege 只给人类玩家图形界面、只接受物理控制器输入，没有任何符号/语言接口或编程 API，LLM 根本插不进去；而其几何计算逻辑是闭源不可访问的。作者因此复刻了一个开源的空间几何计算库，忠实镜像 Besiege 的构建逻辑和物理约束，保证 LLM 在语言空间执行的动作效果与人类在图形界面操作一致。库接收 LLM 发来的动作及参数，计算并更新状态、执行物理约束检查：要么返回人类可读的当前状态描述，要么在违反约束时禁止该非法动作并解释失败原因。所有动作归为四类——Build、Refine、Query、Control。一次 49 模块机器的定量保真验证显示，本库与 Besiege 的差异可忽略：位置误差 \(<1.5\times10^{-6}\) 单位长度、朝向误差 \(<2.5\times10^{-5}\) 度。正是这个库把"增量、约束驱动、带碰撞检测的物理搭建"暴露给了纯文本的 LLM。

损失函数 / 训练策略¶

BuildArena 是评测框架，不训练模型。评估侧每个"任务-LLM"对采样 64 次取均值，性能指标含三项——模块数（仅作复杂度描述、不参与排名）、成功率（64 次试验中通过判据的比例）、任务专属性能指标（最大运输距离 / 最大承载 / TWR / 最大高度）；成本侧含累计输入 token、输出 token、LLM 请求总数。模型排名仅由成功率和性能指标经跨任务秩聚合决定。

实验关键数据¶

主实验¶

评测 9 个前沿模型（GPT-5、GPT-4o、Claude-4、Grok-4、Gemini-2.0、DeepSeek-3.1、Qwen-3、Kimi-K2、Seed-1.6）外加 3 个开源权重模型。下表摘录各任务三个难度级别的成功率（%）对比，可见 GPT-5 几乎全面碾压，其余模型在 Hard 级别普遍逼近 0：

任务	模型	Lv.1 成功率	Lv.2 成功率	Lv.3 成功率
Transport	GPT-5	78.1	23.4	26.6
Transport	Claude-4	17.2	4.7	15.6
Transport	Gemini-2.0	1.6	1.6	1.6
Support	GPT-5	85.9	59.4	10.9
Support	Seed-1.6	45.3	9.4	3.1
Support	GPT-4o	40.6	0.0	0.0
Lift	GPT-5	95.3	10.9	17.2
Lift	Grok-4	31.2	31.2	3.1
Lift	Seed-1.6	6.2	0.0	0.0

GPT-5 在 Support Hard 仍能拿 10.9% 成功率、最大承载指标 24.9，而 GPT-4o/Claude-4/Gemini-2.0/DeepSeek-3.1/Qwen-3 在多个 Hard 级别直接挂零。Lift 是公认最难的类别（精确模块对齐 + 多个单点失效 + 严格的模块化装配要求）。

难度与判别力分析¶

作者用一张"基准能力对照表"论证 BuildArena 的覆盖面比前作更全：

基准	空间推理	3D构建	面向构建的规划	物理仿真器	交互环境
PlanBench	✗	✗	✗	✗	✗
PHYRE	✓	✗	✗	✓	✓
Embodied Agent Interface	✓	✓	✗	✓	✓
BuildArena (本文)	✓	✓	✓	✓	✓

关键发现¶

难度配置合理且有判别力：在三类任务中，性能随难度上升而下降（Lift Lv.1 用 TWR、Lv.2/3 用高度，指标不同不可直接比）；Hard 级别大多数模型表现很低、但少数模型能脱颖而出，说明难度与判据设置具备良好区分度。
工作流确实奏效：大量成功构建结果验证了五智能体协作（如逐步反思调整）对长序列规划是必要的。
几何库支撑语言操控物理世界：构建过程涉及附着、移除、旋转、平移、连接等多样动作，覆盖了构建任务的动作需求。
顶配与中坚断层明显：GPT-5 是唯一在多数 Hard 任务上还能稳定产出可行结构的模型，反映当前 LLM 的物理构建能力整体仍很初级。

亮点与洞察¶

把闭源物理引擎"几何复刻"成开源库是最实在的工程贡献：49 模块验证位置误差 \(<1.5\times10^{-6}\)、朝向误差 \(<2.5\times10^{-5}\) 度，意味着任何 LLM 都能在不碰原游戏的前提下，得到与人类操作几乎一致的物理反馈，这套接口可被后续工作直接复用。
用 6 个工程难度维度做"任务生成器"而非写死一批任务，让基准天然可扩展——这种"先定义难度谱、再实例化任务"的思路可迁移到任何需要分级评测的具身/构建任务。
全流程三部件可定制（任务、工作流、仿真器都能换）使 BuildArena 既是评测榜也是研究平台：换掉基线工作流就能直接测"更聪明的智能体编排"能带来多少提升。

局限与展望¶

强依赖单一仿真器 Besiege：模块空间和物理规则都被 Besiege 框定，能不能推广到真实 CAD/机器人装配仍是开放问题。
64 次采样成本高：每个"任务-模型"对都要跑 64 次完整智能体工作流，token 与请求开销巨大，限制了可评测的模型规模与任务数量。
基线工作流可能低估模型上限：要求所有实体共用同一 LLM、只靠 prompt 区分，虽保证公平但可能压低了"用更强编排能达到的天花板"，Hard 级别近乎全挂的结论需结合这一点解读。
指标跨级不可比：Lift Lv.1（TWR）与 Lv.2/3（高度）用不同指标，作者已提示不能直接比大小，读榜时需注意。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个物理对齐的语言驱动 3D 工程构建交互基准，补上了"理解物理"到"构建物理"的空白
实验充分度: ⭐⭐⭐⭐ 9 前沿 + 3 开源模型 × 3 任务 × 3 级 × 64 采样，覆盖广；但仅限 Besiege 单环境
写作质量: ⭐⭐⭐⭐ 三部件框架、难度维度、几何库保真验证讲得清晰，图表丰富
价值: ⭐⭐⭐⭐⭐ 既是评测榜又是可定制研究平台，开源库可直接复用，对 AI for Engineering 有实际推动