跳转至

InfiniBench: Infinite Benchmarking for Visual Spatial Reasoning with Customizable Scene Complexity

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/pittisl/infinibench (数据集 https://huggingface.co/datasets/Haoming645/infinibench )
领域: 多模态VLM / 空间推理评测 / 3D 场景生成
关键词: 空间推理, 可定制基准, 程序化生成, LLM 智能体, 相机轨迹优化

一句话总结

InfiniBench 是一个全自动、可参数化定制的 3D 场景基准"生成器":把自然语言场景描述翻译成物理合理、复杂度可控的逼真视频,从而能针对组合/关系/观测三类复杂度,理论上无限地批量造出 VLM 空间推理评测题,定向暴露模型在不同空间条件下的失败模式。

研究背景与动机

领域现状:视觉空间推理(理解物体的位置、朝向、相互关系)是 VLM 走向真实世界感知的核心能力,需要在不同复杂度的场景上系统评测。现有评测要么用真实数据集,要么用合成 3D 场景。

现有痛点:真实数据集逼真但难以规模化、无法参数化控制;早期渲染引擎(Blender、IsaacSim)程序化生成缺真实感;3D-aware 扩散模型有视觉丰富度但缺语义标注、无法保证物理一致;纯 LLM 直接生成布局,会因 LLM 自身空间逻辑缺陷在物体一多时产出"朝向离谱、出界、互相穿模"的非法布局(论文 Fig.2);Infinigen / ProcTHOR 这类优化式程序框架又造不出高密度杂乱场景且要专业调参。

核心矛盾:现有基准在可定制性、可扩展性、语义丰富度三者上无法兼得——尤其无法把"场景复杂度"拆成可独立调节的维度,于是只能给出聚合的平均准确率,无法隔离并定位 VLM 在某一具体空间条件下到底为什么失败

本文目标:不再针对每种复杂度单独发布一个基准,而是造一个生成器,让用户用自然语言指定复杂度参数,就能产出理论上无限的 3D 场景评测题。复杂度被显式拆为三维:组合复杂度(物体数量与种类)、关系复杂度(空间关系/占用率)、观测复杂度(视角极端程度与遮挡)。

切入角度:把"高层规划"与"低层执行"解耦——不让 LLM 直接生成精确布局,而是让它生成高层约束,再交给一个专门的优化器去落地成物理合理的 3D 场景,兼得 LLM 的语言表达力和程序化生成的可扩展、可控性。

核心 idea:用"LLM 智能体迭代生成场景约束 + 簇式布局优化器 + 任务感知相机轨迹优化"三段流水线,把一句话场景描述变成 VLM 可直接消费的视频基准。

方法详解

整体框架

InfiniBench 的核心是一条三阶段流水线:输入是一段自然语言场景描述(如"一个 30 m² 的餐厅,含 10 把不同类型的椅子,再加家具使房间占用率达 50%,相机以手持风格运动并尽量覆盖更多物体"),输出是渲染好的视频帧序列(VLM 输入)。第一阶段用 LLM 智能体把描述翻译成机器可读的程序化约束,并通过失败反馈迭代修正;第二阶段用簇式布局优化器把约束落地成物理合理、可高密度的 3D 场景;第三阶段用任务感知的相机轨迹优化,保证所有任务相关物体在视频里都被无遮挡、完整地拍到。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入:自然语言场景描述<br/>(组合/关系/观测复杂度参数)"] --> B["LLM 智能体迭代生成场景约束<br/>API 列表 + few-shot → 程序化约束"]
    B -->|"优化器失败:回传 BEV 碰撞图 + 文本报告"| B
    B -->|约束可满足| C["簇式布局优化器<br/>可移动簇 → 高密度物理合理场景"]
    C --> D["任务感知相机轨迹优化<br/>frontier 探索 + 视点采样/遮挡检查"]
    D --> E["渲染视频帧 → VLM 空间推理基准"]

关键设计

1. LLM 智能体迭代生成场景约束:用约束代替直接布局,并用失败反馈闭环纠错

传统程序化生成要手工脚本化复杂约束,场景一复杂就需要大量专业知识。InfiniBench 让 LLM 智能体把自然语言描述翻译成机器可读约束(如 set_object_count(monitor, 3)on_top_of(keyboard, desk)),并为此喂给智能体两类领域知识:完整的程序化 API 语法清单 + few-shot 翻译示例。但单趟生成常常产出逻辑冲突或物理不可能的约束(例如把三个显示器全塞到一张普通尺寸的桌面上)。为此引入关键反馈回路:每轮用下游布局优化器尝试把约束落地,若失败则回传一份错误报告——包含展示物体碰撞的鸟瞰图(BEV map)和描述未满足约束的文本摘要——驱动智能体走一遍 CoT 推理:先分析失败原因(如"桌面面积不足,只放下了一个显示器"),再提出解法(增大桌子尺寸),最后改写约束。这把"会不会一次生成对"变成"能不能在几轮内收敛",实验显示约束通常 5 轮内收敛,且收敛后的约束高度可复用——同一套约束能批量生成大量场景,摊薄了迭代推理的算力成本。

2. 簇式布局优化:用"可移动簇"替代刚性层级优化,造出此前不可行的高密度场景

Infinigen / ProcTHOR 用层级优化:先固定大物体(如桌子),再放小物体(如椅子),场景一复杂就会陷入"大物体先占死、小物体没空间"的死局(论文 Fig.6a)。InfiniBench 把布局引擎改成簇式优化,核心是"可移动簇"概念:把一组相关物体(如一张桌子和环绕它的椅子)当作单个实体一起优化。流程三步:① 识别簇——解析场景语义图,自动把紧密相关物体聚成簇,每簇含一个"父"大物体和若干"子"小物体;② 扩充动作空间——给优化器加入簇级操作,让整簇一起搬到更好位置而不破坏内部关系;③ 碰撞检测——用每个簇的整体包围盒做碰撞检查。这让优化器能在更大的解空间里整体重定位簇,把以前求不出解的高密度场景变得可行(Fig.6b)。

3. 任务感知相机轨迹优化:把"前沿探索"重定义到物体簇上,保证任务物体无遮挡全覆盖

3D 场景生成的输出(Blender 文件或点云)不能被 VLM 直接消费,而糟糕的视点会遮挡关键物体、让空间推理题无法作答(Fig.3)。InfiniBench 的目标是生成最短且能清晰、完整、无遮挡地看到每个任务相关物体的相机路径,方法受机器人导航中的 frontier-based exploration 启发,但把"前沿"重定义为"尚未访问的目标物体集合"。流程迭代进行:① 目标选择——从当前相机位置选最近的未访问目标;② 视点采样与选择——在目标周围采样候选视点,按三条标准打分(相机位置是否合法、物体是否完整在视野内、相机与物体之间是否有遮挡),选最高分;③ 路径规划——在 2D 地面平面图上用 Dijkstra 算无碰撞路径连到选定视点;④ 迭代——相机移动、目标标记为已访问,直到所有目标都被访问。最后沿优化轨迹渲染成视频帧。

实验关键数据

自定义指标说明: - Prompt Fidelity(保真度):生成场景的物体数量与占用率,相对 prompt 中 GT 值的匹配准确率(↑)。 - CLIP:文本 prompt 与生成场景俯视图之间的 CLIP 对齐分(↑)。 - Realism:由 GPT-5 评估器打分的布局合理性,含空间一致性与功能合理性(↑)。 - #OB / #CN:物理不合理瑕疵数——出界物体数(#OB)与互相碰撞物体对数(#CN),越低越好。

主实验

不同物体数量下的场景生成质量对比(取"高物体量"设置,数据来自 Table 1):

方法 Fidelity↑ CLIP↑ Realism↑ #OB↓ #CN↓
I-Design 0.90 27.1 0.61 6.9 10.3
Holodeck 0.88 28.8 0.71 7.7 9.4
LayoutGPT 0.93 28.3 0.67 4.5 13.5
Luminous 0.42 26.2 0.63 0.0 0.0
Infinigen 0.64 29.7 0.79 0.0 0.2
InfiniBench 0.98 29.9 0.81 0.1 0.0

结论:LLM 式方法保真度高但物理合理性差(#OB/#CN 飙升,LayoutGPT 碰撞数高达 13.5);程序化框架(Luminous/Infinigen)物理合理但复杂度一高保真度崩塌(降到 0.42/0.64)。InfiniBench 同时拿到高保真度与近乎完美的物理合理性,在高复杂度下所有指标领先。

消融实验

组件消融(高物体量设置,基线为 Infinigen 原优化器,来自 Table 3):

配置 Fidelity↑ CLIP↑ Realism↑ 说明
Base(Infinigen) 0.64 29.7 0.79 原始层级优化器
仅约束精修 0.71 28.9 0.79 智能体迭代约束,单独用即可显著提升保真度
仅簇式优化 0.68 29.9 0.81 单独用提升较小,但 Realism 略增
Full InfiniBench 0.92 29.9 0.81 两者结合产生协同跃升

约束迭代轮数消融(来自 Table 4):

迭代轮数 Fidelity↑ 说明
1 0.68 单趟约束
2 0.72
3 0.86 明显爬升
5 0.92 约 5 轮收敛

关键发现

  • 约束精修与簇式优化单独用都只是小幅提升,但合在一起出现"协同跃升"(0.64 → 0.92),说明"先把高层约束精修对、再用簇式优化器落地"是缺一不可的组合拳。
  • 约束迭代是有效但有限的过程:3 轮就从 0.68 跳到 0.86,5 轮收敛到 0.92;且收敛后约束可复用来批量造场景,迭代推理成本被摊薄。
  • 在低复杂度下各方法差距不大,差距主要在高复杂度场景被拉开——这正是现有基准最薄弱、也最值得评测 VLM 的地方。

亮点与洞察

  • 把"基准"变成"基准生成器":与其逐个发布固定基准,不如造一个可参数化的生成器,让评测从"看平均准确率"升级到"隔离单一空间条件、定位具体失败模式",这是评测范式上的转变。
  • "约束"是 LLM 与程序优化器之间的最佳接口:让 LLM 出高层约束、优化器做低层落地,既避开了 LLM 直接排布物体的空间逻辑短板,又保留了语言的表达力——这套"规划/执行解耦"思路可迁移到其他需要物理合理性的生成任务。
  • 可移动簇是个朴素但关键的抽象:把"桌子+环绕椅子"当一个整体搬动,直接打破了层级优化的死局,是高密度场景能造出来的根因。
  • 把机器人导航的 frontier exploration 借来当相机规划器,并把"前沿"重定义为未访问目标物体,巧妙地把"覆盖所有任务物体"变成一个可迭代求解的探索问题。

局限与展望

  • 流水线依赖 Gemini-2.5-Pro 做约束生成、Infinigen 资产库做落地、Blender Cycles 做高保真渲染,整条链路较重,复现成本与生成时延偏高(虽然约束可复用部分缓解)。
  • 评测高度依赖资产库的丰富度与真实性,资产库覆盖不到的物体类别/材质难以表达。
  • Realism 由 GPT-5 评估器打分、SC/物体计数等也依赖外部大模型,存在评估器自身偏差的风险 ⚠️(以原文为准)。
  • 论文主要验证生成质量与少量空间推理任务(测量、视角变换、时空跟踪),尚未大规模系统性地用它去诊断主流 VLM 的失败谱,是后续最有价值的方向。

相关工作与启发

  • vs Infinigen / ProcTHOR(程序化优化框架):它们靠层级优化、复杂场景易失败且需专业调参;本文用簇式优化 + LLM 智能体包装,既能造高密度场景又无需专业知识,保真度从 0.64 升到 0.92。
  • vs LayoutGPT / Holodeck / I-Design(LLM 直接生成布局):它们让 LLM 直出布局,物体一多就出界/穿模(#CN 高达 13.5);本文让 LLM 只出高层约束、交优化器落地,把物理合理性指标压到近 0。
  • vs 3D-aware 扩散场景生成:扩散方法视觉丰富但缺语义标注、无法保证物理一致、也难生成 QA 对;本文程序化路线天然带语义元数据,可直接生成空间推理评测题。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把"固定基准"重构成"可参数化复杂度的无限基准生成器",并用约束解耦 + 簇式优化解决高密度场景这一长期难点。
  • 实验充分度: ⭐⭐⭐⭐ 多复杂度维度、多基线、组件与迭代轮数双消融都有;但对主流 VLM 失败模式的系统性诊断展示较少。
  • 写作质量: ⭐⭐⭐⭐ 三阶段流水线讲解清晰、图示充分;部分实现细节下放到附录。
  • 价值: ⭐⭐⭐⭐⭐ 给 VLM 空间推理研究提供了可控、可扩展、带语义的评测底座,对诊断与改进模型都有长期价值。