Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos¶

会议: CVPR 2026
arXiv: 2603.13185
代码: 有
领域: 3D视觉
关键词: 场景图生成, 物体恒存, 3D场景理解, 时空推理, 视觉语言模型

一句话总结¶

提出 World Scene Graph Generation (WSGG) 任务，从单目视频构建包含所有物体（含被遮挡/出画面物体）的时空持久、世界坐标系锚定的场景图，并引入 ActionGenome4D 数据集和三种互补方法（PWG/MWAE/4DST）。

研究背景与动机¶

1. 领域现状¶

场景图生成（SGG）已从静态图像扩展到视频（VidSGG）、3D 点云（3D SGG）、4D 场景等多种形式，但主流方法仍以"帧为中心"：每帧独立推理当前可见物体，生成 2D 平面上的场景图。

2. 痛点¶

视角依赖：所有物体位置基于 2D 图像坐标，缺乏统一的空间参考系
观测门控：物体一旦出画面或被遮挡就从图中消失，没有持久记忆
时间碎片化：即使有时序建模（如 STTran、Tempura），也只处理滑窗内帧，不维护全局一致的世界模型

3. 核心矛盾¶

真实场景中的智能体需要维持"物体恒存"（object permanence）的世界模型——物体即使不可见仍存在于环境中。但现有 SGG 方法的帧中心设计无法满足机器人操作、具身导航、长程活动理解等下游任务对持久世界状态推理的需求。

4. 要解决什么¶

构建一个时间持久、世界坐标系锚定、覆盖所有物体（含不可见物体）的场景图表示，包括 observed-observed、observed-unobserved、unobserved-unobserved 三类物体对之间的关系预测。

5. 切入角度¶

将认知科学中的"物体恒存"原则引入场景图生成，将世界状态 \(\mathcal{W}^t\) 划分为可观测集 \(\mathcal{O}^t\) 和不可观测集 \(\mathcal{U}^t\)，要求模型在每个时间戳对完整世界状态建图。

6. 核心 idea¶

新数据集 ActionGenome4D：将 Action Genome 升级为 4D 表示，提供世界坐标系 OBB、不可见物体的密集关系标注
新任务 WSGG：要求在每个时间戳输出覆盖 \(\mathcal{W}^t\) 中所有物体的世界场景图
三种方法探索不同的不可见物体推理归纳偏置

方法详解¶

整体框架¶

所有方法共享统一的输入和组件套件：预提取的 DINOv2/v3 视觉特征、π³ 重建的 3D OBB 角点坐标、相机外参矩阵。共享组件包括：

Global Structural Encoder：将 OBB 8 个角点编码为 27 维输入，通过 MLP 产生结构 token
Spatial Positional Encoding：计算物体对之间的欧氏距离、方向向量、体积比等 5D 特征
Spatial GNN：帧内 Transformer Encoder + 空间位置编码，建模物体交互
Relationship Predictor：融合人/物 token、union RoI 特征和 CLIP 文本嵌入，分别预测 attention (3类)、spatial (6类)、contacting (17类) 关系
Camera Pose / Motion Encoder：编码相机运动和物体 3D 速度/加速度

关键设计¶

PWG (Persistent World Graph)¶

功能：为不可见物体保留其最近一次可见时的视觉特征
核心思路：Last-Known-State (LKS) 记忆缓冲区——零阶特征保持。可见时用当前特征，不可见时回退到最近可见帧的特征，从未见过则用零向量
设计动机：直接实现"物体恒存"原则。额外记录 staleness \(\Delta_n^{(t)} = |t - \tau^*|\) 用于融合，让模型感知特征的"新鲜度"
特点：记忆不可微分，无法端到端学习时序上下文，但凭借 3D 几何先验已非常强

MWAE (Masked World Auto-Encoder)¶

功能：将不可见物体推理重构为掩码补全问题
核心思路：遮挡和相机运动天然提供"掩码"，模型需要从可见物体推断不可见物体的表示。训练时额外随机掩码一部分可见物体以增强学习
设计动机：将 MAE 范式从 patch 域迁移到物体/关系域。使用非对称 cross-attention（query 包含所有 token，key/value 仅限可见 token），防止不可见 token 之间互相关注
损失：\(\mathcal{L}_{\text{MWAE}} = \mathcal{L}_{\text{SG}} + \lambda_{\text{recon}} \cdot \lambda_{\text{dom}} \cdot \mathcal{L}_{\text{recon}} + \mathcal{L}_{\text{sim}}\)，含场景图损失、特征重建 MSE 损失、被掩码可见物体的关系重预测损失

4DST (4D Scene Transformer)¶

功能：用可微分的时序 Transformer 替代 PWG 的静态缓冲区
核心思路：为每个物体沿时间维度构建 token 序列（融合视觉/结构/相机/运动/自运动特征），通过双向 Transformer 进行全视频自注意力
设计动机：PWG 的 LKS 不可微，无法端到端学习时序上下文；4DST 将分解的时空注意力范式从 2D 可见物体扩展到完整 4D，加入正弦位置编码和可学习的 visibility embedding

损失函数 / 训练策略¶

三种方法共享统一的多轴 BCE 损失结构：将物体对分为 visible pairs（clean GT）和 unobserved pairs（VLM 伪标签，权重 \(\lambda_{\text{vlm}}\)），分别计算 attention/spatial/contacting 三轴损失加节点分类损失。MWAE 额外增加特征重建和相似度损失。

实验关键数据¶

主实验¶

Table 2: Recall (R@K) — PredCls & SGDet on ActionGenome4D

方法	Backbone	PredCls R@10	PredCls R@20	SGDet R@10	SGDet R@50
PWG	DINOv2-L	65.07	67.99	41.69	69.63
MWAE	DINOv2-L	65.33	68.30	41.69	69.50
4DST	DINOv2-L	64.31	67.26	42.64	70.32
PWG	DINOv3-L	65.58	68.57	39.96	70.93
MWAE	DINOv3-L	65.57	68.58	39.67	70.90
4DST	DINOv3-L	66.11	69.11	40.84	71.95

Table 4: VLM 关系预测 — micro-averaged F1

Pipeline	Model	Mode	Attn F1	Contact F1	Spatial F1	Micro F1
Graph RAG	Qwen 2.5-VL	PredCls	61.4	56.9	42.5	53.3
Graph RAG	InternVL 2.5	PredCls	53.8	42.7	27.2	40.8
Subtitle-Only	Qwen 2.5-VL	PredCls	61.8	53.0	39.8	51.2

消融实验¶

方法间消融发现： - 4DST 在 SGDet 设置下最一致地领先（R@10=42.64 DINOv2-L; R@50=71.95 DINOv3-L），其可微分时序 transformer 提升了端到端传播能力 - MWAE 在多标签设置（No Constraint）表现最优，PredCls R@10=81.50、mR@10=55.09 (DINOv3-L)，重建和模拟遮挡损失起到互补正则化作用 - PWG 在多数 PredCls 设置下仅落后最佳方法 1–2 点，验证了 3D 几何先验本身就是强有力的结构先验

VLM 消融发现： - Graph RAG 一致优于 Subtitle-Only，但对强 VLM（Qwen) 优势缩小（+2.1 vs InternVL +3.8） - SGDet 相比 PredCls 召回率约减半，识别出世界级物体检测是主要瓶颈

关键发现¶

仅凭持久 3D 几何先验（PWG 的零阶保持）就能达到极具竞争力的世界场景图生成效果
不可见物体推理确实能通过可微时序建模（4DST）进一步提升,尤其在 SGDet 端到端检测设置下
VLM 虽能提供有用的伪标注，但在细粒度空间/接触关系推理方面仍有大幅提升空间（micro F1 53.3 vs macro F1 26.6，长尾严重）
谓词难度递增：Attention > Contacting > Spatial

亮点与洞察¶

任务定义精准且必要：WSGG 抓住了从帧中心到世界中心的关键转变，清晰定义了 \(\mathcal{W}^t = \mathcal{O}^t \cup \mathcal{U}^t\) 和覆盖所有交互对的世界场景图
数据集构建管线完整：从 π³ 3D 重建 → GDINO+SAM2 几何标注 → VLM 伪标注 + 人工修正 → ActionGenome4D，流程系统且可复现
三方法设计哲学清晰：PWG（记忆缓冲）、MWAE（掩码补全）、4DST（时序 Transformer）分别对应零阶保持、自编码器、全注意力三种归纳偏置，互补且渐进
实验设计周全：PredCls/SGDet × With/No Constraint × R@K/mR@K 全矩阵评估 + VLM baseline + 两种推理管线
认知科学启发：将物体恒存原则引入技术方案设计，PWG 的 staleness 感知和 MWAE 的天然掩码都很自然

局限与展望¶

多阶段管线不够端到端：3D 重建（π³）→ 几何标注（GDINO+SAM2）→ 特征提取（DINO）→ 关系预测，误差逐级传播
VLM 伪标注质量：不可见物体的关系标注依赖 VLM 生成 + 人工修正，伪标注的噪声用 \(\lambda_{\text{vlm}}\) 权重缓解但未根本解决
长尾分布严重：macro F1 远低于 micro F1，谓词类别不均衡问题突出
仅限人-物交互：当前仅预测 person-object 关系对，未扩展到任意物体对
离线处理：4DST 需要完整视频的双向注意力，不支持在线流式推理
数据集规模受限：基于 Action Genome 的升级版，场景多样性和泛化能力待验证

评分¶

⭐⭐⭐⭐ 任务定义有远见、数据集构建扎实、方法设计系统且渐进，实验全面覆盖多协议和 VLM baseline。但多阶段管线的端到端性和长尾问题仍待突破。