跳转至

Aether: Geometric-Aware Unified World Modeling

会议: ICCV 2025
arXiv: 2503.18945
代码: Project
领域: 世界模型 / 4D重建 / 视觉规划
关键词: 世界模型, 4D重建, 视频预测, 视觉规划, 几何感知, 合成数据

一句话总结

提出Aether统一世界模型,在合成RGB-D数据上后训练CogVideoX视频扩散模型,通过随机组合输入/输出模态的多任务训练策略,同时实现4D重建、动作条件视频预测和目标条件视觉规划,且零样本迁移到真实世界数据达到与领域专用模型可比的性能。

研究背景与动机

  • 领域现状:世界模型需要感知(4D重建)、预测(动作条件生成)和规划(目标条件推理)三大能力,现有方法通常只关注其中一个。
  • 现有痛点:(1)各能力独立建模缺乏协同;(2)真实4D标注数据极其稀缺;(3)动作表示不统一(键盘/机器人动作/相机轨迹)。
  • 核心矛盾:统一三大能力的需求 vs 数据和表示的异质性。
  • 本文目标:构建一个统一框架同时支持重建、预测和规划。
  • 切入角度:合成数据+相机轨迹作为统一动作表示+多任务后训练。
  • 核心 idea:通过合成4D数据后训练视频扩散模型,以相机轨迹为几何动作空间,统一重建/预测/规划。

方法详解

整体框架

CogVideoX-5b-I2V基础模型 + 合成RGB-D数据自动标注的相机参数。输出含三个模态:颜色视频+深度视频+动作(raymap)。通过不同条件组合实现不同任务。

关键设计

设计1:4D合成数据标注流水线 - 功能:从合成RGB-D视频自动获取精确相机参数。 - 核心思路:动态物体掩码(Grounded SAM2)→视频切片(SIFT+光流过滤)→粗估计(DroidCalib)→精细化(CoTracker3+Bundle Adjustment+Ceres Solver)。 - 设计动机:4D标注数据稀缺,自动流水线是规模化的前提。

设计2:Raymap相机表示 - 功能:将相机轨迹转换为可被扩散模型处理的raymap视频表示。 - 核心思路:每帧6通道(3D射线方向+3D射线原点),平移经log缩放归一化。raymap可逆——可从生成的raymap恢复相机内外参。 - 设计动机:相机参数需要与DiT的时空token对齐,raymap自然具有空间结构。

设计3:多任务随机条件训练 - 功能:随机mask不同条件组合实现多任务统一训练。 - 核心思路:颜色条件概率分配:30%规划(首+末帧),40%预测(首帧),28%重建(全视频),2%全mask。动作条件50%保留50% mask。两阶段训练:stage1标准diffusion损失,stage2加解码后的MS-SSIM+尺度不变深度损失+点图损失。 - 设计动机:随机条件实现任务间知识迁移,几何监督确保3D一致性。

损失函数/训练策略

Stage1: 标准扩散MSE。Stage2: +MS-SSIM(颜色)+尺度位移不变损失(深度)+尺度位移不变点图损失(深度+raymap)。80×A100训练两周。

实验关键数据

主实验

视频深度估计(Abs Rel↓ / δ<1.25↑)

方法 Sintel BONN KITTI
MonST3R 0.378/55.8 0.067/96.3 0.168/74.4
DepthCrafter 0.590/55.5 0.253/56.3 0.124/86.5
Aether 0.314/60.4 0.273/59.4 0.054/97.7

消融实验

配置 深度Abs Rel(Sintel)
无多任务训练 0.45
无stage2几何损失 0.38
完整Aether 0.314

关键发现

  1. 纯合成数据训练即可零样本迁移到真实世界,重建性能在多数benchmark上可比甚至超越专用模型。
  2. 多任务训练带来显著的知识迁移——重建能力促进预测/规划的几何一致性。
  3. 相机轨迹作为动作空间对导航等ego-view任务特别有效。

亮点与洞察

  1. 首次统一重建+预测+规划到单一视频扩散模型中。
  2. 合成数据+自动标注流水线的范式可大规模扩展。
  3. Raymap表示优雅地将相机参数嵌入扩散模型框架。

局限与展望

  1. 相机轨迹作为动作空间对非ego-view任务(如机器臂操控)不够通用。
  2. 合成数据的domain gap在某些真实场景中仍体现。
  3. 规划能力仅通过首+末帧条件实现,缺乏显式的路径优化。

相关工作与启发

  • DA-V在合成数据上训练深度但不含重建和规划。
  • 启发:后训练(post-training)视频基础模型可以高效注入4D几何推理能力。

评分

维度 评分
创新性 ★★★★★
实用性 ★★★★☆
实验充分性 ★★★★★
写作清晰度 ★★★★☆