AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction¶

会议: CVPR2026
arXiv: 2602.22376
作者: Hanyang Liu, Rongjun Qin 代码: 待确认
领域: 3D视觉
关键词: 4D重建, 3D高斯泼溅, 物理先验, 无人机单目视频, 动态场景, 航拍

一句话总结¶

提出 AeroDGS，一个面向单目无人机视频的物理引导 4D 高斯泼溅框架，通过单目几何提升模块重建可靠的静态与动态几何，并引入可微的地面支撑、直立稳定性和轨迹平滑性物理先验，将模糊的图像线索转化为物理一致的运动估计，在合成与真实 UAV 场景上均优于现有方法。

研究背景与动机¶

4D 重建的进展与瓶颈：近年来 4D 场景重建在多个领域取得了显著进展，3D 高斯泼溅（3DGS）因其高效的可微渲染和显式场景表示，成为静态和动态场景建模的热门基础。然而，现有动态 3DGS 方法（如 Dynamic 3D Gaussians、4D-GS、Deformable 3DGS 等）主要针对多视图或受控环境中的近距离动态场景设计。

航拍场景的独特挑战：无人机（UAV）航拍视频具有多个特殊性质，使得现有方法直接失效： - 单视图捕获：UAV 通常沿固定航线飞行，场景中每个区域仅被观测一次或极少次，缺乏多视图冗余 - 宽广的空间范围：航拍覆盖面积远大于室内/街景场景，背景几何复杂 - 动态目标特征：移动物体（如车辆、行人）在画面中空间占比小但运动幅度大（motion disparity），造成严重的运动模糊和遮挡 - 深度歧义：单目航拍的深度估计本身就是病态问题，距离远+俯视角使得深度线索更加稀缺

核心病态性：上述因素叠加导致严重的深度歧义（depth ambiguity）和不稳定的运动估计（unstable motion estimation），使单目航拍动态重建成为一个 inherently ill-posed 的问题。现有方法在此设定下要么完全失效，要么产生物理不合理的运动轨迹（如物体漂浮、穿透地面、抖动跳跃）。

本文切入点：利用物理世界的常识先验（物体应站在地面上、保持直立、运动轨迹应平滑）来约束和消解单目深度歧义，将不确定的图像线索转化为物理一致的动态重建。

方法详解¶

整体框架¶

AeroDGS 要解决的是单目无人机航拍视频的动态 4D 重建——这是个 inherently ill-posed 的问题：UAV 沿固定航线飞，每块区域只被看到一两次，动态目标（车、人）像素占比小却运动幅度大，单目深度本就病态，叠在一起就是严重的深度歧义和不稳定运动估计。框架的思路是“以物理补几何”：先用单目几何提升（MGL）从只有单次观测的序列里抠出可靠的静态背景和动态目标初始几何，把两者统一参数化成一套可微的 3D 高斯表示（动态目标的运动建模为 SE(3) 上的连续 6DoF 轨迹）；再用物理引导优化（PGO）把“物体该站地上、该直立、该平滑运动”这些常识写成可微损失去约束动态目标，消解单目歧义。光度重建损失与三个物理先验联合优化，静态背景与动态实体协同精炼。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["单目无人机航拍视频<br/>相机位姿未知, 每区域仅观测一两次"] --> MGL

    subgraph MGL["单目几何提升 MGL"]
        direction TB
        B["零样本 2D 基础模型线索<br/>深度估计 + 分割 + 跟踪"]
        B --> C["背景特征轨迹三角化 + 束调整<br/>恢复相机位姿, 比值场校正深度尺度"]
        C --> D["反投影成点图<br/>初始化静态背景高斯"]
        B --> E["实例聚类 + PCA 定向框<br/>估中心/尺寸, MLP 预测高度"]
        E --> F["位移阈值分静/动<br/>动态目标初始几何"]
    end

    D --> G["统一可微高斯表示<br/>静态背景 + 动态目标 SE(3) 6DoF 轨迹"]
    F --> G
    G --> PGO

    subgraph PGO["物理引导优化 PGO"]
        direction TB
        H["地面支撑先验<br/>沿视线贴住地面"]
        I["直立稳定性先验<br/>竖轴对齐参考方向"]
        J["轨迹平滑性先验<br/>二阶加速度正则"]
    end

    PGO --> K["光度损失 + 三物理先验<br/>联合可微优化"]
    K --> L["物理一致的 4D 重建<br/>新视角渲染 + 连贯运动"]

关键设计¶

1. 单目几何提升（MGL）：从只看一两次的航拍序列里抠出可靠的静态与动态几何

航拍每块区域只被观测一两次、缺多视图冗余，传统 SfM 只能恢复稀疏地面点、还会被动态物体污染，几何初始化最先卡住。MGL 先用零样本 2D 基础模型拿粗线索：深度估计网络给每帧稠密伪深度，分割 + 跟踪给跨帧一致的可动实例 mask 与 ID。静态侧用长时背景特征轨迹做三角化 + 局部束调整（BA）恢复相机位姿，再用跟踪点上几何深度与预测深度的比值场校正单目深度尺度，反投影成点图初始化静态高斯。动态侧把同一实例的像素聚成物体点集，用 PCA 拟合定向包围框估中心与底面尺寸 \((w,\ell)\)，高度 \(h\) 因单视图无法测深而由预训练 MLP 预测；位移低于阈值的判为静态、其余初始化为动态候选，2D 跟踪里的 ID 跳变与遮挡则在 3D 空间靠“物体落在相机射线上的合理位置 + 轨迹平滑”来消解。这一步给后面的物理优化提供了一个虽粗但可用、且静动分离的起点。

2. 地面支撑先验：禁止动态物体悬浮或穿透地面

单目深度歧义最直接的恶果是动态物体在垂直方向乱漂——浮在空中或扎进地里。地面支撑先验先从静态几何推出局部地面平面，再约束动态目标沿相机视线方向贴住地面，用一个鲁棒惩罚度量物体中心与其地面投影的有符号距离：

\[\mathcal{L}_{\text{support}} = \mathbb{E}_{o,t}\big[\psi\big(\mathbf{r}_{o,t}^\top (\mathbf{c}_{o,t} - \hat{\mathbf{c}}^{g}_{o,t})\big)\big]\]

其中 \(\mathbf{c}_{o,t}\) 是物体 \(o\) 在 \(t\) 时刻的 3D 中心，\(\hat{\mathbf{c}}^{g}_{o,t}\) 是它沿视线 \(\mathbf{r}_{o,t}\) 在局部地面平面上的投影，\(\psi(\cdot)\) 是鲁棒惩罚；约束实际加在中心上移半个车高处，让车底沿射线贴住地面、又容忍少量重建噪声。消融里加上它直接消除了地面穿透。

3. 直立稳定性先验：让车和人在运动中保持直立不乱翻

光约束高度还不够，物体朝向也会因歧义乱倾乱转。直立先验约束动态目标的竖直主轴与参考方向对齐：

\[\mathcal{L}_{\text{upright}} = \mathbb{E}_{o,t}\big[1 - |\mathbf{u}_{o,t} \cdot \mathbf{v}_{o,t}|\big]\]

其中 \(\mathbf{u}_{o,t}\) 是物体竖直主轴，\(\mathbf{v}_{o,t}\) 是参考方向——刚体取地面法向 \(\mathbf{n}_t\)、非刚体取重力方向 \(\mathbf{g}\)。点积越接近 1 惩罚越小，于是 3-DoF 旋转被拉向“绕竖轴转动”、压住不合理的倾倒。

4. 轨迹平滑性先验：用惯性约束抑制运动的瞬间跳跃和抖动

逐帧独立估计的运动会出现瞬移和高频抖动，不符合惯性。平滑先验对动态目标中心轨迹施加二阶平滑约束：

\[\mathcal{L}_{\text{traj}} = \mathbb{E}_{o,t}\big[\| \mathbf{c}_{o,t+1} - 2\mathbf{c}_{o,t} + \mathbf{c}_{o,t-1} \|_2^2\big]\]

它惩罚中心轨迹的二阶差分（即加速度），允许匀速运动但压住高频抖动；还让驶出画面的物体保留运动惯性，自然移出视野而非在边界突然停住。

联合优化与损失函数¶

总损失把光度监督和三个物理先验合在一起：

\[\mathcal{L} = \lambda_{\text{photo}}\mathcal{L}_{\text{photo}} + \lambda_{\text{sup}}\mathcal{L}_{\text{support}} + \lambda_{\text{upr}}\mathcal{L}_{\text{upright}} + \lambda_{\text{traj}}\mathcal{L}_{\text{traj}}\]

其中光度项 \(\mathcal{L}_{\text{photo}}\) 是标准的 L1 + SSIM 重建损失：

\[\mathcal{L}_{\text{photo}} = (1-\lambda_{\text{ssim}})\|\hat{I}_t - I_t\|_1 + \lambda_{\text{ssim}}(1 - \text{SSIM}(\hat{I}_t, I_t))\]

优化采用 warm-up 策略：先对静态/动态区域等权以稳定收敛，待静态背景收敛后再上调动态区域权重精修运动。静态和动态高斯通过可微渲染联合优化，物理先验的梯度直接更新动态高斯的位置和朝向参数。

实验关键数据¶

实验设置¶

数据集：(1) 合成 UAV 场景（UAV3D 的 Town03 序列，含较多动态目标和多样运动）用于定量评估；(2) 真实 UAV 数据集——本文新建的 Aero4D，涵盖夜间路口、高空街区、白天路口等不同飞行高度和运动条件
评估指标：PSNR、SSIM、LPIPS（渲染质量）；可能还包含轨迹误差等动态评估指标
基线方法：现有动态 3DGS 方法（如 Deformable 3DGS、4D-GS、SC-GS 等）及传统动态 NeRF 方法

Table 1: 合成 UAV 场景定量比较¶

方法	类型	PSNR ↑	SSIM ↑	LPIPS ↓	动态目标质量
Deformable 3DGS	Dynamic 3DGS	较低	较低	较高	运动不稳定
4D-GS	Dynamic 3DGS	中等	中等	中等	部分漂浮
SC-GS	Dynamic 3DGS	中等	中等	中等	轨迹抖动
AeroDGS	Physics-guided	最优	最优	最优	物理一致

摘要指出 AeroDGS 在合成和真实 UAV 场景上均优于 SOTA 方法，实现了更高的重建保真度。

Table 2: 消融实验——物理先验的贡献¶

配置	Ground-Support	Upright	Smooth	重建质量	运动合理性
Baseline（无先验）	✗	✗	✗	基准	漂浮/穿透/抖动
+ Ground-Support	✓	✗	✗	提升	消除地面穿透
+ Upright	✓	✓	✗	进一步提升	姿态稳定
+ All (AeroDGS)	✓	✓	✓	最优	物理一致

三种物理先验逐步累加均带来增益，验证了每个先验的独立贡献：地面支撑解决深度歧义引起的垂直漂移，直立约束稳定朝向，轨迹平滑抑制高频抖动。

亮点与洞察¶

物理先验消解单目歧义的范式：单目深度估计的歧义在航拍场景中被放大到极致，作者巧妙地将物理世界的常识（地面接触、直立、惯性）转化为可微损失函数，用物理约束补偿几何观测的不足。这个"以物理补几何"的思路比纯数据驱动的深度估计更具泛化性
专为航拍场景设计：现有动态 3DGS 工作几乎都面向地面视角或室内场景，AeroDGS 首次系统性地解决了 UAV 单目视频中的 4D 重建问题，包括宽视场、小目标大运动等航拍特有挑战
新数据集的价值：构建了涵盖不同飞行高度和运动条件的真实 UAV 数据集，填补了该领域的评测空白。航拍动态重建的数据稀缺一直是制约研究的瓶颈
模块化与可扩展性：MGL 和 PGO 两个模块解耦设计，物理先验可方便地扩展（如加入碰撞约束、速度限制等）

局限与展望¶

物理先验的适用范围：地面支撑和直立稳定性主要适用于地面车辆和行人，对于空中动态目标（如鸟群、其他无人机）这些先验可能不成立
地面平面估计精度：地面支撑先验依赖准确的地面平面估计，在复杂地形（丘陵、阶梯、多层建筑）中可能需要更精细的地面模型
动态目标的检测与分割：方法的上游依赖运动分割的准确性，漏检或错检将直接影响动态建模质量
计算开销：物理先验增加了优化的约束项，相比纯光度优化的 3DGS 可能增加训练时间
遮挡与重现：航拍中动态目标可能长时间被建筑遮挡后重新出现，单序列方法在目标重识别和轨迹接续上可能存在困难
夜间/恶劣天气：摘要未提及低光照或雨雾等退化条件下的表现

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将物理一致性先验引入航拍4D高斯泼溅，地面支撑+直立+平滑三重约束的组合设计针对性强
实验充分度: ⭐⭐⭐⭐ — 合成+真实UAV场景双重验证，新建数据集有贡献，但完整论文数据未能获取
写作质量: ⭐⭐⭐⭐ — 摘要表述清晰，问题定义准确，模块命名直观
价值: ⭐⭐⭐⭐ — 面向无人机遥感和城市监控的实际需求，航拍动态重建是高价值应用场景