Sky2Ground: A Benchmark for Site Modeling under Varying Altitude¶
会议: CVPR 2026
arXiv: 2603.13740
代码: 即将公开
领域: 3D视觉 / 跨视角定位
关键词: 跨视角定位, 卫星-航拍-地面, 多海拔3D重建, 高斯溅射, 课程学习
一句话总结¶
本文提出Sky2Ground数据集(51个场景,80k图像,统一覆盖卫星/航拍/地面三种视角的合成+真实图像)和SkyNet模型(双流编码器+掩码卫星注意力+渐进式视角采样),首次系统研究了跨地面/航拍/卫星三视角联合相机定位问题,在RRA@5上提升9.6%,在RTA@5上提升18.1%。
研究背景与动机¶
- 领域现状:多视角3D重建和相机定位是计算机视觉的基础任务。近年来DUSt3R、MASt3R、VGGT等基于神经网络的方法取得了显著进展,但主要在地面-航拍视角上训练和评估。
- 现有痛点:(1) 缺乏同时包含地面、航拍、卫星三种视角的数据集——nuScenes/KITTI只有地面视角,AerialMegaDepth缺少卫星,MatrixCity/BungeeNeRF仅有合成数据;(2) 没有研究过三视角联合相机定位问题;(3) 卫星图像与地面/航拍图像之间存在巨大的分布偏移。
- 核心矛盾:卫星图像提供全局一致的地理覆盖和稳定参考,但与地面/航拍视角的视觉差异极大(近正交视角、千米级高度差)。直觉上加入卫星应该提供更多信息,但实验发现反而损害了定位性能。
- 本文目标 (1) 构建首个覆盖三种视角+真实/合成图像的数据集;(2) 分析为什么卫星图像会损害现有模型性能;(3) 提出能有效利用卫星信息的新架构。
- 切入角度:作者发现简单微调VGGT加入卫星数据会导致性能暴跌18.2%,但DUSt3R/MASt3R这类逐对处理的网络反而能受益。这说明问题不在于分布偏移本身,而在于全局注意力架构让地面/航拍token与卫星token交互时受到了干扰。
- 核心 idea:通过掩码卫星注意力阻止地面/航拍token直接关注卫星token,并用渐进式采样策略逐步引入更远视角,实现跨海拔联合定位。
方法详解¶
整体框架¶
这篇论文要解决的是一个反直觉的问题:把卫星图像加进多视角相机定位,本该带来全局参考、提升精度,实测却让 VGGT 这类模型崩盘。作者顺着这个崩盘的成因把模型拆开重建:SkyNet 仍以 VGGT 为骨架,但把单一的全局编码器拆成双流——GAS 编码器吃下所有视角的联合表示、却刻意切断地面/航拍 token 对卫星 token 的注意力,Sat 编码器单独处理卫星图像;两路特征通过卫星特征的加法融合再汇到一起,最后由共享的 Camera Head 和 DPT Head 分别吐出相机参数和深度图。换句话说,整套设计的核心不是"怎么用更多数据",而是"怎么让卫星这个异质模态只贡献信息、不污染表征"。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["Sky2Ground 数据集<br/>地面 / 航拍 / 卫星三视角图像"]
A -->|"渐进式视角采样(P-VS)<br/>航拍当桥梁、由易到难"| B["采样后的多视角输入"]
B --> C["GAS 编码器(含 MSA)<br/>联合表示 + 掩码卫星注意力<br/>地面/航拍 token 看不到卫星"]
B --> D["Sat 编码器<br/>单独处理卫星图像"]
C --> E["卫星特征加法融合"]
D --> E
E --> F["Camera Head<br/>输出相机参数"]
E --> G["DPT Head<br/>输出深度图"]
关键设计¶
1. Sky2Ground 数据集:把卫星/航拍/地面三视角第一次装进同一个 benchmark
此前的数据集要么只有地面(nuScenes/KITTI),要么缺卫星(AerialMegaDepth),要么纯合成(MatrixCity/BungeeNeRF),三视角联合定位根本无从训练和评测。Sky2Ground 覆盖全球 51 个地理位置,每个场景把四种来源拼齐:120 张卫星正射图(1–2km 高度)、1080 张合成航拍图(用三相机虚拟设备沿螺旋轨迹从 250–800m 下降拍摄)、50–250 张合成地面图,再加各 120 张从 Google Maps 和 YouTube 旅游视频手动搜集的真实航拍/地面图。合成部分用 Google Earth Studio 渲染、COLMAP 生成稠密深度标注,因此能拿到精确的相机 pose 和深度真值;真实部分则补上光照、天气这些合成渲染里缺的噪声。两者互补,既给了干净的监督信号,又保留了真实分布,这正是后续能研究"卫星为何损害定位"的前提。
2. 掩码卫星注意力(MSA):用非对称注意力把卫星和地面/航拍隔成单向
作者发现 VGGT 微调后性能暴跌的根因不是分布偏移本身,而是全局自注意力让地面/航拍特征被卫星特征"污染"——卫星是近正交、千米级高度的极端视角,它的 token 一旦和地面 token 双向交互,就把原本健康的表征带偏了。MSA 的做法是在 GAS 编码器的每个 block 里先做帧内标准自注意力,再加一层方向性掩码:卫星 token 可以关注地面/航拍 token,但反方向被禁止,注意力矩阵在卫星→地面/航拍方向直接置为 \(-\infty\)。这样地面/航拍 token 永远不会"看到"卫星,于是 VGGT 在地面/航拍上的零样本能力被完整保留;同时卫星 token 仍能单向吸收地面/航拍的信息来定位自己。GAS 编码器的自注意力和 MSA 层都用预训练 VGGT 权重初始化并冻结,进一步守住原始能力。
3. 渐进式视角采样(P-VS):拿航拍当"桥梁"做课程学习
地面和卫星是一对极端视角,视觉重叠极小,直接拿这两端联合训练几乎学不动。P-VS 用航拍视角作为中间桥梁,按课程逐步加难度:训练初期多采航拍图(\(N_a \approx N\)),让模型先在"地面—航拍—卫星"这条连续的高度链上建立关联;随训练推进逐步抽走航拍(\(N_a \approx 0\)),最终只剩地面和卫星这对最难的组合。模型因此从"三视角联合定位"这个相对简单的起点,平滑过渡到"仅地面+卫星"这个真正困难的目标,而不是一上来就硬碰极端视角对。
损失函数 / 训练策略¶
多任务损失为 \(\mathcal{L} = \mathcal{L}_{\text{cam, sat}} + 0.4 \cdot \mathcal{L}_{\text{cam, gnd/aerial}} + \mathcal{L}_{\text{depth}}\),卫星相机损失权重最高,呼应"卫星 token 才是要被重点优化的对象"。训练时还配合 Curriculum Aware Camera-Sampling(CA-CS):初期采样距离近的相机对,再逐步扩展到远距离对,距离按"旋转距离 + 0.5×平移距离"度量——和 P-VS 一样是由易到难的课程思路,只是作用在相机对的几何距离上。
实验关键数据¶
主实验(GAS设置,RRA@5 / RTA@5 %)¶
| 方法 | 训练数据 | Ground RRA/RTA | Sat RRA/RTA | Aerial RRA/RTA | 平均RRA/RTA |
|---|---|---|---|---|---|
| VGGT | 零样本 | 75.1/60.9 | 66.6/0.0 | 79.2/72.6 | 73.6/44.5 |
| VGGT | Sky2Ground | 50.0/46.1 | 86.6/53.3 | 29.7/31.5 | 55.4/43.6 |
| SkyNet | Sky2Ground | 76.7/64.2 | 88.9/57.3 | 84.0/78.1 | 83.2/66.5 |
消融实验(G+S设置)¶
| 配置 | MSA | CA-CS | P-VS | 平均性能 |
|---|---|---|---|---|
| VGGT微调 | ✗ | ✗ | ✗ | 47.8 |
| VGGT零样本 | ✗ | ✗ | ✗ | 52.9 |
| +MSA | ✓ | ✗ | ✗ | 62.7 (+8.2) |
| +P-VS | ✗ | ✗ | ✓ | 61.1 (+7.3) |
| +MSA+CA-CS+P-VS | ✓ | ✓ | ✓ | 65.1 (+12.2) |
关键发现¶
- 微调VGGT加卫星反而严重退化:RRA从73.6%跌至55.4%(-18.2%),这是核心发现
- MSA是贡献最大的单一组件:+8.2%,因为它保护了地面/航拍特征不被卫星干扰
- P-VS比CA-CS更有效:+7.3% vs +1.4%,说明"用航拍做桥梁"比"由近及远采样"更关键
- 逐对处理的网络能受益于卫星:DUSt3R/MASt3R加入卫星后性能提升,因为配对处理中卫星-卫星对的高共视率有利于全局对齐
- 真实图像损害渲染质量:加入真实图像后PSNR一致下降,域差距导致GS难以混合两种来源
- 2DGS始终优于3DGS:在所有视角和密度下,2D高斯溅射的感知质量更好
亮点与洞察¶
- "加数据反而变差"的反直觉发现极具启发性:加入卫星——这一在信息论上更丰富的数据源——反而损害性能,说明当分布偏移足够大时,更多数据不等于更好结果。这挑战了"scale everything"的思维
- MSA的设计思路可广泛迁移:任何涉及异质模态(如文本+图像、RGB+热成像)的Transformer架构中,如果某种模态的分布差异太大,可以用非对称注意力掩码来规避干扰
- 航拍作为"桥梁模态"的课程学习:这种从中间模态逐步过渡到极端模态的训练策略,可以推广到任何多模态对齐任务
局限与展望¶
- 方法是两阶段的(先预测pose,再高斯溅射),未来可探索统一模型
- 51个场景对于大规模训练可能不足
- 卫星图像的正射校正依赖额外处理
- 真实图像的pose通过COLMAP估计,精度有限
- 未探索更先进的域适应技术来弥合合成-真实差距
相关工作与启发¶
- vs AerialMegaDepth: 最相关的数据集,但缺少卫星视角;Sky2Ground是其超集
- vs VGGT: SkyNet建立在VGGT之上但解决了其在卫星视角上的崩溃问题
- vs DUSt3R/MASt3R: 逐对处理虽然能利用卫星信息但复杂度为\(O(N^2)\),不适合实时应用
- vs Dragon: Dragon也用渐进策略整合不同高度图像,但仅用于重建,不涉及定位
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统研究三视角联合定位,MSA和P-VS设计有创意
- 实验充分度: ⭐⭐⭐⭐⭐ 涵盖定位和渲染两大任务,多种baseline对比,详细的消融
- 写作质量: ⭐⭐⭐⭐ 分析深入,反直觉发现表述清晰
- 价值: ⭐⭐⭐⭐ 数据集和benchmark对跨视角定位领域有重要价值