Sky2Ground: A Benchmark for Site Modeling under Varying Altitude¶

会议: CVPR 2026
arXiv: 2603.13740
代码: 即将公开
领域: 3D视觉 / 跨视角定位
关键词: 跨视角定位, 卫星-航拍-地面, 多海拔3D重建, 高斯溅射, 课程学习

一句话总结¶

本文提出Sky2Ground数据集（51个场景，80k图像，统一覆盖卫星/航拍/地面三种视角的合成+真实图像）和SkyNet模型（双流编码器+掩码卫星注意力+渐进式视角采样），首次系统研究了跨地面/航拍/卫星三视角联合相机定位问题，在RRA@5上提升9.6%，在RTA@5上提升18.1%。

研究背景与动机¶

领域现状：多视角3D重建和相机定位是计算机视觉的基础任务。近年来DUSt3R、MASt3R、VGGT等基于神经网络的方法取得了显著进展，但主要在地面-航拍视角上训练和评估。
现有痛点：(1) 缺乏同时包含地面、航拍、卫星三种视角的数据集——nuScenes/KITTI只有地面视角，AerialMegaDepth缺少卫星，MatrixCity/BungeeNeRF仅有合成数据；(2) 没有研究过三视角联合相机定位问题；(3) 卫星图像与地面/航拍图像之间存在巨大的分布偏移。
核心矛盾：卫星图像提供全局一致的地理覆盖和稳定参考，但与地面/航拍视角的视觉差异极大（近正交视角、千米级高度差）。直觉上加入卫星应该提供更多信息，但实验发现反而损害了定位性能。
本文目标 (1) 构建首个覆盖三种视角+真实/合成图像的数据集；(2) 分析为什么卫星图像会损害现有模型性能；(3) 提出能有效利用卫星信息的新架构。
切入角度：作者发现简单微调VGGT加入卫星数据会导致性能暴跌18.2%，但DUSt3R/MASt3R这类逐对处理的网络反而能受益。这说明问题不在于分布偏移本身，而在于全局注意力架构让地面/航拍token与卫星token交互时受到了干扰。
核心 idea：通过掩码卫星注意力阻止地面/航拍token直接关注卫星token，并用渐进式采样策略逐步引入更远视角，实现跨海拔联合定位。

方法详解¶

整体框架¶

这篇论文要解决的是一个反直觉的问题：把卫星图像加进多视角相机定位，本该带来全局参考、提升精度，实测却让 VGGT 这类模型崩盘。作者顺着这个崩盘的成因把模型拆开重建：SkyNet 仍以 VGGT 为骨架，但把单一的全局编码器拆成双流——GAS 编码器吃下所有视角的联合表示、却刻意切断地面/航拍 token 对卫星 token 的注意力，Sat 编码器单独处理卫星图像；两路特征通过卫星特征的加法融合再汇到一起，最后由共享的 Camera Head 和 DPT Head 分别吐出相机参数和深度图。换句话说，整套设计的核心不是"怎么用更多数据"，而是"怎么让卫星这个异质模态只贡献信息、不污染表征"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["Sky2Ground 数据集<br/>地面 / 航拍 / 卫星三视角图像"]
    A -->|"渐进式视角采样（P-VS）<br/>航拍当桥梁、由易到难"| B["采样后的多视角输入"]
    B --> C["GAS 编码器（含 MSA）<br/>联合表示 + 掩码卫星注意力<br/>地面/航拍 token 看不到卫星"]
    B --> D["Sat 编码器<br/>单独处理卫星图像"]
    C --> E["卫星特征加法融合"]
    D --> E
    E --> F["Camera Head<br/>输出相机参数"]
    E --> G["DPT Head<br/>输出深度图"]

关键设计¶

1. Sky2Ground 数据集：把卫星/航拍/地面三视角第一次装进同一个 benchmark

此前的数据集要么只有地面（nuScenes/KITTI），要么缺卫星（AerialMegaDepth），要么纯合成（MatrixCity/BungeeNeRF），三视角联合定位根本无从训练和评测。Sky2Ground 覆盖全球 51 个地理位置，每个场景把四种来源拼齐：120 张卫星正射图（1–2km 高度）、1080 张合成航拍图（用三相机虚拟设备沿螺旋轨迹从 250–800m 下降拍摄）、50–250 张合成地面图，再加各 120 张从 Google Maps 和 YouTube 旅游视频手动搜集的真实航拍/地面图。合成部分用 Google Earth Studio 渲染、COLMAP 生成稠密深度标注，因此能拿到精确的相机 pose 和深度真值；真实部分则补上光照、天气这些合成渲染里缺的噪声。两者互补，既给了干净的监督信号，又保留了真实分布，这正是后续能研究"卫星为何损害定位"的前提。

2. 掩码卫星注意力（MSA）：用非对称注意力把卫星和地面/航拍隔成单向

作者发现 VGGT 微调后性能暴跌的根因不是分布偏移本身，而是全局自注意力让地面/航拍特征被卫星特征"污染"——卫星是近正交、千米级高度的极端视角，它的 token 一旦和地面 token 双向交互，就把原本健康的表征带偏了。MSA 的做法是在 GAS 编码器的每个 block 里先做帧内标准自注意力，再加一层方向性掩码：卫星 token 可以关注地面/航拍 token，但反方向被禁止，注意力矩阵在卫星→地面/航拍方向直接置为 \(-\infty\)。这样地面/航拍 token 永远不会"看到"卫星，于是 VGGT 在地面/航拍上的零样本能力被完整保留；同时卫星 token 仍能单向吸收地面/航拍的信息来定位自己。GAS 编码器的自注意力和 MSA 层都用预训练 VGGT 权重初始化并冻结，进一步守住原始能力。

3. 渐进式视角采样（P-VS）：拿航拍当"桥梁"做课程学习

地面和卫星是一对极端视角，视觉重叠极小，直接拿这两端联合训练几乎学不动。P-VS 用航拍视角作为中间桥梁，按课程逐步加难度：训练初期多采航拍图（\(N_a \approx N\)），让模型先在"地面—航拍—卫星"这条连续的高度链上建立关联；随训练推进逐步抽走航拍（\(N_a \approx 0\)），最终只剩地面和卫星这对最难的组合。模型因此从"三视角联合定位"这个相对简单的起点，平滑过渡到"仅地面+卫星"这个真正困难的目标，而不是一上来就硬碰极端视角对。

损失函数 / 训练策略¶

多任务损失为 \(\mathcal{L} = \mathcal{L}_{\text{cam, sat}} + 0.4 \cdot \mathcal{L}_{\text{cam, gnd/aerial}} + \mathcal{L}_{\text{depth}}\)，卫星相机损失权重最高，呼应"卫星 token 才是要被重点优化的对象"。训练时还配合 Curriculum Aware Camera-Sampling（CA-CS）：初期采样距离近的相机对，再逐步扩展到远距离对，距离按"旋转距离 + 0.5×平移距离"度量——和 P-VS 一样是由易到难的课程思路，只是作用在相机对的几何距离上。

实验关键数据¶

主实验（GAS设置，RRA@5 / RTA@5 %）¶

方法	训练数据	Ground RRA/RTA	Sat RRA/RTA	Aerial RRA/RTA	平均RRA/RTA
VGGT	零样本	75.1/60.9	66.6/0.0	79.2/72.6	73.6/44.5
VGGT	Sky2Ground	50.0/46.1	86.6/53.3	29.7/31.5	55.4/43.6
SkyNet	Sky2Ground	76.7/64.2	88.9/57.3	84.0/78.1	83.2/66.5

消融实验（G+S设置）¶

配置	MSA	CA-CS	P-VS	平均性能
VGGT微调	✗	✗	✗	47.8
VGGT零样本	✗	✗	✗	52.9
+MSA	✓	✗	✗	62.7 (+8.2)
+P-VS	✗	✗	✓	61.1 (+7.3)
+MSA+CA-CS+P-VS	✓	✓	✓	65.1 (+12.2)

关键发现¶

微调VGGT加卫星反而严重退化：RRA从73.6%跌至55.4%（-18.2%），这是核心发现
MSA是贡献最大的单一组件：+8.2%，因为它保护了地面/航拍特征不被卫星干扰
P-VS比CA-CS更有效：+7.3% vs +1.4%，说明"用航拍做桥梁"比"由近及远采样"更关键
逐对处理的网络能受益于卫星：DUSt3R/MASt3R加入卫星后性能提升，因为配对处理中卫星-卫星对的高共视率有利于全局对齐
真实图像损害渲染质量：加入真实图像后PSNR一致下降，域差距导致GS难以混合两种来源
2DGS始终优于3DGS：在所有视角和密度下，2D高斯溅射的感知质量更好

亮点与洞察¶

"加数据反而变差"的反直觉发现极具启发性：加入卫星——这一在信息论上更丰富的数据源——反而损害性能，说明当分布偏移足够大时，更多数据不等于更好结果。这挑战了"scale everything"的思维
MSA的设计思路可广泛迁移：任何涉及异质模态（如文本+图像、RGB+热成像）的Transformer架构中，如果某种模态的分布差异太大，可以用非对称注意力掩码来规避干扰
航拍作为"桥梁模态"的课程学习：这种从中间模态逐步过渡到极端模态的训练策略，可以推广到任何多模态对齐任务

局限与展望¶

方法是两阶段的（先预测pose，再高斯溅射），未来可探索统一模型
51个场景对于大规模训练可能不足
卫星图像的正射校正依赖额外处理
真实图像的pose通过COLMAP估计，精度有限
未探索更先进的域适应技术来弥合合成-真实差距

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究三视角联合定位，MSA和P-VS设计有创意
实验充分度: ⭐⭐⭐⭐⭐ 涵盖定位和渲染两大任务，多种baseline对比，详细的消融
写作质量: ⭐⭐⭐⭐ 分析深入，反直觉发现表述清晰
价值: ⭐⭐⭐⭐ 数据集和benchmark对跨视角定位领域有重要价值