跳转至

Measuring the Intrinsic Dimension of Earth Representations

会议: ICLR 2026
arXiv: 2511.02101
代码: GitHub
领域: Remote Sensing / Representation Learning
关键词: 内在维度, 地理隐式神经表示, 地球观测, 表示学习, 无监督评估

一句话总结

首次系统度量地理隐式神经表示(Geographic INR)的内在维度(ID),发现256-512维嵌入的真实ID仅2-10维;冻结嵌入空间的高ID与好的下游性能正相关,而监督任务头激活空间的低ID与高性能正相关,揭示了「代表性 vs 任务对齐」的双重机制。

研究背景与动机

地理隐式神经表示(Geographic INR)将经纬度坐标 \((λ, ϕ)\) 映射为高维嵌入向量 \(z = f(λ, ϕ) \in \mathbb{R}^D\)\(D\) 通常为256或512),通过在卫星图像、地面照片或文本上做对比学习预训练。SatCLIP、GeoCLIP、CSP等模型已被广泛用于土地覆盖分割、目标检测和图像地理定位等下游任务。

核心问题:这些高维表示中究竟包含了多少有效信息?现有评估完全依赖下游任务标签,缺乏架构无关、无需标签的信息量度量方式。

关键洞察:地球表面本身是二维球面 \(S^2\),INR的输入流形维度已知为2。如果嵌入的内在维度(Intrinsic Dimension, ID)远高于2,说明模型确实编码了超越坐标本身的地理信号;如果ID接近环境维度 \(D\),则可能存在冗余。这种"已知输入维度 + 可测量输出ID"的设定使得地理INR成为研究ID的理想对象。

方法详解

整体框架

本文不训练新模型,而是把一批已预训练的地理INR当作研究对象,用同一套内在维度(Intrinsic Dimension, ID)工具去量它们到底编码了多少独立信息。关键的设计是从两个互补的空间各量一次 ID,对应两个不同的问题。第一条线路冻结预训练编码器、在全球陆地均匀采样十万个坐标 \((λ, ϕ)\) 得到嵌入矩阵 \(Z_{geo} \in \mathbb{R}^{N \times D}\),量这个嵌入流形有多少独立方向,对应"代表性"(representativeness)——表示本身有多丰富。第二条线路仍然冻结嵌入、只在其上训练一个浅层任务头,量监督学习能把特征压缩到多低维的任务流形上,对应"任务对齐"(task-alignment)——表示对某个下游任务有多好用。同一把 ID 尺子量这两个空间,最后却得到方向相反的相关结论,这个反差就是全文的核心发现。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    M["预训练地理INR<br/>(冻结,不再训练)"]
    M -->|"全球陆地均匀<br/>采样十万坐标"| E["嵌入空间 Z<br/>(N×D)"]
    E --> F["角度估计器 FisherS<br/>(白化+投影球面)"]
    F --> EID["嵌入空间ID<br/>= 代表性"]
    M -->|"冻结嵌入+<br/>训浅层任务头"| A["倒数第二层激活"]
    A --> T["距离估计器 TwoNN"]
    T --> AID["激活空间ID<br/>= 任务对齐"]
    EID --> R["双重机制:嵌入ID↑→性能↑<br/>激活ID↓→性能↑"]
    AID --> R

关键设计

1. 双空间ID测量协议:把"表示够不够丰富"和"表示好不好用"拆成两次测量

只在一个空间量 ID 是说不清楚"高维更好还是低维更好"的,因为预训练和微调对维度的诉求恰恰相反。本文的做法是把这两件事分开量。代表性这一侧,对冻结的位置编码器 \(f\) 在全球均匀坐标上生成嵌入 \(Z_{geo}\),用前面那把"角度尺"量整个嵌入流形的全局 ID——ID 越高说明编码出的独立地理信号越多。任务对齐这一侧,保持 INR 仍然冻结,只额外训练一个浅层任务头,然后量这个任务头倒数第二层激活(penultimate-layer activation)的 ID(沿用 Ansuini et al. 2019 在分类网络里的做法)——本文把"任务对齐"定义成一个纯几何的概念:一个表示越能被浅层头压到低维流形上,就越对齐这个任务。两侧用同一把 ID 尺子,但因为量的空间不同(冻结嵌入 vs 监督激活),就能让"预训练要宽、微调要窄"这两个直觉在同一坐标系里被同时观测到。

2. 角度估计器与距离估计器的互补使用:用对工具才不会被地理数据的空间异质性骗到

地球表面的嵌入分布天然不均匀——气候带边界、海陆交界、训练图像的地域偏差都会造成局部密度突变,若直接用对邻域距离敏感的估计器做全局横向比较,结果会被这些局部结构污染。因此本文按用途分工:做全局横向排名(图中代表性这一侧)用角度估计器 FisherS,它先对嵌入白化再投影到球面,消除局部密度差异、只看方向分布的有效自由度,因而对空间异质性鲁棒,能在不同模型之间公平地排座次;做逐点空间诊断则用距离估计器(MLE、TwoNN、MOM、TLE),它们对局部邻域距离敏感,正好用来逐点估计、揭示嵌入的局部结构(任务对齐侧用的 TwoNN 也属此类)。两类估计器给出的数值常差一两倍(如 SatCLIP-L40 的 FisherS=8.08 而 MLE=2.03),这种差异本身被当作信号而非噪声来读。

3. 局部ID地图:把单一标量铺开成全球图,让架构伪影和数据偏差现形

全局 ID 只是一个数,掩盖了"哪里维度高、哪里维度低"的空间信息。本文用 MLE 估计器在 \(k=100\) 近邻上逐点计算 ID,再画成全球地图,于是模型的内部毛病一目了然:GeoCLIP 的 ID 在美国和西欧最高,直接暴露其训练所用社交媒体图像的地域分布偏差;CSP 的地图呈规则网格条纹,源自位置编码的周期性重复;SatCLIP 则有细微振荡,对应球谐函数有限阶截断的截断效应。局部 ID 地图因此成为一个不需要标签的模型诊断工具。

4. 分辨率—ID的因果实验:系统拨动位置编码的分辨率旋钮,把相关关系坐实成因果关系

代表性高的模型性能好,可能只是相关;为说明分辨率确实在驱动 ID,本文逐一控制各模型位置编码的分辨率超参数——SatCLIP 的 Legendre 多项式阶数 \(L\)、GeoCLIP 的随机傅里叶特征(RFF)最大频率 \(\sigma_{max}\) 与层级数 \(M\)、Space2Vec 的频率分量数 \(S\)——观察 ID 随之单调变化。结果 ID 随分辨率近乎单调递增(\(L\) 从 10 升到 40 时 FisherS ID 从 5.0 升到 8.1,GeoCLIP 提高 \(\sigma_{max}\) 后 ID 从 7.7 跃升近十倍至 75.7),把"高频位置编码扩展嵌入有效自由度"从猜测变成可控变量下的因果证据。

实验关键数据

各模型全局内在维度

模型 类型 \(D\) FisherS MLE MOM TLE
SatCLIP-L10 位置编码器 256 5.00 1.96 2.02 2.16
SatCLIP-L40 位置编码器 256 8.08 2.03 2.39 2.32
GeoCLIP 位置编码器 512 7.68 11.21 13.02 11.53
CSP-fMoW 位置编码器 256 1.70 5.18 5.23 6.25
CSP-iNat 位置编码器 256 0.92 3.37 4.64 4.14
SINR 位置编码器 256 3.19 2.19 3.36 2.74
TaxaBind-Loc 位置编码器 512 3.33 9.44 11.56 10.30
CROMA 图像编码器 768 9.79 19.57 17.00 20.30
DOFA 图像编码器 768 3.32 15.58 13.78 16.20
ResNet152 图像编码器 2048 7.60 20.72 17.50 21.50

所有位置编码器的ID均比环境维度低1-2个数量级。GeoCLIP的距离估计ID(11-13)已接近大型图像编码器DOFA(14-16),说明仅靠经纬度输入也能编码丰富的地理信息。

输入模态对ID与性能的影响

预训练模态 全局FisherS ID 气温R² 高程R² 人口R²
Sentinel-2 ~7.5 ~0.76 ~0.74 ~0.78
S1 + S2 ~8.5 ~0.80 ~0.82 ~0.82
全部模态(All) ~9.5 ~0.84 ~0.86 ~0.86

更多输入模态 → 更高ID → 更好下游性能,三者单调递增。

核心发现

  • 嵌入空间ID与性能正相关:冻结INR嵌入的全局FisherS ID越高,下游回归/分类性能越好(气温、高程、人口、生物群落、国家分类5个任务均成立)。高ID意味着更强的代表性,浅层学习器可利用更多独立方向。
  • 激活空间ID与性能负相关:监督MLP倒数第二层的TwoNN ID越低,性能越好。监督适配将INR特征压缩到了更低维的任务对齐流形上。这与Ansuini et al. (2019)在分类网络中的发现一致。
  • 分辨率控制ID:SatCLIP的Legendre阶数从10增到40时,FisherS ID从5.0升至8.1;GeoCLIP增加RFF最大频率后ID从7.7飙升至75.7。
  • 局部ID暴露数据偏差:GeoCLIP在美国/西欧ID最高(训练数据密集区),CSP呈网格伪影(位置编码周期性),可直接用于模型诊断。

亮点与洞察

  • 代表性 vs 任务对齐的双重机制是本文最核心的贡献:同一个ID度量在嵌入空间和激活空间呈现相反的相关方向,优雅地统一了"预训练要宽"和"微调要窄"两个直觉
  • ID作为无标签度量的实用价值明确:可替代昂贵的下游评估做模型选择、超参数搜索和早停判断
  • 局部ID地图是一个直观有效的模型诊断工具,可发现预训练数据覆盖偏差和架构引入的空间伪影
  • 地理INR的ID(2-10)远低于环境维度(256-512),暗示当前模型表示严重冗余,存在压缩空间

分辨率对ID的影响

模型 分辨率参数 参数值 全局FisherS ID
SatCLIP Legendre阶数 \(L\) 10 5.0
SatCLIP Legendre阶数 \(L\) 20 ~6.5
SatCLIP Legendre阶数 \(L\) 40 8.1
GeoCLIP RFF最大频率 \(\sigma_{max}\) \(2^8\) 7.7
GeoCLIP RFF最大频率 \(\sigma_{max}\) \(2^{16}\) 75.7

SatCLIP的ID随球谐函数阶数近乎线性增长;GeoCLIP在提高RFF频率后ID急剧跃升近10倍,说明高频位置编码极大扩展了嵌入的有效自由度。

局限性

  • 不同ID估计器给出差异显著的数值(如SatCLIP-L40的FisherS=8.08 vs MLE=2.03),需根据场景选择估计器
  • 仅分析了2D坐标输入的静态INR,未涉及加入时间维度的时空表示
  • ID是单一标量,无法刻画嵌入空间的方向性结构或语义组织
  • 代表性-任务对齐的相关性分析基于有限的7个位置编码器和5个下游任务,统计显著性依赖样本量
  • 未探讨如何利用ID分析反向指导INR架构设计(如基于局部ID的自适应维度分配或区域加权微调)
  • 表示学习评估:传统的评估依赖下游任务probe,本文提供了无标签的替代方案
  • 启发:ID分析方法可以推广到其他领域的预训练表示评估(如NLP中的语言模型表示、医学影像表示等)

评分

  • 新颖性: ⭐⭐⭐⭐ (视角新但技术工具已有)
  • 实验充分度: ⭐⭐⭐⭐ (多模型多维度分析全面)
  • 写作质量: ⭐⭐⭐⭐ (27页含详尽附录)
  • 价值: ⭐⭐⭐⭐ (为地球观测表示学习提供了重要分析工具)