Measuring the Intrinsic Dimension of Earth Representations¶

会议: ICLR 2026
arXiv: 2511.02101
代码: GitHub
领域: Remote Sensing / Representation Learning
关键词: 内在维度, 地理隐式神经表示, 地球观测, 表示学习, 无监督评估

一句话总结¶

首次系统度量地理隐式神经表示（Geographic INR）的内在维度（ID），发现256-512维嵌入的真实ID仅2-10维；冻结嵌入空间的高ID与好的下游性能正相关，而监督任务头激活空间的低ID与高性能正相关，揭示了「代表性 vs 任务对齐」的双重机制。

研究背景与动机¶

地理隐式神经表示（Geographic INR）将经纬度坐标 \((λ, ϕ)\) 映射为高维嵌入向量 \(z = f(λ, ϕ) \in \mathbb{R}^D\)（\(D\) 通常为256或512），通过在卫星图像、地面照片或文本上做对比学习预训练。SatCLIP、GeoCLIP、CSP等模型已被广泛用于土地覆盖分割、目标检测和图像地理定位等下游任务。

核心问题：这些高维表示中究竟包含了多少有效信息？现有评估完全依赖下游任务标签，缺乏架构无关、无需标签的信息量度量方式。

关键洞察：地球表面本身是二维球面 \(S^2\)，INR的输入流形维度已知为2。如果嵌入的内在维度（Intrinsic Dimension, ID）远高于2，说明模型确实编码了超越坐标本身的地理信号；如果ID接近环境维度 \(D\)，则可能存在冗余。这种"已知输入维度 + 可测量输出ID"的设定使得地理INR成为研究ID的理想对象。

方法详解¶

整体框架¶

本文不训练新模型，而是把一批已预训练的地理INR当作研究对象，用同一套内在维度（Intrinsic Dimension, ID）工具去量它们到底编码了多少独立信息。关键的设计是从两个互补的空间各量一次 ID，对应两个不同的问题。第一条线路冻结预训练编码器、在全球陆地均匀采样十万个坐标 \((λ, ϕ)\) 得到嵌入矩阵 \(Z_{geo} \in \mathbb{R}^{N \times D}\)，量这个嵌入流形有多少独立方向，对应"代表性"（representativeness）——表示本身有多丰富。第二条线路仍然冻结嵌入、只在其上训练一个浅层任务头，量监督学习能把特征压缩到多低维的任务流形上，对应"任务对齐"（task-alignment）——表示对某个下游任务有多好用。同一把 ID 尺子量这两个空间，最后却得到方向相反的相关结论，这个反差就是全文的核心发现。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    M["预训练地理INR<br/>(冻结，不再训练)"]
    M -->|"全球陆地均匀<br/>采样十万坐标"| E["嵌入空间 Z<br/>(N×D)"]
    E --> F["角度估计器 FisherS<br/>(白化+投影球面)"]
    F --> EID["嵌入空间ID<br/>= 代表性"]
    M -->|"冻结嵌入+<br/>训浅层任务头"| A["倒数第二层激活"]
    A --> T["距离估计器 TwoNN"]
    T --> AID["激活空间ID<br/>= 任务对齐"]
    EID --> R["双重机制：嵌入ID↑→性能↑<br/>激活ID↓→性能↑"]
    AID --> R

关键设计¶

1. 双空间ID测量协议：把"表示够不够丰富"和"表示好不好用"拆成两次测量

只在一个空间量 ID 是说不清楚"高维更好还是低维更好"的，因为预训练和微调对维度的诉求恰恰相反。本文的做法是把这两件事分开量。代表性这一侧，对冻结的位置编码器 \(f\) 在全球均匀坐标上生成嵌入 \(Z_{geo}\)，用前面那把"角度尺"量整个嵌入流形的全局 ID——ID 越高说明编码出的独立地理信号越多。任务对齐这一侧，保持 INR 仍然冻结，只额外训练一个浅层任务头，然后量这个任务头倒数第二层激活（penultimate-layer activation）的 ID（沿用 Ansuini et al. 2019 在分类网络里的做法）——本文把"任务对齐"定义成一个纯几何的概念：一个表示越能被浅层头压到低维流形上，就越对齐这个任务。两侧用同一把 ID 尺子，但因为量的空间不同（冻结嵌入 vs 监督激活），就能让"预训练要宽、微调要窄"这两个直觉在同一坐标系里被同时观测到。

2. 角度估计器与距离估计器的互补使用：用对工具才不会被地理数据的空间异质性骗到

地球表面的嵌入分布天然不均匀——气候带边界、海陆交界、训练图像的地域偏差都会造成局部密度突变，若直接用对邻域距离敏感的估计器做全局横向比较，结果会被这些局部结构污染。因此本文按用途分工：做全局横向排名（图中代表性这一侧）用角度估计器 FisherS，它先对嵌入白化再投影到球面，消除局部密度差异、只看方向分布的有效自由度，因而对空间异质性鲁棒，能在不同模型之间公平地排座次；做逐点空间诊断则用距离估计器（MLE、TwoNN、MOM、TLE），它们对局部邻域距离敏感，正好用来逐点估计、揭示嵌入的局部结构（任务对齐侧用的 TwoNN 也属此类）。两类估计器给出的数值常差一两倍（如 SatCLIP-L40 的 FisherS=8.08 而 MLE=2.03），这种差异本身被当作信号而非噪声来读。

3. 局部ID地图：把单一标量铺开成全球图，让架构伪影和数据偏差现形

全局 ID 只是一个数，掩盖了"哪里维度高、哪里维度低"的空间信息。本文用 MLE 估计器在 \(k=100\) 近邻上逐点计算 ID，再画成全球地图，于是模型的内部毛病一目了然：GeoCLIP 的 ID 在美国和西欧最高，直接暴露其训练所用社交媒体图像的地域分布偏差；CSP 的地图呈规则网格条纹，源自位置编码的周期性重复；SatCLIP 则有细微振荡，对应球谐函数有限阶截断的截断效应。局部 ID 地图因此成为一个不需要标签的模型诊断工具。

4. 分辨率—ID的因果实验：系统拨动位置编码的分辨率旋钮，把相关关系坐实成因果关系

代表性高的模型性能好，可能只是相关；为说明分辨率确实在驱动 ID，本文逐一控制各模型位置编码的分辨率超参数——SatCLIP 的 Legendre 多项式阶数 \(L\)、GeoCLIP 的随机傅里叶特征（RFF）最大频率 \(\sigma_{max}\) 与层级数 \(M\)、Space2Vec 的频率分量数 \(S\)——观察 ID 随之单调变化。结果 ID 随分辨率近乎单调递增（\(L\) 从 10 升到 40 时 FisherS ID 从 5.0 升到 8.1，GeoCLIP 提高 \(\sigma_{max}\) 后 ID 从 7.7 跃升近十倍至 75.7），把"高频位置编码扩展嵌入有效自由度"从猜测变成可控变量下的因果证据。

实验关键数据¶

各模型全局内在维度¶

模型	类型	\(D\)	FisherS	MLE	MOM	TLE
SatCLIP-L10	位置编码器	256	5.00	1.96	2.02	2.16
SatCLIP-L40	位置编码器	256	8.08	2.03	2.39	2.32
GeoCLIP	位置编码器	512	7.68	11.21	13.02	11.53
CSP-fMoW	位置编码器	256	1.70	5.18	5.23	6.25
CSP-iNat	位置编码器	256	0.92	3.37	4.64	4.14
SINR	位置编码器	256	3.19	2.19	3.36	2.74
TaxaBind-Loc	位置编码器	512	3.33	9.44	11.56	10.30
CROMA	图像编码器	768	9.79	19.57	17.00	20.30
DOFA	图像编码器	768	3.32	15.58	13.78	16.20
ResNet152	图像编码器	2048	7.60	20.72	17.50	21.50

所有位置编码器的ID均比环境维度低1-2个数量级。GeoCLIP的距离估计ID（11-13）已接近大型图像编码器DOFA（14-16），说明仅靠经纬度输入也能编码丰富的地理信息。

输入模态对ID与性能的影响¶

预训练模态	全局FisherS ID	气温R²	高程R²	人口R²
Sentinel-2	~7.5	~0.76	~0.74	~0.78
S1 + S2	~8.5	~0.80	~0.82	~0.82
全部模态（All）	~9.5	~0.84	~0.86	~0.86

更多输入模态 → 更高ID → 更好下游性能，三者单调递增。

核心发现¶

嵌入空间ID与性能正相关：冻结INR嵌入的全局FisherS ID越高，下游回归/分类性能越好（气温、高程、人口、生物群落、国家分类5个任务均成立）。高ID意味着更强的代表性，浅层学习器可利用更多独立方向。
激活空间ID与性能负相关：监督MLP倒数第二层的TwoNN ID越低，性能越好。监督适配将INR特征压缩到了更低维的任务对齐流形上。这与Ansuini et al. (2019)在分类网络中的发现一致。
分辨率控制ID：SatCLIP的Legendre阶数从10增到40时，FisherS ID从5.0升至8.1；GeoCLIP增加RFF最大频率后ID从7.7飙升至75.7。
局部ID暴露数据偏差：GeoCLIP在美国/西欧ID最高（训练数据密集区），CSP呈网格伪影（位置编码周期性），可直接用于模型诊断。

亮点与洞察¶

代表性 vs 任务对齐的双重机制是本文最核心的贡献：同一个ID度量在嵌入空间和激活空间呈现相反的相关方向，优雅地统一了"预训练要宽"和"微调要窄"两个直觉
ID作为无标签度量的实用价值明确：可替代昂贵的下游评估做模型选择、超参数搜索和早停判断
局部ID地图是一个直观有效的模型诊断工具，可发现预训练数据覆盖偏差和架构引入的空间伪影
地理INR的ID（2-10）远低于环境维度（256-512），暗示当前模型表示严重冗余，存在压缩空间

分辨率对ID的影响¶

模型	分辨率参数	参数值	全局FisherS ID
SatCLIP	Legendre阶数 \(L\)	10	5.0
SatCLIP	Legendre阶数 \(L\)	20	~6.5
SatCLIP	Legendre阶数 \(L\)	40	8.1
GeoCLIP	RFF最大频率 \(\sigma_{max}\)	\(2^8\)	7.7
GeoCLIP	RFF最大频率 \(\sigma_{max}\)	\(2^{16}\)	75.7

SatCLIP的ID随球谐函数阶数近乎线性增长；GeoCLIP在提高RFF频率后ID急剧跃升近10倍，说明高频位置编码极大扩展了嵌入的有效自由度。

局限性¶

不同ID估计器给出差异显著的数值（如SatCLIP-L40的FisherS=8.08 vs MLE=2.03），需根据场景选择估计器
仅分析了2D坐标输入的静态INR，未涉及加入时间维度的时空表示
ID是单一标量，无法刻画嵌入空间的方向性结构或语义组织
代表性-任务对齐的相关性分析基于有限的7个位置编码器和5个下游任务，统计显著性依赖样本量
未探讨如何利用ID分析反向指导INR架构设计（如基于局部ID的自适应维度分配或区域加权微调）
表示学习评估：传统的评估依赖下游任务probe，本文提供了无标签的替代方案
启发：ID分析方法可以推广到其他领域的预训练表示评估（如NLP中的语言模型表示、医学影像表示等）

评分¶

新颖性: ⭐⭐⭐⭐ （视角新但技术工具已有）
实验充分度: ⭐⭐⭐⭐ （多模型多维度分析全面）
写作质量: ⭐⭐⭐⭐ （27页含详尽附录）
价值: ⭐⭐⭐⭐ （为地球观测表示学习提供了重要分析工具）