GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration¶

会议: CVPR 2026
arXiv: 2603.13068
代码: https://github.com/yihaoding/geochemad
领域:科学计算 关键词: 地球化学异常检测, 无监督学习, Transformer, 基准数据集, 矿产勘探

一句话总结¶

提出 GeoChemAD 开源基准数据集和 GeoChemFormer 框架，通过空间上下文学习与元素依赖建模实现无监督地球化学异常检测，在8个子集上平均 AUC 达到 0.7712。

研究背景与动机¶

地球化学异常检测（GAD）在矿产勘探中至关重要——通过发现元素浓度偏离区域基线的异常来指示矿化区域。表层地球化学分布是原始就位和次生散布过程(风化、侵蚀)的产物，采集的数据可能反映多阶段、多来源的成矿过程，导致高度空间不连续性、不确定性和随机性。现有研究存在三个关键问题：

数据不可复现：大多数研究使用私有数据集（主要来自中国地质调查局），无法进行公平对比和结果复现。部分论文甚至遗漏关键元数据

场景单一：通常只关注单一区域、单一采样源（沉积物）和单一目标元素（金），模型在不同空间尺度、采样密度和元素类型下的泛化能力未知

异常与目标脱节：无监督方法检测到的异常可能与实际矿化无关或与目标元素不相关——这是实际勘探中的核心痛点

传统统计方法(PCA、因子分析)难以捕获复杂非线性模式。深度学习方法如AE/VAE能建模成分关系但忽略空间依赖。CNN受限于固定感受野，Graph模型受限于深度和表征能力。Transformer在GAD中的应用尚处初期，缺乏对自监督预训练的系统研究。

方法详解¶

整体框架¶

这篇论文一手做基准、一手做方法。基准 GeoChemAD 把地球化学异常检测从私有数据、单区域单元素的混乱状态里拉出来，提供首个标准化的多场景开源数据集；方法 GeoChemFormer 则用两阶段把"空间"和"成分"两件事拆开学——先用空间上下文学习（SCL）从邻域样本学到地质空间表示，再在第二阶段做元素依赖建模、用重建误差当异常分数。这样异常检测既吃得到空间不连续性，又能关联到目标矿化元素。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["GeoChemAD 基准数据<br/>样本坐标 + 124–126 种元素浓度"] --> SCL
    subgraph SCL["空间上下文学习（SCL）"]
        direction TB
        B["KD-tree 检索 K 个最近邻<br/>拼成 token 序列"] --> C["Transformer 编码<br/>只看邻域、屏蔽中心点浓度"]
        C --> D["预测中心目标元素浓度<br/>MSE 自监督预训练"]
    end
    SCL --> E["空间上下文表示 q′<br/>逐样本提取作地质上下文"]
    E --> F["元素依赖建模<br/>上下文 token + 各元素 token 过 Transformer"]
    F --> G["重建各元素浓度<br/>取平均重建误差"]
    G --> H["异常分数<br/>偏离正常元素共生模式则升高"]

关键设计¶

1. GeoChemAD 基准：把 GAD 评测从"各说各话"变成可复现

领域长期卡在数据不公开、场景单一上——大多数研究用私有数据（主要来自中国地质调查局），连关键元数据都常缺失，没法公平对比和复现。GeoChemAD 改用西澳大利亚地质调查局（GSWA）加速地球科学计划的公开数据，含 8 个子集、覆盖 3 种采样源（沉积物 2、岩屑 3、土壤 3）、4 种目标元素（Au、Cu、W、Ni），空间尺度从 6 km² 到 8500 km²。每个子集给出地球化学样本 CSV（元数据 + 空间坐标 + 124–126 种元素浓度）和已知矿化位点 CSV，刻意保留 -9999、-0.5 这类异常值以维护数据完整性、统一用 GDA2020 坐标系。相比多为单区域、单元素、数据不公开的已有研究，这是首个标准化、多场景的开源 GAD 基准，未来方法终于能在同一把尺子上比。

2. 空间上下文学习（SCL）：用"从邻域猜中心"逼模型学空间规律

表层地球化学分布是原始就位加风化侵蚀的产物，空间高度不连续，直接建模容易记住噪声而非学到地质结构。SCL 的做法是对查询位置 \(p_i\) 用 KD-tree 检索 \(K\) 个最近邻，拼成 token 序列 \(\mathcal{S} = [\mathbf{e}, \mathbf{q}_i, \mathbf{t}_1, \ldots, \mathbf{t}_K]\)，其中 \(\mathbf{e}\) 是目标元素 token、\(\mathbf{q}_i\) 是查询位置编码、\(\mathbf{t}_j = [\Delta x_j, \Delta y_j, \mathbf{f}_j]\) 带相对空间偏移和浓度向量；Transformer 编码后得到空间上下文表示 \(\mathbf{q}_i'\)，训练目标是预测查询点的目标元素浓度 \(\mathcal{L}_{\text{sc}} = \frac{1}{N}\sum_{i=1}^{N}(\hat{y}_i - y_i)^2\)。关键在于模型只能看邻域、看不到中心点自身浓度，于是被逼着去学"周边地质上下文如何决定中心"而不是简单记忆——和 masked 预测是同一套逼学习的思路。

3. 元素依赖建模：偏离正常元素共生模式的就是异常

矿化往往体现为多个元素的反常共生，单看一个元素抓不准。第二阶段把 SCL 学到的空间表示当作地质上下文 token，和各元素 token 拼接后过 Transformer 学元素间依赖，异常分数取所有元素的平均重建误差 \(s_i = \frac{1}{C}\sum_{c=1}^{C}(x_{i,c} - \hat{x}_{i,c})^2\)。在正常样本上学到的元素依赖模式，遇到偏离该模式的样本就重建不好、分数升高，从而把"和目标矿化相关的反常"挑出来，而不只是统计意义上的离群。

损失函数 / 训练策略¶

两阶段训练：第一阶段用 MSE 损失预训练 SCL（20–60 epochs），第二阶段用重建误差进行异常检测。评估指标为 AUC（20 次重复随机采样背景样本取平均）。数据预处理包括 CLR/ILR 变换处理成分封闭问题、PCA/因果发现/LLM 辅助特征选择、IDW/Kriging 空间插值。

实验关键数据¶

主实验¶

数据集	GeoChemFormer (T2)	Vanilla Transformer (T1)	AE	VAE-GAN	最佳基线
sed1	0.7228	0.7111	0.5851	0.6843	T1: 0.7111
rock1	0.7844	0.7031	0.5516	0.6953	T1: 0.7031
soil1	0.8704	0.7242	0.5934	0.7124	T1: 0.7242
soil3	0.8334	0.6101	0.5544	0.6160	VAE-CG: 0.6509
平均	0.7712	0.7147	0.7046	0.7279	VAE-G: 0.7279

消融实验¶

配置	关键指标	说明
SCL预训练 20 epochs	rock2 AUC=0.919	小数据集快速收敛
SCL预训练 40 epochs	sed1 AUC=0.743	沉积物数据需更多训练
K=16 (邻域大小)	soil2最优	土壤样本适合紧凑邻域
K=256 (邻域大小)	sed1最优=0.720	沉积物需更大空间上下文
ILR变换	平均0.6788	Transformer类模型最佳预处理
LLM特征选择	平均0.7412	自动化特征选择优于人工

关键发现¶

GeoChemFormer 在8个子集中5个取得最佳成绩，且方差最低（0.0039），稳定性强
空间上下文学习对性能提升至关重要，尤其在沉积物和土壤数据集上
数据预处理策略（特征选择、变换方式）对不同模型影响差异显著

亮点与洞察¶

填补领域空白：提供首个公开、多区域、多元素、多采样源的GAD基准数据集
目标元素感知：通过target-element token设计，使异常检测与目标矿化元素关联
两阶段设计解耦空间上下文和元素依赖，预训练策略自然且有效

局限与展望¶

数据仅来自西澳单一地理区域，其他大陆/地质背景(如热带风化环境、冰川地貌)的泛化性未验证
正样本（矿化位点）数量有限（7-32个），评估的统计稳健性受限，AUC可能波动较大
未考虑时间维度（不同时期采样的变化以及风化/侵蚀的动态影响）
部分子集上深度生成模型（AE）仍优于GeoChemFormer（如rock2 AUC 0.9185 vs T2 0.8050, rock3 AUC 0.8446 vs T2 0.7302），说明Transformer在小样本/高对比度场景不一定最优
GeoChemFormer的空间上下文学习依赖KD-tree检索K近邻，在大规模数据集(>10万样本)上的可扩展性未讨论
特征选择策略(PCA/CD/LLM)的选择对结果影响大，但论文未给出自动选择最优策略的指导

评分¶

新颖性: ⭐⭐⭐ 方法设计合理但不算突破性，主要贡献在数据集
实验充分度: ⭐⭐⭐⭐⭐ 12种基线对比+多维度预处理分析+消融+案例分析，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，数据集描述详尽
价值: ⭐⭐⭐⭐ 开源数据集对地球科学+AI交叉领域有重要推动作用