跳转至

PlantTraitNet: An Uncertainty-Aware Multimodal Framework for Global-Scale Plant Trait Inference from Citizen Science Data

会议: AAAI 2026
arXiv: 2511.06943
代码: https://github.com/GeoSense-Freiburg/PlantTraitNet
领域: 多模态VLM
关键词: 植物性状预测, 多模态融合, 不确定性估计, 公民科学, 全球尺度制图

一句话总结

本文提出 PlantTraitNet,一个多模态、多任务、不确定性感知的深度学习框架,利用公民科学平台(iNaturalist、Pl@ntNet)的弱监督植物照片,结合图像特征(DINOv2)、深度先验(Depth-Anything-V2)和地理空间先验(Climplicit),同时预测四种关键植物性状(株高、叶面积、比叶面积、叶氮含量),生成的全球性状图在与 sPlotOpen 植被调查数据的基准测试中一致优于现有全球性状产品。

研究背景与动机

全球植物性状图(如叶氮含量、株高)是理解碳循环和能量循环等生态系统过程的基础。然而,现有性状图受限于田间测量的高成本和稀疏的地理覆盖。公民科学平台(如 iNaturalist)拥有超过 5000 万张地理标记的植物照片,蕴含丰富的植物形态学和生理学视觉信息,是一个尚未充分开发的数据资源。

现有痛点:(1)公民科学数据缺乏直接的性状标注,只有物种标签;(2)通过物种名匹配 TRY 数据库获得的弱标注存在大量噪声;(3)图像质量参差不齐(特征噪声);(4)先前工作主要是单任务模型,未利用性状间相关性;(5)现有全球性状图精度有限。

本文的切入角度:将公民科学图像与计算机视觉和地理空间 AI 结合,利用视觉基础模型提取特征、深度基础模型编码3D结构信息、气候基础模型编码地理空间上下文,通过不确定性引导的数据清洗应对噪声,实现可扩展且更准确的全球性状制图。

方法详解

整体框架

输入:公民科学植物照片 + 地理位置坐标 + 拍摄时间 输出:同时预测四种植物性状(株高 H、叶面积 LA、比叶面积 SLA、叶氮含量 LN)

Pipeline:图像编码器(DINOv2 ViT-B/14)→ 图像嵌入(768维);深度编码器(Depth-Anything-V2 ViT-B)→ 深度嵌入(768维);地理空间编码器(Climplicit)→ 气候嵌入(投影至256维);三路拼接 → 投影至1024维 → 8层残差网络主干 → 四个独立的性状预测头(含不确定性估计)。

关键设计

  1. 多模态特征融合:

    • 功能:融合图像、深度和地理空间三种模态的嵌入
    • 核心思路:DINOv2 提供通用视觉特征;Depth-Anything-V2 提供单目深度先验,编码传感器到植物表面的距离信息,辅助形态重建;Climplicit 编码纬度/经度/月份到连续的气候嵌入,捕获温度、降水等全球气候因素。三路特征通过简单拼接后线性投影融合
    • 设计动机:植物性状受气候条件强烈影响,深度信息有助于推断株高等3D结构性状,而标准2D图像缺乏显式空间线索
  2. 不确定性感知训练:

    • 功能:每个性状预测头输出预测值和关联的不确定性(预测方差/尺度)
    • 核心思路:对叶面积(长尾分布)使用 Laplace 分布建模;对其余性状使用高斯分布建模。训练目标为负对数似然(NLL),让模型同时学习预测值和不确定性
    • 设计动机:公民科学数据本质嘈杂(图像质量不一、弱标注噪声),不确定性估计可用于动态降权噪声样本和过滤不可靠数据点
  3. 不确定性引导的数据清洗循环:

    • 功能:两阶段迭代清洗训练数据
    • 核心思路:
      • 第一阶段(不确定性过滤):训练1个 epoch 后推理全部训练样本,移除联合不确定性最高的 top 5% 样本(如冬季场景、无叶枝条、模糊图像),迭代直到高不确定性样本数低于阈值
      • 第二阶段(残差感知过滤):追踪参考数据集上的性能找到"转折点"epoch(开始过拟合噪声标签),计算高不确定性样本的预测值与物种中位数的残差,移除同时高不确定性+高残差的样本(如幼株被标注为成年株高)
    • 设计动机:纯不确定性过滤可能因异方差性误删正常高方差样本(如高大植物),残差过滤补偿这一偏差
  4. 多任务学习:

    • 功能:用共享主干网络同时预测四种性状
    • 核心思路:共享多模态表示 + 独立性状预测头;利用性状间的生态学相关性
    • 设计动机:相比单任务模型,多任务模型在株高上表现显著更好(R² 从 0.12 提升至 0.19),且计算成本降低约 75%

损失函数 / 训练策略

  • 叶面积:Laplace 负对数似然
  • 其余三性状:高斯负对数似然
  • 按植物功能类型(草本/灌木/乔木)分层采样确保批次平衡
  • AdamW 优化器,余弦退火学习率,梯度裁剪 max_norm=1.0
  • 总参数约 90M,单张 NVIDIA RTX A6000 训练最多 30 epoch
  • 模型选择使用 Pareto 前沿 + 超体积最大化

实验关键数据

主实验(全球性状图 vs sPlotOpen 基准,1° 分辨率)

方法 H (R²/nMAE/r) LA (R²/nMAE/r) SLA (R²/nMAE/r) LN (R²/nMAE/r)
Ours (Refined) 0.18/0.22/0.45 0.34/0.14/0.57 0.27/0.13/0.59 -0.12/0.17/0.50
Schiller -0.32/0.28/0.42 0.11/0.17/0.52 0.16/0.14/0.53 0.06/0.14/0.40
Wolf -0.61/0.31/0.43 -0.02/0.18/0.53 0.02/0.16/0.50 -0.20/0.18/0.41
Moreno -0.72/0.23/0.23 -0.85/0.22/0.17

消融实验(多模态组合)

配置 H (R²) LA (R²) SLA (R²) LN (R²) Top 排名数
DINOv2 only 0.15 0.31 0.32 0.14 1
DINOv2 + Climplicit 0.19 0.32 0.31 0.16 3
DINOv2 + Climplicit + DA-V2 0.19 0.32 0.31 0.18 4
单任务 (同配置) 0.12 0.34 0.33 0.21

关键发现

  • PlantTraitNet 在 H、LA、SLA 三个性状上一致优于现有全球性状产品
  • 气候先验(Climplicit)对性能提升贡献最大,与植物性状受气候驱动的生态学规律一致
  • 深度先验提供选择性增益,尤其改善叶氮含量的预测
  • 多任务学习在株高上有实质性提升(R² 0.12→0.19),同时节省 ~75% 计算
  • 不确定性清洗后 SLA 和 LA 的 R² 分别提升 4% 和 13%
  • 模型能捕获种内变异(intraspecific variation),尤其在株高预测中不是简单回归到物种均值
  • 系统发育分析显示预测误差基本不依赖于物种亲缘关系,模型泛化性强

亮点与洞察

  • 公民科学数据的创新利用:首次系统性地将 5000 万+地理标记植物照片转化为全球性状图,方法高度可扩展
  • 不确定性引导的两阶段清洗:巧妙解决弱监督数据的特征噪声和标签噪声,特别是残差感知过滤对异方差性状的处理
  • 地理空间基础模型的集成:Climplicit 编码气候上下文的方式(拼接3/6/9/12月嵌入捕获季节变化)简洁有效
  • 种内变异的捕获:虽然训练用物种级弱标注,模型仍能区分同一物种不同发育阶段的个体差异
  • Pareto 前沿选择最优检查点:多目标优化选择同时在四个性状上表现最佳的模型

局限与展望

  • 叶氮含量(LN)预测较弱(R² 为负),这是一个很难从图像中推断的生化性状
  • 弱监督本质限制——物种级标注忽略个体间差异(种内变异)
  • 公民科学数据存在空间/分类偏差(偏向欧洲和北美、偏向草本)
  • 全球性状图存在系统性偏差(R² 远低于 r),需要更好的校准方法
  • 仅用 2D 图像,未利用视频或时序信息

相关工作与启发

  • vs Schiller et al. (2021): 先驱工作,单任务模型,未评估种内变异,本文全面超越
  • vs Wolf et al. (2022): 提供了 sPlotOpen 验证方法和全球特征图,本文在相同基准上表现更好
  • vs 遥感方法 (Moreno, Butler): 传统遥感外推方法性能远不如计算机视觉方法

评分

  • 新颖性: ⭐⭐⭐⭐ 首个不确定性感知多模态多任务全球植物性状推断框架,多个创新组件
  • 实验充分度: ⭐⭐⭐⭐⭐ 多模态消融、损失函数消融、全球基准对比、种内变异分析、系统发育分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,生态学背景扎实,跨学科整合出色
  • 价值: ⭐⭐⭐⭐⭐ 开辟了公民科学图像用于全球生态制图的新范式,数据集和代码开源