PlantTraitNet: An Uncertainty-Aware Multimodal Framework for Global-Scale Plant Trait Inference from Citizen Science Data¶

会议: AAAI 2026
arXiv: 2511.06943
代码: https://github.com/GeoSense-Freiburg/PlantTraitNet
领域: 多模态VLM
关键词: 植物性状预测, 多模态融合, 不确定性估计, 公民科学, 全球尺度制图

一句话总结¶

本文提出 PlantTraitNet，一个多模态、多任务、不确定性感知的深度学习框架，利用公民科学平台（iNaturalist、Pl@ntNet）的弱监督植物照片，结合图像特征（DINOv2）、深度先验（Depth-Anything-V2）和地理空间先验（Climplicit），同时预测四种关键植物性状（株高、叶面积、比叶面积、叶氮含量），生成的全球性状图在与 sPlotOpen 植被调查数据的基准测试中一致优于现有全球性状产品。

研究背景与动机¶

全球植物性状图（如叶氮含量、株高）是理解碳循环和能量循环等生态系统过程的基础。然而，现有性状图受限于田间测量的高成本和稀疏的地理覆盖。公民科学平台（如 iNaturalist）拥有超过 5000 万张地理标记的植物照片，蕴含丰富的植物形态学和生理学视觉信息，是一个尚未充分开发的数据资源。

现有痛点：（1）公民科学数据缺乏直接的性状标注，只有物种标签；（2）通过物种名匹配 TRY 数据库获得的弱标注存在大量噪声；（3）图像质量参差不齐（特征噪声）；（4）先前工作主要是单任务模型，未利用性状间相关性；（5）现有全球性状图精度有限。

本文的切入角度：将公民科学图像与计算机视觉和地理空间 AI 结合，利用视觉基础模型提取特征、深度基础模型编码3D结构信息、气候基础模型编码地理空间上下文，通过不确定性引导的数据清洗应对噪声，实现可扩展且更准确的全球性状制图。

方法详解¶

整体框架¶

输入：公民科学植物照片 + 地理位置坐标 + 拍摄时间输出：同时预测四种植物性状（株高 H、叶面积 LA、比叶面积 SLA、叶氮含量 LN）

Pipeline：图像编码器（DINOv2 ViT-B/14）→ 图像嵌入（768维）；深度编码器（Depth-Anything-V2 ViT-B）→ 深度嵌入（768维）；地理空间编码器（Climplicit）→ 气候嵌入（投影至256维）；三路拼接 → 投影至1024维 → 8层残差网络主干 → 四个独立的性状预测头（含不确定性估计）。

关键设计¶

多模态特征融合:
- 功能：融合图像、深度和地理空间三种模态的嵌入
- 核心思路：DINOv2 提供通用视觉特征；Depth-Anything-V2 提供单目深度先验，编码传感器到植物表面的距离信息，辅助形态重建；Climplicit 编码纬度/经度/月份到连续的气候嵌入，捕获温度、降水等全球气候因素。三路特征通过简单拼接后线性投影融合
- 设计动机：植物性状受气候条件强烈影响，深度信息有助于推断株高等3D结构性状，而标准2D图像缺乏显式空间线索
不确定性感知训练:
- 功能：每个性状预测头输出预测值和关联的不确定性（预测方差/尺度）
- 核心思路：对叶面积（长尾分布）使用 Laplace 分布建模；对其余性状使用高斯分布建模。训练目标为负对数似然（NLL），让模型同时学习预测值和不确定性
- 设计动机：公民科学数据本质嘈杂（图像质量不一、弱标注噪声），不确定性估计可用于动态降权噪声样本和过滤不可靠数据点
不确定性引导的数据清洗循环:
- 功能：两阶段迭代清洗训练数据
- 核心思路：
  - 第一阶段（不确定性过滤）：训练1个 epoch 后推理全部训练样本，移除联合不确定性最高的 top 5% 样本（如冬季场景、无叶枝条、模糊图像），迭代直到高不确定性样本数低于阈值
  - 第二阶段（残差感知过滤）：追踪参考数据集上的性能找到"转折点"epoch（开始过拟合噪声标签），计算高不确定性样本的预测值与物种中位数的残差，移除同时高不确定性+高残差的样本（如幼株被标注为成年株高）
- 设计动机：纯不确定性过滤可能因异方差性误删正常高方差样本（如高大植物），残差过滤补偿这一偏差
多任务学习:
- 功能：用共享主干网络同时预测四种性状
- 核心思路：共享多模态表示 + 独立性状预测头；利用性状间的生态学相关性
- 设计动机：相比单任务模型，多任务模型在株高上表现显著更好（R² 从 0.12 提升至 0.19），且计算成本降低约 75%

损失函数 / 训练策略¶

叶面积：Laplace 负对数似然
其余三性状：高斯负对数似然
按植物功能类型（草本/灌木/乔木）分层采样确保批次平衡
AdamW 优化器，余弦退火学习率，梯度裁剪 max_norm=1.0
总参数约 90M，单张 NVIDIA RTX A6000 训练最多 30 epoch
模型选择使用 Pareto 前沿 + 超体积最大化

实验关键数据¶

主实验（全球性状图 vs sPlotOpen 基准，1° 分辨率）¶

方法	H (R²/nMAE/r)	LA (R²/nMAE/r)	SLA (R²/nMAE/r)	LN (R²/nMAE/r)
Ours (Refined)	0.18/0.22/0.45	0.34/0.14/0.57	0.27/0.13/0.59	-0.12/0.17/0.50
Schiller	-0.32/0.28/0.42	0.11/0.17/0.52	0.16/0.14/0.53	0.06/0.14/0.40
Wolf	-0.61/0.31/0.43	-0.02/0.18/0.53	0.02/0.16/0.50	-0.20/0.18/0.41
Moreno	–	–	-0.72/0.23/0.23	-0.85/0.22/0.17

消融实验（多模态组合）¶

配置	H (R²)	LA (R²)	SLA (R²)	LN (R²)	Top 排名数
DINOv2 only	0.15	0.31	0.32	0.14	1
DINOv2 + Climplicit	0.19	0.32	0.31	0.16	3
DINOv2 + Climplicit + DA-V2	0.19	0.32	0.31	0.18	4
单任务 (同配置)	0.12	0.34	0.33	0.21	–

关键发现¶

PlantTraitNet 在 H、LA、SLA 三个性状上一致优于现有全球性状产品
气候先验（Climplicit）对性能提升贡献最大，与植物性状受气候驱动的生态学规律一致
深度先验提供选择性增益，尤其改善叶氮含量的预测
多任务学习在株高上有实质性提升（R² 0.12→0.19），同时节省 ~75% 计算
不确定性清洗后 SLA 和 LA 的 R² 分别提升 4% 和 13%
模型能捕获种内变异（intraspecific variation），尤其在株高预测中不是简单回归到物种均值
系统发育分析显示预测误差基本不依赖于物种亲缘关系，模型泛化性强

亮点与洞察¶

公民科学数据的创新利用：首次系统性地将 5000 万+地理标记植物照片转化为全球性状图，方法高度可扩展
不确定性引导的两阶段清洗：巧妙解决弱监督数据的特征噪声和标签噪声，特别是残差感知过滤对异方差性状的处理
地理空间基础模型的集成：Climplicit 编码气候上下文的方式（拼接3/6/9/12月嵌入捕获季节变化）简洁有效
种内变异的捕获：虽然训练用物种级弱标注，模型仍能区分同一物种不同发育阶段的个体差异
Pareto 前沿选择最优检查点：多目标优化选择同时在四个性状上表现最佳的模型

局限与展望¶

叶氮含量（LN）预测较弱（R² 为负），这是一个很难从图像中推断的生化性状
弱监督本质限制——物种级标注忽略个体间差异（种内变异）
公民科学数据存在空间/分类偏差（偏向欧洲和北美、偏向草本）
全球性状图存在系统性偏差（R² 远低于 r），需要更好的校准方法
仅用 2D 图像，未利用视频或时序信息

评分¶

新颖性: ⭐⭐⭐⭐ 首个不确定性感知多模态多任务全球植物性状推断框架，多个创新组件
实验充分度: ⭐⭐⭐⭐⭐ 多模态消融、损失函数消融、全球基准对比、种内变异分析、系统发育分析
写作质量: ⭐⭐⭐⭐ 结构清晰，生态学背景扎实，跨学科整合出色
价值: ⭐⭐⭐⭐⭐ 开辟了公民科学图像用于全球生态制图的新范式，数据集和代码开源