Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents¶

会议: ICLR 2026
arXiv: 2509.23141
代码: opendatalab/Earth-Agent
领域: 遥感 / LLM Agent
关键词: 地球观测, Agent框架, MCP工具生态, 多模态遥感, benchmark

一句话总结¶

Earth-Agent是首个基于MCP工具生态的地球观测Agent框架，统一了RGB和光谱遥感数据，通过动态调用104个专家工具实现跨模态、多步骤、定量时空推理，配套提出的Earth-Bench基准包含248个专家任务和13,729张图像，实验证明Earth-Agent远超通用Agent和遥感MLLM。

研究背景与动机¶

地球观测(EO)是理解地球系统演变状态的关键任务。近年来，多模态大语言模型(MLLM)已经推动了遥感研究的进步，但仍然存在根本性的能力缺失：

现有MLLM在EO领域的痛点： - 仅限RGB感知: 无法处理光谱数据（多光谱、高光谱、SAR等），而这正是科学级遥感分析的核心 - 浅层推理: 无法进行需要多步骤推理和领域特定工具调用的复杂任务 - 缺乏定量能力: 不能执行地球物理参数反演、定量时空分析等需要精确计算的科学任务 - 无系统评估: 缺乏覆盖全模态、兼顾推理轨迹和最终结果的评估协议

现有Agent方法的局限： - 局限于RGB感知，不处理光谱数据 - 推理深度不足，工具调用能力初级 - 没有面向EO的系统评估基准

Earth-Agent的切入角度：将EO分析建模为基于ReAct风格的POMDP过程，LLM作为策略网络，通过MCP协议动态调用领域专家工具，打通RGB和光谱模态。

方法详解¶

整体框架¶

Earth-Agent 是一个 ReAct 型 Agent 框架，把地球观测(EO)分析建模成部分可观察马尔可夫决策过程(POMDP)，用元组 \(\langle g, S, A, O, T\rangle\) 描述：\(g\) 是任务目标，\(A\) 是工具调用构成的动作空间，\(O\) 是工具返回的观察(文本/数值/图像)。LLM 充当策略网络 \(\pi\)，输入任务目标和 RGB/光谱/产品三类遥感数据，按"思考→调用工具→观察→更新记忆"的循环逐步逼近答案，最终输出定量分析、参数反演值或时空推理结论。关键之处在于真正的计算不由 LLM 内隐完成，而是委托给一个由 104 个领域专家工具组成的 MCP 工具生态——LLM 只决定调什么、按什么顺序调、传什么参数。下面三个设计分别支撑这条流水线：MCP 工具生态提供可调用的原子能力并打通跨模态、ReAct-POMDP 回环把多步任务串起来、Earth-Bench 与双层协议负责系统评估。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    IN["任务目标 + 遥感图像<br/>RGB / 光谱 / 产品"] --> THINK["Think + Action：LLM 策略<br/>据记忆+目标选择并调用工具"]
    THINK --> KIT["MCP 工具生态（104 工具 / 5 套件）<br/>Index·Inversion·Perception<br/>Analysis·Statistics"]
    KIT --> OBS["观察结果<br/>文本 / 数值 / 图像"]
    OBS --> MEM["记忆更新<br/>动作+观察入栈"]
    MEM -->|未满足停止条件| THINK
    MEM -->|满足停止条件| OUT["输出：定量结论 /<br/>参数反演 / 时空推理"]
    OUT --> EVAL["Earth-Bench 双层评估<br/>端到端 + 轨迹"]

关键设计¶

1. MCP 工具生态：把科学级计算从内隐知识里解耦，并打通 RGB 与光谱两个世界

预训练 MLLM 处理遥感问题时，地表温度反演、光谱指数计算这类需要精确物理模型的任务只能靠"内隐知识"硬猜，既不可靠也无法定量；而且现有 EO Agent 大多只吃 RGB 可见光，恰恰丢掉了科学级遥感最核心的光谱数据。Earth-Agent 把计算能力外包给 104 个专家工具，按功能分成五大套件：Index Kit 算光谱指数(NDVI、NDWI、NBR 等)、Inversion Kit 做地球物理参数反演(地表温度 LST、可降水量、植被含水量、海冰浓度等)、Perception Kit 处理 RGB 感知(场景分类、目标检测、分割)、Analysis Kit 做时空分析(趋势检测、季节分解、变化点、空间自相关)、Statistics Kit 负责大规模预处理与统计(方差、批处理、云掩膜等)。这些工具统一通过模型上下文协议(Model Context Protocol, MCP)注册管理，LLM 按需动态组合。这样一来，从 Landsat 反演地表温度调用的是真正的物理模型而非猜测，能力上限突破了底座 MLLM 本身；同时由于光谱套件(Index/Inversion)与感知套件(Perception)并存，一个 Agent 就能根据任务自动走光谱工具链或感知工具链——查地表温度走 Inversion、做场景识别走 Perception——把此前被 RGB 割裂的定量光谱分析与常规视觉理解统一进同一框架。MCP 的标准接口也让工具集可扩展、可替换。

2. ReAct-POMDP 多步推理：把复杂任务拆成可观察的决策链

很多 EO 任务无法一步答出——比如"分析某地区 2020–2025 年植被变化趋势"需要先提取多时相 NDVI、再做时序分析、拟合趋势、最后综合结论。Earth-Agent 把它建模成 POMDP，LLM 不一次性给答案，而是每一轮根据当前记忆 \(m_t=(o_0,a_0,\dots,o_t)\) 和目标 \(g\) 采样下一个动作 \(a_t \sim \pi(a_t\mid g,m_t)\)，循环执行四步：①调用工具拿到观察、②把"动作+观察"压入记忆栈、③LLM 基于更新后的记忆思考下一步、④执行选定的工具调用，直到满足停止条件才输出最终答案和一条可复现的工具调用轨迹。中间结果全部进记忆供后续推理，这让 Agent 能处理单次调用搞不定的长链路定量分析，整个推理过程也因此变得可观察——这正是下一个设计能做"轨迹级评估"的前提。

3. Earth-Bench 与双层评估协议：既看结果对不对，也看过程走得对不对

为系统评估 EO Agent，论文构建了 Earth-Bench：248 个由领域专家人工策划的任务、约 13,729 张图像，覆盖光谱、产品、RGB 三类数据与 14 种代表性任务，并标注了 1,345 个参考步骤。每题分 Auto-Planning(自主规划，需 Agent 自己想出解题轨迹)和 Instruction-Following(查询里给定步骤指引)两种查询模式。评估采用双层协议：端到端层看最终结果，含答案正确率 Accuracy 和工具使用效率 Efficiency(实际工具数相对参考解的比值)；轨迹层深入推理过程，用 Tool-Any-Order 衡量是否用全所有必要工具、Tool-In-Order 衡量调用顺序是否正确、Tool-Exact-Match 衡量与专家轨迹的前缀级精确匹配、Parameter Accuracy 衡量工具标识与传参是否都正确。只评最终答案会掩盖"蒙对"的情况，轨迹层的引入才能真正刻画 Agent 的行为质量。

训练与推理设置¶

Earth-Agent 是纯推理时框架，不针对 EO 任务做额外训练，LLM 仅凭 prompt 和工具描述理解任务并完成调用，因此能即插即用地替换不同 LLM 后端(DeepSeek-V3、GPT-5、Kimi-K2 等)做对比。

实验关键数据¶

主实验¶

不同LLM后端在Earth-Bench上的表现：

模型	Tool-Any-Order	Tool-In-Order	Tool-Exact-Match	Parameter	Accuracy	Efficiency
DeepSeek-V3 (IF)	0.892	0.876	0.741	0.572	—	—
GPT-5 (AP)	0.766	0.750	0.596	0.462	59.32%	1.531
Kimi-K2 (IF)	0.806	0.799	0.633	0.522	62.71%	1.410

消融实验¶

对比	关键指标	说明
Earth-Agent vs 通用Agent框架	Accuracy	Earth-Agent显著优于LangChain等通用Agent
Earth-Agent vs 遥感MLLM	RGB benchmark	在遥感基准上超越专用遥感MLLM
光谱任务 vs RGB任务	Tool-Exact-Match	光谱任务工具链更长更复杂，精确匹配难度更大
不同LLM backbone	综合表现	更强的LLM带来更好的工具调用和推理能力

关键发现¶

DeepSeek-V3在工具使用准确性上表现最好（Tool-Any-Order 0.892）
Kimi-K2在最终答案准确率上略胜GPT-5（62.71% vs 59.32%）
工具效率(Efficiency)普遍>1.0，说明模型倾向于使用比ground truth更多的工具
参数准确性(Parameter)是最大瓶颈（最高仅0.572），说明LLM对遥感领域参数的理解仍有限
工具顺序(Tool-In-Order)与工具存在性(Tool-Any-Order)差距不大，说明模型基本能把握正确顺序

亮点与洞察¶

范式转换: 从MLLM直接回答遥感问题，转向Agent动态调用专家工具——这是EO-AI的重要方向转变
MCP协议的应用: 使用MCP管理工具是工程上的良好实践，使得工具集可扩展、可替换
双层评估设计精妙: 不仅评估最终结果，还评估推理过程（工具调用轨迹），这对理解Agent行为至关重要
实际科学价值: 地球物理参数反演、定量时空分析等任务超越了传统CV的范畴，具有真正的科学应用价值
104个工具的构建: 这本身就是一个重大的工程贡献，涵盖了EO分析的主要环节

局限与展望¶

强依赖LLM的能力上限——如果LLM推理出错，整个链路就会崩溃
参数准确性（Parameter Accuracy最高0.572）显示LLM对遥感领域知识仍有不足
工具效率>1说明模型倾向冗余调用，需要优化推理效率
仅评估了有限的几个LLM backbone，对开源小模型的适用性未知
Earth-Bench规模（248题）相比NLP/CV基准仍较小
实时性方面未讨论——多步工具调用的延迟在实际遥感应用中可能是问题

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐