Earth-Agent:把遥感 VLM 从看图问答推进到可验证的工具推理

Earth-Agent:把遥感 VLM 从看图问答推进到可验证的工具推理

结论:这一轮最值得单独跟踪的是 Earth-Agent / Earth-Bench。它的价值不在于又训练了一个更会描述遥感图像的 VLM,而在于把遥感智能体的评测对象从“回答一句话”推进到“能否选择工具、传递参数、执行多步定量分析,并让推理轨迹可检查”。

我按 2026-06-12 19:00 +08 检索公开来源,过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 项。本篇选择 ICLR 2026 Poster Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents。它覆盖 RGB、光谱数据和加工后的 Earth products,但核心不是雷达或 SAR;公开材料也没有把 SAR 作为主贡献。因此它符合本轮“非 SAR、优先 VLM/可落地 benchmark”的筛选条件。

这篇和已有 GeoChat、VHM、SegEarth-OV、RS-VLM benchmark 的区别很明显:它不再把遥感 VLM 主要定义为图像描述、分类、VQA 或 grounding,而是把 LLM 作为 policy,让它在 Earth observation 工具系统里做多步规划、工具调用、记忆更新和结果判断。对遥感 AI 来说,这个方向比单纯写 prompt 更值得跟踪,因为真正的 EO 任务往往需要传感器选择、时间窗口、指数计算、区域统计、模型推理和误差检查,而不是只看一张 RGB 图回答“这里有什么”。

遥感 VLM 这两年发展很快,但主流评测仍偏向单步感知:给一张遥感图像,让模型分类、生成 caption、回答 VQA、定位目标或做开放词表分割。这类任务当然重要,但离真实 Earth observation 工作流还有距离。一个研究人员或业务人员真正要问的问题常常是:某个地区过去三个月植被是否异常下降,某次灾害前后建筑损毁是否集中在河道附近,城市热岛是否和不透水面扩张有关,或者某个产品的空间统计能否支持一个科学判断。

这些问题的难点不只是视觉识别。模型需要知道该用哪个数据源、哪个时间段、哪个空间范围、哪个指数或产品;还要能调用外部工具,处理多张影像或栅格产品,最后给出定量结果。单纯的 MLLM 即使能描述图像,也容易在这类任务上产生三类问题:凭视觉印象下结论、编造不可执行的分析步骤、无法复现中间证据。

Earth-Agent 切中的正是这个缺口。它把 EO 分析显式建模为 agentic workflow:LLM 不再直接当万能遥感模型,而是作为调度器,在工具库、专家模型和中间记忆之间循环决策。这个设定很适合遥感,因为遥感本来就是一个“数据产品 + 物理指数 + 地理统计 + 视觉模型”共同工作的领域。

Earth-Agent 的框架被描述为 ReAct-style POMDP。直观理解是,LLM 在每一步根据目标、历史工具调用结果和当前记忆,决定下一步要调用什么工具、传什么参数、是否继续分析或给出最终答案。它不是把所有能力压进一个视觉语言模型,而是把 EO 任务拆给工具系统处理。

公开项目页显示,Earth-Agent 集成了 104 个专门工具,分为 Index、Inversion、Perception、Analysis 和 Statistics 五类。这里的设计很关键:Index 可以承接 NDVI、NDBI 等遥感指数类操作;Inversion 对应地表参数反演;Perception 负责分类、检测、分割等视觉任务;Analysis 和 Statistics 则处理空间分析和统计汇总。这样一来,VLM/LLM 的职责从“凭模型内部知识直接回答”变成“选择正确分析路径并组织证据”。

Earth-Bench 的评测也不是只看最终回答对不对。作者采用 dual-level protocol:一方面评估最终 Accuracy 和 trajectory Efficiency,另一方面逐步检查 Tool-Any-Order、Tool-In-Order、Tool-Exact-Match 和 Parameter Accuracy。这一点比普通 VQA benchmark 更扎实,因为遥感分析失败往往不是最后一句话才失败,而是早在工具选择、时间参数、空间范围、阈值设置或数据产品选择时就已经偏了。

从 CV-to-RS 的角度看,Earth-Agent 的迁移路径不是“把自然图像 VLM 直接拿来解释遥感图”。更合理的路径是借鉴通用 agent / tool-use / ReAct / MCP 思路,把遥感里的指数、栅格处理、GIS 统计、检测分割模型和产品查询封装成可调用工具,然后用可审计轨迹约束 LLM。换句话说,CV/ML 的前沿能力迁移到遥感时,最有价值的部分可能不是视觉编码器本身,而是工具化推理、轨迹评测和错误归因协议。

Earth-Bench 是这篇工作的核心数据资产。OpenReview 摘要和项目页都说明,Earth-Bench 包含 248 个专家策划任务和 13,729 张图像,覆盖 spectrum、products 和 RGB 三类 Earth observation 模态。项目页进一步说明,benchmark 支持 14 类代表性任务,包括 classification、detection、temperature monitoring、weather forecasting 等,并强调这些任务需要 quantitative reasoning,而不是定性图像描述。

数据公开性较好。官方 GitHub 已开源评测框架,Hugging Face 上也发布了 Earth-Bench 数据集,页面显示数据体量约 16.6GB。GitHub README 还给出了数据下载命令、评测入口和代码文件说明。仓库新闻记录显示,2025-10-17 发布 Earth-Bench,2026-01-26 标注 ICLR 2026 接收,2026-03-31 开源 RGB task 的在线推理专家模型代码和权重。

实验比较包括不同 LLM backbone、通用 agent 框架、以及已有遥感 MLLM。项目页给出的高层结论是:闭源 LLM 在最终准确率上更强,开源模型在工具使用准确性和推理对齐上有优势;instruction-following 能提升工具调用,但不必然提升最终准确率;模型通常能识别正确工具,但无关步骤和参数执行是 EO 数据处理的关键瓶颈。

这组结果的意义不在于某个 LLM 排名,而在于暴露了遥感 agent 的真实失败模式:工具选对不等于参数传对,步骤合理不等于最终数值可靠,能写出自然语言解释不等于能执行可复现分析。相比之下,很多遥感 VLM benchmark 只看答案文本,很难定位失败来自视觉感知、地理知识、工具调用还是数值计算。

第一,问题设定更接近真实 EO 工作流。Earth-Agent 不满足于 RGB 单图问答,而是把 spectrum、products、RGB 和工具调用放在一个统一框架里。这比“再构造一批遥感图文问答”更有前沿信号,因为遥感应用的难点本来就常在跨产品、跨时间和定量分析。

第二,评测协议能诊断轨迹。Tool-Any-Order、Tool-In-Order、Tool-Exact-Match、Parameter Accuracy 这些指标,可以把错误拆到工具选择、顺序、精确匹配和参数层面。后续做遥感 agent 或 VLM 时,可以直接沿用这种思想,不必只报告最终 accuracy。

第三,工程可复现性相对强。官方 GitHub、项目页、OpenReview、arXiv 和 Hugging Face 数据集都公开存在。虽然完整跑通仍需要模型 API、依赖配置和较大的数据下载,但它至少提供了比“只发论文不发代码”的工作更清晰的复现实验入口。

第四,它给 VLM 找到了更稳的位置。VLM 不必被迫承担所有任务;它可以负责目标识别、局部视觉证据、grounding 或中间结果解释,而时序统计、指数计算和空间分析交给工具。这个职责划分更符合遥感系统工程。

第一,工具库设计会强烈影响结果。Earth-Agent 的能力边界不是 LLM 本身决定的,而是由 104 个工具、工具文档、参数 schema、专家模型质量和数据覆盖共同决定。如果工具库换一套,性能和失败模式可能变化很大。因此它更像“系统 benchmark”,不是纯模型 benchmark。

第二,benchmark 规模仍有限。248 个专家任务和 13K 图像已经比许多 EO agent 评测更扎实,但对于全球遥感任务空间仍然很小。不同国家、不同地表类型、不同传感器产品、不同季节和灾害类型,都可能带来新的工具选择和参数错误。

第三,数据下载和运行成本不低。Hugging Face 页面显示数据约 16.6GB,项目运行还需要配置模型 API 或开源模型环境。对普通研究者来说,复现实验门槛高于传统分类/分割 benchmark。

第四,不能把它误读成“prompt 工程解决遥感”。Earth-Agent 的关键不是写一段更聪明的 prompt,而是把任务拆成可执行工具、可检查参数、可复现轨迹和可量化输出。如果后续工作只是在通用 VLM 上包装提示词,而没有数据产品、工具接口和轨迹评测,贡献会很弱。

第五,科学可靠性仍要进一步验证。EO 分析常涉及物理意义、传感器误差、云污染、时空采样偏差和产品不确定性。agent 最终给出一个数字,并不代表这个数字在科学上可用。未来需要把不确定性传播、数据质量标记、传感器适用范围和人工审查机制加入评测。

一个可做的小论文方向是:面向光学遥感变化理解的可审计 VLM-Agent Benchmark。不要直接让 VLM 回答“哪里发生了变化”,而是构造一个要求多步证据的 benchmark:先选择双时相影像或公开产品,再调用变化候选检测、指数差异、建筑/道路/水体 mask、空间统计和可视化工具,最后给出变化类型、位置、置信度和证据链。

最小实验可以从建筑变化、水体变化和城市扩张三类任务开始。数据集可选 LEVIR-CD、WHU-CD、DSIFN-CD、Dynamic World、ESA WorldCover、Google Open Buildings、Microsoft Building Footprints 和部分公开灾害影像。工具库不必一开始做得很大,只需包含双时相配准检查、基础指数计算、SAM/GeoFM 候选 mask、变化检测 baseline、矢量叠加和区域统计。

评测指标应分两层。最终层看 change/no-change accuracy、IoU、F1、变化面积误差、位置误差和拒答正确率;轨迹层看工具选择准确率、参数准确率、是否使用了正确时相、是否引用了有效 mask、是否产生不可执行步骤、是否能在证据不足时拒答。这样可以避免 VLM 用流畅文字掩盖错误分析。

基线可以包括三类:直接 VLM 问答,传统变化检测模型加规则统计,Earth-Agent-style tool-use agent。真正的贡献点在于错误归因:当系统答错时,能区分是视觉模型没找到变化、工具参数错了、空间统计错了,还是 LLM 解释错了。这对遥感 AI 落地很重要,因为业务系统需要知道该修模型、修工具、修数据,还是修提示和评测协议。

进一步可以把 human-in-the-loop 加进去。agent 对高不确定区域不直接下结论,而是生成审核队列:哪些 tile 需要人看,哪些变化候选缺少证据,哪些工具输出互相冲突。这样 VLM 的作用就不是“替代专家”,而是压缩专家审查空间并保留审计路径。这个方向比单纯追求一个更大的遥感 MLLM 更容易形成可验证、可复现、可发表的研究贡献。

  • arXiv: Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents:https://arxiv.org/abs/2509.23141
  • OpenReview ICLR 2026 页面:https://openreview.net/forum?id=dkIXAbWuxO
  • 官方 GitHub:https://github.com/opendatalab/Earth-Agent
  • 项目主页:https://opendatalab.github.io/Earth-Agent/
  • Earth-Bench Hugging Face 数据集:https://huggingface.co/datasets/Sssunset/Earth-Bench
  • 对照阅读:Towards LLM Agents for Earth Observation:https://arxiv.org/abs/2504.12110

Related Content

评论