Earth-Agent：把遥感 VLM 从看图问答推进到可验证的工具推理

Fri, 12 Jun 2026 19:00:03 +0800

Earth-Agent：把遥感 VLM 从看图问答推进到可验证的工具推理

结论：这一轮最值得单独跟踪的是 Earth-Agent / Earth-Bench。它的价值不在于又训练了一个更会描述遥感图像的 VLM，而在于把遥感智能体的评测对象从“回答一句话”推进到“能否选择工具、传递参数、执行多步定量分析，并让推理轨迹可检查”。

我按 2026-06-12 19:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 项。本篇选择 ICLR 2026 Poster Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents。它覆盖 RGB、光谱数据和加工后的 Earth products，但核心不是雷达或 SAR；公开材料也没有把 SAR 作为主贡献。因此它符合本轮“非 SAR、优先 VLM/可落地 benchmark”的筛选条件。

这篇和已有 GeoChat、VHM、SegEarth-OV、RS-VLM benchmark 的区别很明显：它不再把遥感 VLM 主要定义为图像描述、分类、VQA 或 grounding，而是把 LLM 作为 policy，让它在 Earth observation 工具系统里做多步规划、工具调用、记忆更新和结果判断。对遥感 AI 来说，这个方向比单纯写 prompt 更值得跟踪，因为真正的 EO 任务往往需要传感器选择、时间窗口、指数计算、区域统计、模型推理和误差检查，而不是只看一张 RGB 图回答“这里有什么”。

背景

遥感 VLM 这两年发展很快，但主流评测仍偏向单步感知：给一张遥感图像，让模型分类、生成 caption、回答 VQA、定位目标或做开放词表分割。这类任务当然重要，但离真实 Earth observation 工作流还有距离。一个研究人员或业务人员真正要问的问题常常是：某个地区过去三个月植被是否异常下降，某次灾害前后建筑损毁是否集中在河道附近，城市热岛是否和不透水面扩张有关，或者某个产品的空间统计能否支持一个科学判断。

这些问题的难点不只是视觉识别。模型需要知道该用哪个数据源、哪个时间段、哪个空间范围、哪个指数或产品；还要能调用外部工具，处理多张影像或栅格产品，最后给出定量结果。单纯的 MLLM 即使能描述图像，也容易在这类任务上产生三类问题：凭视觉印象下结论、编造不可执行的分析步骤、无法复现中间证据。

Earth-Bench - Tag - 堂堂一跑堂

Earth-Agent：把遥感 VLM 从看图问答推进到可验证的工具推理

Earth-Agent：把遥感 VLM 从看图问答推进到可验证的工具推理

背景