# 过去 24 小时遥感 AI 雷达：GeoFM 比架构，VLM 比证据，Agent 比执行


# 过去 24 小时遥感 AI 雷达：GeoFM 比架构，VLM 比证据，Agent 比执行

**结论：今天最值得看的不是单点 SOTA，而是遥感 AI 的评价对象正在变化。** GeoFM 方向开始从“谁的预训练更大”转向“同一协议下，架构如何处理缺 band、多光谱和下游任务”；GeoAI Agent 方向开始从“能不能调用工具”转向“能不能把遥感影像、格网数据、GIS、模拟器和文档证据串成可执行过程”；CV-to-RS 方向给出一个强信号：box/mask prompt 与 test-time adaptation 很适合做遥感开放词汇分割和变化检测的证据校准。

我按 2026-06-15 09:00:02 +08:00 回看公开来源。由于 arXiv 周末没有正常新一轮发布，严格 24 小时内没有比前几轮更强的新遥感主线；本篇保留最近一个可核验 release 窗口里仍值得进入日报的 5 个条目，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线。个别论文含 S1/S2 混合实验时，本文只讨论其 Sentinel-2、多光谱、缺 band 和架构泛化部分，不把 SAR 结果作为推荐依据。

## 今日 5 个重点

| 排名 | 论文/项目 | 来源时间 | 任务 | 数据/模态 | 贡献 | 代码/数据 | 分数 | 为什么重要 |
|---|---|---:|---|---|---|---|---:|---|
| 1 | Emerging Flexible Designs for Geospatial Multimodal Foundation Models | arXiv, 2026-06-10 | GeoFM 架构比较 | Sentinel-2、多光谱、GEOBench | 在同一预训练目标、数据和下游协议下比较 SatMAE、DOFA、Flex，重点看 band 灵活性和 dense prediction | 论文公开；复现实验框架指向 Terratorch iterate | 8.5 | 它把 GeoFM 讨论从“模型名对模型名”拉回到 tokenization、fusion、missing-band 这些可实验变量 |
| 2 | TerraBench: Can Agents Reason Over Heterogeneous Earth-System Data? | arXiv, 2026-06-11 | Earth-system agent benchmark | EO imagery、gridded data、GIS、simulation、documents | 403 个 agentic tasks、3 个 track、8 个应用域、24,500 个 verified execution steps | 论文公开；代码/benchmark 需继续跟踪入口 | 8.4 | 遥感 AI 评测开始要求过程证据、工具参数和 artifact provenance，而不是只看最终文字 |
| 3 | GeoNatureAgent Benchmark | arXiv, 2026-06-11 | 环境地理分析 agent | GIS API、环境指标、BigEarthNet V2 扩展 | 93 个任务、18 类能力、16 个工具接口，评测真实 API 上的结构化 tool calling | 论文称 benchmark、harness、自托管 API 公开 | 8.0 | 对生态、城市、农业场景很实用：检验 agent 是否真的会做地理分析，而不是会写漂亮解释 |
| 4 | SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning | arXiv / project, 2026-06-11 | VLM 空间推理接口 | 图像/视频、3D/4D 空间任务 | 训练自由框架，让 VLM 在 stateful Python kernel 中逐步写代码、观察结果、再推理 | 项目页公开；GitHub 需跟踪 | 7.8 | 这条 CV 线可迁移到遥感：大幅 tile、mask、polygon、DEM、GIS layer 都适合可执行代码轨迹 |
| 5 | MaskWAM: Unifying Mask Prompting and Prediction for World-Action Models | arXiv / GitHub, 2026-06-11 | Mask prompt / object-centric prediction | 视频、mask、动作条件 | 把 mask 同时作为输入 prompt 和预测目标，降低语言指代歧义并抑制背景噪声 | arXiv 与 GitHub README 可访问 | 7.5 | 虽然是机器人论文，但对遥感 VLM/SAM 很有迁移价值：box/mask prompt 可以成为跨域 TTA 的空间锚点 |

## 1. Flexible GeoFM：第一篇最值得精读

**这篇的价值在于把 GeoFM 的争论变成可控实验。** 过去很多遥感 foundation model 论文同时换了数据、任务、训练轮数、mask 策略、输入 band 和 decoder，很难判断到底是架构有效，还是训练 recipe 更强。`Emerging Flexible Designs for Geospatial Multimodal Foundation Models` 把 SatMAE、DOFA 和一个 ClimaX-inspired Flex 放进同一套自监督预训练和 GEOBench 下游协议里比较，重点问两个问题：多光谱 band 应该怎么 tokenization，跨 band / modality 的 fusion 应该放在什么位置。

我最关心 5 点。

1. 它把比较对象缩到架构变量：SatMAE 代表 band group / intermediate fusion，DOFA 代表 wavelength-conditioned dynamic patch embedding，Flex 代表 per-channel tokenization + early cross-attention fusion。
2. 它用同一 Sentinel-2 预训练设置、同一 MAE 目标和同一 GEOBench 评估流程，避免“每篇论文各跑各的”。
3. 它把下游任务拆成 classification 和 segmentation，后者对遥感更关键，因为真实制图主要是 dense prediction。
4. 它明确讨论缺 band、异构 band 和只用部分输入的场景，这比单纯追全 band 最优更接近部署。
5. 它提醒我们：灵活架构不一定在所有同质输入上都赢，模型选择要和数据多样性、缺测频率、任务类型绑定。

**方法/创新点：** 论文不是提出一个遥感万能大模型，而是做架构审计。SatMAE 依赖预先定义的光谱分组；DOFA 用 wavelength 条件化方式动态生成 patch embedding；Flex 借鉴气候模型里的变量编码思想，把每个 channel 独立 tokenization，再用 cross-attention 早期融合。这个问题很硬，因为遥感部署经常遇到 band 不齐、传感器不同、GSD 不同和下游标签少。

**实验：** 论文先聚焦 Sentinel-2-only 设置，在 GEOBench 的 m-bigearthnet、m-eurosat、m-brick-kiln、m-cashew-plantation 和 m-SA-crop-type 等分类/分割任务上比较；下游 decoder 采用一致协议，backbone 冻结，尽量隔离架构贡献。文中另有 S1/S2 设置，但本文不把 SAR 相关结论纳入主线，只保留它对“缺 band / 多源输入鲁棒性”的方法启发。

**局限：** 这类公平比较仍然受训练数据、预算和 decoder 选择影响。200 epochs、ViT-base 量级和固定 GEOBench 子集不能覆盖真实遥感场景里的长尾类别、跨洲域、云阴影、季节漂移和标注噪声。另一个问题是，它还没有把 VLM grounding、变化检测或 GIS-native 输出纳入评估。

**启发：** 下一步更像一个可投稿 benchmark：`Missing-Band GeoFM Stress Test`。固定 Prithvi-EO、SatMAE、DOFA、AnySat、Clay 等 backbone，构造按 band、季节、地区和 GSD 分层的缺测测试；评价不只看 mIoU / F1，还要看 ECE 校准误差、跨域性能下降、推理成本和失败类型。这样的 benchmark 比再写一个新 backbone 更容易形成扎实贡献。

## 2. TerraBench：Agent 评测开始要求过程证据

TerraBench 的关键不是“又一个 agent 榜单”，而是它把 Earth observation imagery、gridded data、GIS reasoning、simulation 和 document-grounded verification 放进同一个 executable interface。论文报告 403 个任务、3 个 track、8 个应用域和 24,500 个验证执行步骤，并把过程级 tool-use 指标与容差数值评分合在一起。

这对遥感 AI 很重要。真实业务不是问一句“这张图是什么”，而是裁 tile、查 CRS、叠加行政边界、跑时序统计、解释异常、导出图表、保留证据。TerraBench 这类设置逼着模型暴露每一步：用什么工具、参数是否正确、中间 artifact 是否可追溯、数值是否在容差内。

**可做延伸：** 把 TerraBench 改成遥感视觉证据版。每个任务不仅要求文本答案，还必须返回影像 tile、bbox/mask/polygon、时间戳、脚本、地图图层和不确定性。评价指标可以包括工具调用成功率、mask IoU、面积误差、CRS 错误率、artifact provenance 完整度和人工复核成本。

## 3. GeoNatureAgent：真实 API 比静态问答更能暴露短板

GeoNatureAgent Benchmark 聚焦环境地理分析 agent，使用结构化 tool calling 对接生产式 geospatial API。论文称任务覆盖 municipality analysis、spatial reasoning、cross-indicator synthesis、ranking、comparison、多语言理解、habitat analysis 和 task rejection 等 18 类能力，并使用 16 个工具接口服务西班牙和葡萄牙的环境指标。

最有价值的发现是：真实 API 上的结构化工具调用比通用 GIS benchmark 更难，尤其 close-value comparison 这类看似简单的比较任务会暴露系统性推理缺陷。对遥感应用来说，这提示我们不要只测“能不能调用 raster/statistics 函数”，还要测 agent 是否能在数值接近、空间范围相邻、数据版本不同、指标定义相似时保持判断稳定。

**可做延伸：** 用 BigEarthNet V2、ESA WorldCover、OSM、行政区边界和少量高分影像构建一个 `Regional EO Agent Audit`。任务可以是“比较两个县的新增建设用地比例”“找出 NDVI 下降但非城市扩张的区域”“解释某类土地覆盖变化是否和保护区边界冲突”。重点不是大模型最终答得像，而是它能否给出可复查的 API 调用链。

## 4. SpatialClaw：CV-to-RS 的迁移点在 action interface

SpatialClaw 是 CV 论文，不是遥感论文。它的迁移价值在于接口设计：VLM 不再一次性输出完整推理，而是在一个 stateful Python kernel 中逐步写可执行 cell，调用感知与几何工具，观察中间结果后继续推理。论文报告它在 20 个 3D/4D spatial reasoning benchmark 上平均准确率 59.9%，比近期 spatial agent 高 11.2 个百分点，并且在多种 VLM backbone 上有一致收益。

遥感天然需要这种接口。大幅影像必须 tile；多时相变化要先配准再比较；道路、海岸线、建筑轮廓需要 mask、polyline、polygon 和拓扑检查；生态和农业任务还要叠加矢量边界、DEM、气候格网和时间序列。让 VLM 逐步写代码，比让它一次性描述整张图更容易定位错误。

**第一个小实验：** 给定 LoveDA 或 SpaceNet 的少量样本，让 agent 调用 SAM/GeoSAM、rasterio、geopandas、形态学和面积统计，完成“找出新增建筑并给出 mask、面积变化和失败原因”。指标包括变化 F1、mask IoU、面积误差、代码执行失败率、人工复核优先级 AUC 和平均 GPU 秒。

## 5. MaskWAM：box/mask prompt 可以成为遥感 TTA 的锚点

MaskWAM 面向机器人 world-action model，但它解决的问题和遥感 VLM 很接近：纯文本指代容易含糊，RGB 预测容易被无关背景牵着走。它把 mask 同时作为输入提示和未来预测目标，用对象中心监督压制背景噪声，并用第一帧 visual prompt 给目标一个稳定空间锚点。

遥感里的歧义更强。同一个“道路”“水体”“温室”“建筑工地”在不同城市、季节、GSD 和传感器下外观差异很大；开放词汇 VLM/SAM 常常能给出漂亮 mask，却不一定找对对象。box/mask prompt 的价值不是替代文本，而是把文本落到一个可审计区域上，再让模型判断类别、变化、面积和置信度。

## 可投稿方向：Box/Mask Prompt + TTA 的遥感证据校准

**问题：** 遥感 VLM/SAM 在跨城市、跨季节、跨 GSD 和跨类别 taxonomy 时，粗 box 或 mask 能帮模型锁定对象，但类别置信度、边界和变化判断仍会漂移。现有 open-vocabulary segmentation 或 grounding 方法常把 prompt 当输入，不把它当作测试时校准的稳定证据。

**假设：** 如果把 box/mask prompt 作为空间锚点，再在目标域无标签 tile 上做轻量 test-time adaptation，只更新 adapter、normalization 或 prompt token，并用 mask 稳定性、边界一致性、面积先验和 GIS 约束抑制错误伪标签，就能在不重训 backbone 的情况下提升跨域 mIoU、变化 F1 和校准质量。

**方法草图：**

1. 用 SAM/GeoSAM/SegEarth-OV/RSRefSeg 生成候选 mask，或者接受人工给的少量 box prompt。
2. 用 VLM 文本标签、RemoteCLIP/GeoRSCLIP 相似度和 GIS 先验做初筛，保留候选对象。
3. 在目标城市或目标季节上执行 TTA，只更新小 adapter、prompt token 或 BN/LN 统计。
4. 约束项包括同一对象多增强一致性、mask 边界稳定性、面积分布先验、与 OSM/道路/水系/地块边界的弱一致性。
5. 输出不仅是 mask，还要输出置信度、分歧来源、人工复核优先级和失败类型。

**数据集与指标：** LoveDA train-on-rural test-on-urban、SpaceNet 跨城市建筑、OpenEarthMap、iSAID、xView、LEVIR-CD/WHU-CD 的光学子集。指标用 mIoU、F1、boundary F-score、bbox mAP、变化 F1、ECE、跨域性能下降、每平方公里推理成本和人工复核节省率。

**基线：** source-only SAM/GeoSAM、SegEarth-OV、RSRefSeg、RemoteCLIP/GeoRSCLIP 检索式筛选、entropy minimization TTA、test-time prompt tuning、无 GIS 先验版本。

**最小验证：** 在 LoveDA 上只用 20-50 个 box prompt，做 rural-to-urban 或 urban-to-rural 迁移；比较 `source-only`、`box prompt only`、`box prompt + TTA`、`box prompt + TTA + GIS prior` 四组。只要能证明校准误差下降、mIoU/F1 稳定提升，同时错误伪标签没有失控，就有论文雏形。

可直接用于实验的 prompt / 审计模板：

```text
你是遥感开放词汇分割审计器。
给定光学遥感影像、文本类别、box/mask prompt 和多个候选 mask，请判断哪个候选最可信。

必须检查：
1. 文本类别是否真的可能出现在该区域，不存在时不要强行分割。
2. mask 是否覆盖完整对象，而不是只覆盖纹理、阴影或背景片段。
3. 候选边界在多尺度、多增强和相邻 tile 中是否稳定。
4. 面积、形状、长宽比是否符合该地物的常识或 GIS 先验。
5. 若是双时相任务，必须区分真实变化、季节差异、阴影、配准误差和云雾遮挡。
6. 若候选之间分歧很大，输出人工复核优先级，而不是给出高置信结论。
7. 最终输出 mask/box/polygon、置信度、选择理由、失败风险和建议复核项。

禁止只根据单模型置信度做最终判断。
禁止把边界漂亮的 mask 当作语义正确的证据。
禁止在目标不存在、类别含糊或时相证据不足时输出确定答案。
```

## 今日判断

遥感 AI 的下一步不只是更大的 foundation model，而是更硬的证据链。GeoFM 需要在缺 band、跨域和 dense prediction 上被公平比较；VLM 需要把回答绑定到 bbox、mask、polygon、时间戳和 GIS 操作；Agent 需要被评测完整工具轨迹，而不是只评最后一句话。

最值得推进的组合是：**GeoFM backbone + VLM/Agent evidence interface + box/mask prompt + TTA calibration**。这条线可以同时连接 foundation model、VLM、promptable segmentation、跨域泛化和可审计制图，比单独追一个新模型更容易做出可复现、可投稿、可落地的研究结果。

## 参考来源

- Emerging Flexible Designs for Geospatial Multimodal Foundation Models. https://arxiv.org/abs/2606.12595
- arXiv HTML: Emerging Flexible Designs for Geospatial Multimodal Foundation Models. https://arxiv.org/html/2606.12595v1
- TerraBench: Can Agents Reason Over Heterogeneous Earth-System Data? https://arxiv.org/abs/2606.13148
- GeoNatureAgent Benchmark: Benchmarking LLM Agents for Environmental Geospatial Analysis Across Frontier and Open-Weight Foundation Models. https://arxiv.org/abs/2606.12821
- SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning. https://arxiv.org/abs/2606.13673
- SpatialClaw project page. https://spatialclaw.github.io
- MaskWAM: Unifying Mask Prompting and Prediction for World-Action Models. https://arxiv.org/abs/2606.13515
- MaskWAM GitHub repository. https://github.com/hanyangyu1021/maskwam
- Terratorch iterate framework. https://github.com/terrastackai/iterate