过去 24 小时遥感 AI 雷达：GeoAgent 基准、空间推理接口与 Mask Prompt

Fri, 12 Jun 2026 10:37:41 +0800

过去 24 小时遥感 AI 雷达：GeoAgent 基准、空间推理接口与 Mask Prompt

结论：今天的信号不在“又一个遥感 backbone”，而在地理智能系统的评测方式。 近 24 小时内，严格非 SAR/radar-only 的遥感 AI 新文并不多；更值得跟踪的是三条相互靠近的线：Earth-system agent benchmark 开始把遥感影像、格网数据、GIS 和模拟器放进同一个可执行工作流；通用 VLM 空间推理开始转向“代码作为行动接口”；mask/box prompt 从机器人世界模型里被证明是降低语言歧义的强约束。这三条线组合起来，正好对应遥感 VLM 的一个短板：能说，但未必能把证据落到对象、区域、时间和地图操作上。

我按 2026-06-12 10:37:41 +08:00 回看近 24 小时公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 项。OpenReview、CVF、IEEE/ISPRS/ACM 在这个时间窗内没有检索到比 arXiv/官方 GitHub 更直接的新主线；GitHub/Hugging Face 只作为代码或数据可复现性补证据。

今日 3 个重点

排名	论文/项目	来源时间	任务	数据/模态	贡献	代码/数据	分数	为什么重要
1	TerraBench: Can Agents Reason Over Heterogeneous Earth-System Data?	arXiv, 2026-06-11 10:26 UTC	Earth-system agent 评测	遥感影像、格网数据、GIS、模拟器、文档证据	用 TerraAgent/ReAct 式可执行框架，把工具调用、过程指标和容差数值评分合在一起；403 个任务、24,500 个验证执行步骤	论文页已公开；代码需继续跟踪	8.6	遥感 AI 评测从“单图问答/单任务分割”走向“可执行地理工作流”，适合做 GeoFM/VLM 的下一代 benchmark
2	SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning	arXiv/GitHub, 2026-06-11 17:59 UTC	VLM 空间推理	图像/视频、3D/4D 空间任务	训练自由框架，让 VLM 在持久 Python kernel 里逐步写代码，调用感知与几何工具，而不是一次性输出答案	官方 GitHub: NVlabs/SpatialClaw	8.2	对遥感 VLM 很可迁移：大幅影像、矢量图层、DEM、对象 mask 都天然适合“代码单元 + 中间证据”式推理
3	MaskWAM: Unifying Mask Prompting and Prediction for World-Action Models	arXiv, 2026-06-11 16:02 UTC	Mask prompt / 目标中心预测	视频、mask、动作条件	把 mask 同时作为输入提示和预测目标，用对象中心监督减弱背景噪声和语言歧义	论文页已公开；官方代码需继续跟踪	7.4	虽然是机器人/世界模型论文，但它给遥感一个清晰迁移点：box/mask prompt 可以作为变化检测、开放词汇分割和人工交互标注的证据锚点

1. TerraBench：遥感 Agent 评测开始像真实地理工作流

来源事实： TerraBench 于 2026-06-11 提交 arXiv。论文把问题定义为 grounded Earth-science reasoning，覆盖 Earth observation imagery、gridded data、GIS reasoning、simulation 和 document-grounded verification。它不是只问“图里有什么”，而是要求 agent 通过工具调用完成检索、地理处理、模拟和带证据的计算。论文报告 benchmark 包含 403 个任务、三个 track、八个应用域和 24,500 个验证执行步骤。

Earth-System - Tag - 堂堂一跑堂

过去 24 小时遥感 AI 雷达：GeoAgent 基准、空间推理接口与 Mask Prompt

过去 24 小时遥感 AI 雷达：GeoAgent 基准、空间推理接口与 Mask Prompt

今日 3 个重点

1. TerraBench：遥感 Agent 评测开始像真实地理工作流