LG-SAM：遥感视觉 grounding 不该只押一个模型

Mon, 15 Jun 2026 07:00:02 +0800

LG-SAM：遥感视觉 grounding 不该只押一个模型

结论：这一轮最值得单独跟踪的是 2026-05-30 提交到 arXiv 的 Improving Visual Grounding in Remote Sensing via Cluster-Guided Refinement and Model Ensemble Voting。它不是再造一个遥感 VLM，而是把 RemoteSAM 的遥感定位能力、SAM3 的通用分割能力、EarthMind / Falcon 这类遥感多模态模型的互补性放进同一个 grounding 框架里。对遥感 AI 来说，这篇工作的价值在于提醒我们：开放词汇定位和语言驱动分割在复杂遥感场景中很难靠单模型稳定解决，模型间的一致性本身可以成为一种可用的置信度信号。

我按 2026-06-15 07:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是光学遥感图像上的语言引导定位与分割，不以雷达数据为输入。它也不在前几轮已跟踪的 CoastlineVLM、Stateful Visual Encoder、BCP、UltraVR、SpatialClaw 等条目中，适合作为本轮单篇深挖。

背景

遥感 VLM 的一个真实瓶颈是 grounding。问答和 caption 可以看起来很流畅，但一旦要求模型把“机场跑道”“港口码头”“密集居民区中的操场”精确落到图像区域上，错误会立刻暴露出来。遥感影像里对象尺度跨度很大，背景高度重复，同一张图里可能有多个相似目标，普通自然图像模型常常能分割出漂亮 mask，却不一定找对对象。

这篇论文的问题定义很直接：视觉 grounding 要把自然语言描述对应到图像区域。作者认为，单一模型很难同时处理遥感里的定位、分割、尺度变化和复杂背景。RemoteSAM 更懂遥感，但输出可能粗糙、碎片化；SAM3 的 mask 质量强，但在大幅遥感图像中容易先找错位置；EarthMind 和 Falcon 这类遥感 VLM 在部分场景有效，但跨类别稳定性还不够。

所以它的主张不是“换一个更大的模型”，而是把多个模型的长处拆开使用：先用更懂遥感的模型给候选位置，再用更强的分割模型细化边界，最后用多模型投票抵消单模型失误。

方法

论文提出两条主要 pipeline。

第一条是 Sequential Grounding Refinement (SGR)。流程是先让 RemoteSAM 根据文本 prompt 产生初始位置，再把这些候选框交给 SAM3 生成更细的 segmentation mask。这个思路很自然，但论文实验发现，直接串联并不稳。RemoteSAM 的候选框如果碎片化、重叠或包含多余目标，SAM3 会被迫逐框处理，结果可能出现重复 mask 或错误分割。

Plan2Map：别让 VLM 直接手写 GeoJSON

Sun, 14 Jun 2026 11:00:02 +0800

Plan2Map：别让 VLM 直接手写 GeoJSON

结论：这一轮最值得单独跟踪的是 Plan2Map: A Multimodal Benchmark for Document-Grounded Geospatial Boundary Reconstruction from Planning Records。它不是传统遥感影像分类或分割论文，而是把一个很真实的地理智能问题做成 benchmark：给系统一份规划 PDF，里面有通知文本、法律描述、扫描地图、标签和边界标注，要求系统还原可评分的 GeoJSON 边界。最有价值的结论很直接：端到端让 VLM 直接生成 GeoJSON 几乎不可靠；更稳的路线是让 VLM 读证据、让 GIS 工具定位和配准、让分割模型提边界，再把 mask 投影回 WGS84。

我按 2026-06-14 11:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线工作。本篇选择 2026-06-01 提交 arXiv 的 Plan2Map。arXiv 和项目页均已公开；项目页标注 Code 和 Dataset 为 coming soon，因此本文把它视为“论文与项目页公开、代码和数据集尚未释放”的条目。

这篇适合放进“多源数据融合、效率部署与应用落地”。原因是它的核心不是单个视觉 encoder，而是把文档解析、地名检索、地图瓦片匹配、边界分割、坐标投影和结果校验串成一个可执行地理工作流。对遥感 VLM、GeoAgent 和地图自动化来说，它比单图 VQA 更接近真实业务。

背景

很多地理空间信息并不是一开始就以 GeoJSON、Shapefile 或标准数据库形式存在。城市规划、历史保护区、建设限制、土地使用规则、环境红线和基础设施管控范围，常常只存在于 PDF、扫描件、公告文本、附图和地方政府网页里。人能读懂“某条路以东、某条边界线内、图中黄色区域”，但机器要把它变成可查询的边界并不容易。

Plan2Map 关注的是英国 Article 4 Direction 规划记录。它们定义了某些区域上的规划限制，但源文件往往只给法律通知和附图，不直接给机器可读的边界。数字规划系统真正需要的是几何对象：一个地点是否落在限制区内，某个限制是否和其他规则重叠，历史记录是否能被审计，这些都需要可计算边界。

这类任务和遥感 AI 的关系很近。遥感模型经常输出 mask、检测框或变化区域，但落地时必须和地籍、道路、行政边界、规划文档、地名库和地图瓦片对齐。也就是说，问题不只是“图里有什么”，而是“来自不同来源的证据能不能被合成一个合法、可验证、可投影的空间对象”。

SAM3 - Tag - 堂堂一跑堂

LG-SAM：遥感视觉 grounding 不该只押一个模型

LG-SAM：遥感视觉 grounding 不该只押一个模型

背景

方法

Plan2Map：别让 VLM 直接手写 GeoJSON

Plan2Map：别让 VLM 直接手写 GeoJSON

背景