LG-SAM：遥感视觉 grounding 不该只押一个模型

Mon, 15 Jun 2026 07:00:02 +0800

LG-SAM：遥感视觉 grounding 不该只押一个模型

结论：这一轮最值得单独跟踪的是 2026-05-30 提交到 arXiv 的 Improving Visual Grounding in Remote Sensing via Cluster-Guided Refinement and Model Ensemble Voting。它不是再造一个遥感 VLM，而是把 RemoteSAM 的遥感定位能力、SAM3 的通用分割能力、EarthMind / Falcon 这类遥感多模态模型的互补性放进同一个 grounding 框架里。对遥感 AI 来说，这篇工作的价值在于提醒我们：开放词汇定位和语言驱动分割在复杂遥感场景中很难靠单模型稳定解决，模型间的一致性本身可以成为一种可用的置信度信号。

我按 2026-06-15 07:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是光学遥感图像上的语言引导定位与分割，不以雷达数据为输入。它也不在前几轮已跟踪的 CoastlineVLM、Stateful Visual Encoder、BCP、UltraVR、SpatialClaw 等条目中，适合作为本轮单篇深挖。

背景

遥感 VLM 的一个真实瓶颈是 grounding。问答和 caption 可以看起来很流畅，但一旦要求模型把“机场跑道”“港口码头”“密集居民区中的操场”精确落到图像区域上，错误会立刻暴露出来。遥感影像里对象尺度跨度很大，背景高度重复，同一张图里可能有多个相似目标，普通自然图像模型常常能分割出漂亮 mask，却不一定找对对象。

这篇论文的问题定义很直接：视觉 grounding 要把自然语言描述对应到图像区域。作者认为，单一模型很难同时处理遥感里的定位、分割、尺度变化和复杂背景。RemoteSAM 更懂遥感，但输出可能粗糙、碎片化；SAM3 的 mask 质量强，但在大幅遥感图像中容易先找错位置；EarthMind 和 Falcon 这类遥感 VLM 在部分场景有效，但跨类别稳定性还不够。

所以它的主张不是“换一个更大的模型”，而是把多个模型的长处拆开使用：先用更懂遥感的模型给候选位置，再用更强的分割模型细化边界，最后用多模型投票抵消单模型失误。

方法

论文提出两条主要 pipeline。

第一条是 Sequential Grounding Refinement (SGR)。流程是先让 RemoteSAM 根据文本 prompt 产生初始位置，再把这些候选框交给 SAM3 生成更细的 segmentation mask。这个思路很自然，但论文实验发现，直接串联并不稳。RemoteSAM 的候选框如果碎片化、重叠或包含多余目标，SAM3 会被迫逐框处理，结果可能出现重复 mask 或错误分割。

VRSBench - Tag - 堂堂一跑堂

LG-SAM：遥感视觉 grounding 不该只押一个模型

LG-SAM：遥感视觉 grounding 不该只押一个模型

背景

方法