Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM

Sun, 14 Jun 2026 09:00:02 +0800

Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM

结论：这一轮最值得单独跟踪的是 CVPR 2026 EarthVision 论文 Enabling Training-Free Text-Based Remote Sensing Segmentation。它没有再给遥感 VLM 接一个新的 mask decoder，也没有把重点放在更复杂的专用适配器上，而是把问题拆成两条很朴素的路线：短类别词用 CLIP 给 SAM 的候选 mask 做语义选择；长句、指代表达和推理问题则让生成式 VLM 输出点击点，再交给 SAM 出 mask。它的意义不只是“又一个开放词表分割方法”，而是把遥感文本分割重新拉回一个可复用的工程问题：VLM 不必直接生成像素，先学会给通用分割器提供可靠的空间提示。

我按 2026-06-14 09:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线工作。本篇选择 Jose Sosa 等人在 CVPR 2026 EarthVision Workshop 的遥感文本分割论文。arXiv、CVF 页面和官方 GitHub 仓库均已公开；不过仓库目前只有 README 和 teaser，代码部分仍标注为 coming soon，因此本文把它视为“论文公开、代码仓库已建、可运行代码未确认”的条目。

这篇适合放进“可提示分割、开放词表与密集预测”。它正好连接了三条线：开放词表语义分割、SAM 可提示分割、遥感 VLM 推理分割。对后续做遥感 VLM 的人来说，最值得借鉴的不是某个模型名，而是它把“语言理解”和“mask 生成”解耦以后，很多训练负担可以被转成提示生成、mask 选择和评测协议设计。

背景

遥感文本分割的目标是：给一张遥感影像和一段文本，让模型输出对应区域的 mask。文本可以很短，例如 building、road、water；也可以是指代表达，例如“右上角那辆车”；还可以是推理问题，例如“如果要改善网球发球并参加双打，应选择体育综合体中的哪个位置”。这三种任务表面上都是分割，但它们对模型的要求完全不同。

EarthReason - Tag - 堂堂一跑堂

Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM

Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM

背景