Training-Free Text-Based RS Segmentation:让 VLM 只负责选 mask 和点 SAM

Training-Free Text-Based RS Segmentation:让 VLM 只负责选 mask 和点 SAM

结论:这一轮最值得单独跟踪的是 CVPR 2026 EarthVision 论文 Enabling Training-Free Text-Based Remote Sensing Segmentation。它没有再给遥感 VLM 接一个新的 mask decoder,也没有把重点放在更复杂的专用适配器上,而是把问题拆成两条很朴素的路线:短类别词用 CLIP 给 SAM 的候选 mask 做语义选择;长句、指代表达和推理问题则让生成式 VLM 输出点击点,再交给 SAM 出 mask。它的意义不只是“又一个开放词表分割方法”,而是把遥感文本分割重新拉回一个可复用的工程问题:VLM 不必直接生成像素,先学会给通用分割器提供可靠的空间提示。

我按 2026-06-14 09:00 +08 检索公开来源,过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线工作。本篇选择 Jose Sosa 等人在 CVPR 2026 EarthVision Workshop 的遥感文本分割论文。arXiv、CVF 页面和官方 GitHub 仓库均已公开;不过仓库目前只有 README 和 teaser,代码部分仍标注为 coming soon,因此本文把它视为“论文公开、代码仓库已建、可运行代码未确认”的条目。

这篇适合放进“可提示分割、开放词表与密集预测”。它正好连接了三条线:开放词表语义分割、SAM 可提示分割、遥感 VLM 推理分割。对后续做遥感 VLM 的人来说,最值得借鉴的不是某个模型名,而是它把“语言理解”和“mask 生成”解耦以后,很多训练负担可以被转成提示生成、mask 选择和评测协议设计。

遥感文本分割的目标是:给一张遥感影像和一段文本,让模型输出对应区域的 mask。文本可以很短,例如 buildingroadwater;也可以是指代表达,例如“右上角那辆车”;还可以是推理问题,例如“如果要改善网球发球并参加双打,应选择体育综合体中的哪个位置”。这三种任务表面上都是分割,但它们对模型的要求完全不同。

过去很多方法会在 VLM 或文本编码器后面接专用分割头、mask decoder、adapter 或 token bridge。这样做能刷高特定数据集指标,但也带来两个问题。第一,遥感密集标注成本高,不同城市、传感器、分辨率和类别体系下重新训练很麻烦。第二,模型结构越来越任务化,迁移到新的提示类型时往往要再设计接口。

这篇论文的核心问题很直接:如果只使用现成的 foundation models,不额外训练新的分割模块,遥感文本分割能做到什么程度?作者把 VLM 分成两类来用。对开放词表语义分割,使用 CLIP 这样的 contrastive VLM 产生语义热图,再在 SAM 自动生成的候选 mask 中选择匹配文本的区域。对 referring 和 reasoning segmentation,使用 GPT-5 或 Qwen3-VL 这样的 generative VLM,把自然语言问题转成 SAM 可接受的点击点。

这对遥感 AI 的启发很现实。很多遥感 VLM 工作试图让大模型直接“回答一切”,但分割本身是一个强空间任务。让 VLM 直接输出 mask,既不稳定,也难评估;让 VLM 输出空间提示,再交给 SAM 这类分割器,反而更符合模块分工。VLM 负责理解文本、粗定位和推理,SAM 负责边界和 mask。

论文提出两条互补 pipeline。

第一条是 contrastive VLM as SAM mask selector,面向开放词表语义分割。流程是:输入图像和类别文本,CLIP 计算每个 patch 或像素对文本的相似度,得到前景概率图;同时 SAM 通过规则网格点击生成一批类别无关的 mask proposals。随后对每个 SAM mask,统计它覆盖区域里有多少像素被 CLIP 认为属于目标类别。如果比例超过阈值,就把这个 mask 选出来并合并成最终预测。

多类别场景也类似。CLIP 对每个类别文本输出概率,像素先按最大概率分配类别;SAM mask 再根据 mask 内部占优的类别决定自己的标签。为了缓解 CLIP 的全局偏置,作者沿用 SegEarth-OV 中的 debias 技巧,从 patch token 中减去缩放后的 <CLS> token。这个设计的关键是:SAM 负责提出边界比较完整的候选区域,CLIP 只做语义筛选,而不是单独承担密集分割。

第二条是 generative VLM as SAM prompter,面向指代表达和推理分割。这里的文本往往不是一个类别词,而是一句话甚至一个需要推理的问题。作者不让 VLM 直接输出 mask,而是让 VLM 生成点击点坐标。点击点再输入 SAM,得到对应区域的 mask。零样本设置下,作者使用 GPT-5 生成点击点,并与直接用 GPT-Image-1 生成 mask 的方式比较;微调设置下,作者用 Qwen3-VL-2B 做 LoRA,让它更稳定地产生正负点击序列。

LoRA 训练数据不是人工重新标点击,而是从已有 mask 自动生成。给定 ground truth mask,先取一个正点击让 SAM 生成初始 mask,再比较预测 mask 和真值 mask。漏分区域产生新的正点击,误分区域产生新的负点击;用距离变换优先采样离已正确区域更远的错误点。这个迭代过程生成一串 synthetic clicks,再用来微调生成式 VLM。换句话说,已有分割标注被转成“如何点击 SAM”的教学数据。

这两条路线的分工很清楚。短类别词、多区域语义分割适合 CLIP+SAM mask selection,因为水体、森林、道路、建筑可能分布在多个不连通区域;单个问题或一句描述通常对应一个目标区域,适合让生成式 VLM 产生少量点击点。这个拆分比“一个 VLM 做所有文本分割”更稳。

论文总共报告 19 个遥感 benchmark,覆盖开放词表语义分割、指代表达分割和推理分割。

开放词表语义分割包含 17 个数据集。多类别部分使用 OpenEarthMap、LoveDA、iSAID、Potsdam、Vaihingen,以及 UAVid、UDD5、VDD 这三个 UAV 数据集。单类别部分分成建筑、道路和洪水三组:建筑包括 WHU-Aerial、WHU-Sat.II、Inria 和 xBD-pre;道路包括 CHN6-CUG、DeepGlobe、Massachusetts 和 SpaceNet;洪水检测使用 WBS-SI。多类别报告 mIoU,单类别报告 foreground IoU。

指代表达分割使用 RRSIS-D。该数据集包含 17,402 个 image-description-mask triplets,其中训练、验证、测试分别为 12,181、1,740、3,481。推理分割使用 EarthReason,包含 5,434 张图像,每张图像平均约 6 个问题和对应 mask,训练、验证、测试图像分别为 2,371、1,135、1,928。

实现上,contrastive 分支使用 CLIP ViT-B/16 和 SAM-L。CLIP 输入图像长边在主实验中缩放到 448,SAM 保留原始尺寸;过大的图像会切成不重叠 patch 以控制显存。generative 分支中,零样本用 GPT-5 生成点击点;LoRA 微调用 Qwen3-VL-2B,训练 3 个 epoch,4 张 A100,LoRA rank 32,训练时使用 6 个点击点。

开放词表多类别结果里,作者的方法在 8 个数据集平均 mIoU 达到 41.3,高于 SegEarth-OV 的 39.2,也高于 CLIP、MaskCLIP、SCLIP、GEM 和 ClearCLIP 等零样本基线。这里的重点不是绝对数值已经接近完全监督 oracle,oracle 平均仍有 58.2,而是一个没有额外训练分割模块的 CLIP+SAM 组合已经超过了需要遥感数据训练辅助组件的 SegEarth-OV。

单类别开放词表结果更能看出任务差异。9 个建筑、道路、洪水数据集的平均 foreground IoU 为 35.1,略高于 SegEarth-OV 的 34.2。建筑数据上提升明显,例如 WHU-Aerial 达到 58.8,Inria 达到 48.0;道路数据仍然偏难,DeepGlobe 和 Massachusetts 上只有 15.9 和 12.2。这说明 SAM 候选 mask 加 CLIP 语义选择在边界清晰、对象成块的类别上更有效,对细长道路、遮挡道路和拓扑连续目标仍不够稳。

referring 和 reasoning segmentation 的结果显示,直接让 GPT-Image-1 输出 mask 不如让 GPT-5 输出点击点再用 SAM 分割。零样本设置下,GPT-5+SAM 在 RRSIS-D test 上达到 24.9,在 EarthReason test 上达到 47.4;这还没到 SOTA,但已经说明“生成点击点”比“生成 mask 图像”更适合作为 VLM 和 SAM 的接口。

LoRA 微调后的 Qwen3-VL-2B 分支表现最强。RRSIS-D test 达到 67.6,EarthReason test 达到 72.7,高于 SegEarth-R1 报告的 66.4 和 70.7,也高于 GeoPixel 在 RRSIS-D 上的 67.3。关键是这里没有训练额外 mask decoder,SAM 保持冻结,只微调 Qwen3-VL 的一小部分参数去学习点击生成。

ablation 也比较有用。contrastive 分支里,SAM-Large 整体优于 SAM-Tiny 和 SAM-Base;同样使用 SAM-Large 时,网格点击从 10 x 10 增加到 20 x 20 后提升明显,再到 29 x 29 仍有小幅增益。以 LoveDA 为例,10 x 10、20 x 20、29 x 29 分别为 36.2、38.1、38.2;以 CHN6 为例,分别为 31.0、35.6、36.4。generative 分支里,点击数量从 2 增加到 6 会持续提升结果,Qwen3-VL-2B 的 6-click 设置达到最佳。

第一,它把遥感开放词表分割的训练依赖降到了很低。CLIP+SAM 分支完全不训练新的遥感分割模块,却能在 17 个 OVSS 数据集上超过多个零样本方法和接近训练型遥感方法。这对低标注地区、新类别、临时灾害场景尤其有吸引力。

第二,VLM 与 SAM 的接口设计很干净。contrastive VLM 做 mask selection,generative VLM 做 click generation,SAM 做 mask generation。这个接口比新增 <SEG> token、训练 mask decoder 或让大模型直接吐 mask 更容易替换组件,也更容易诊断错误来自语义、点击还是边界。

第三,它把推理分割和可提示分割真正接上了。EarthReason 这类任务不是简单识别类别,而是要求模型理解问题含义、找到隐含目标,再输出空间区域。用 VLM 生成点击点,是一种把语言推理转成空间提示的轻量方案。

第四,benchmark 覆盖面不错。19 个数据集横跨多类别、单类别、建筑、道路、水体/洪水、UAV、指代表达和推理任务,比只在一个遥感 VQA 或一个开放词表数据集上报告结果更有说服力。

第五,论文很诚实地暴露了通用 foundation model 的边界。训练-free 方法不是万能的;道路、密集场景、树木/植被、非清晰边界区域和多区域目标仍然会失败。这些失败恰好给后续工作留下了明确入口。

第一,代码尚未真正释放。官方 GitHub 仓库已经建立,但 README 的 Code 部分仍写着 coming soon。由于实现涉及 SAM 网格生成、CLIP debias、mask selection 阈值、点击生成、LoRA 微调和推理投票,缺少代码会影响复现速度。

第二,contrastive 分支对 SAM proposal 质量高度依赖。如果 SAM 没有生成合适候选 mask,CLIP 再强也只能在错误候选里选择。道路、田埂、河网、细小车辆、遮挡建筑和跨 patch 对象都可能受这个问题影响。

第三,生成式 VLM 点击方案更适合单目标或少量连通区域。论文也指出,OVSS 中许多类别由多个不连通区域组成,少量点击很难覆盖完整语义范围。因此 generative 分支不能简单替代 contrastive 分支。

第四,遥感专用语义仍可能被通用 VLM 误解。像 industrial area、impervious surface、low vegetation、flooded building 这类类别不是自然图像里稳定出现的概念,CLIP 或 Qwen3-VL 的语义对齐可能受训练语料偏差影响。

第五,推理分割的评测仍主要看 mIoU。对遥感落地来说,还需要对象级召回、边界误差、跨区域一致性、尺度敏感性、点击合法率、错误类型分解和推理解释可验证性。否则一个模型可能在平均 IoU 上不错,但在灾害、道路或设施制图中不可靠。

一个可做的小论文方向是:Prompt-Error-Calibrated VLM-SAM for Remote Sensing Reasoning Segmentation。核心问题不是再训练一个更大的遥感 VLM,而是让 VLM 生成的 SAM 提示可校准、可修正、可拒答。

假设是:当前 VLM+SAM 的主要失败不只来自 mask 边界,而来自提示错误。VLM 可能点错对象、只点到目标的一部分、无法覆盖多区域目标,或者在文本含糊时给出过度自信的点击。如果能估计每个点击的语义置信度和空间不确定性,再让模型做少量自检或二次点击,推理分割会比单次点击更稳。

方法可以分四步。第一,用现成 VLM 生成多组候选点击,而不是一组点击;每组点击带自然语言理由和置信度。第二,对每组点击运行 SAM,得到多个候选 mask。第三,用 CLIP/RemoteCLIP 或轻量 verifier 比较 mask crop 与原始问题的匹配度,同时检查 mask 面积、连通域数量、边界复杂度和类别先验。第四,对低置信样本触发二次提示,例如要求 VLM 根据候选 mask 的失败原因补充正负点击。

数据可以先用 RRSIS-D 和 EarthReason,因为它们已经覆盖 referring 和 reasoning segmentation。若要加入开放词表多区域场景,可以从 LoveDA、OpenEarthMap、iSAID 和 Inria 构造文本提示。首个实验不必训练大模型,可以从 GPT-5/Qwen3-VL 生成多候选点击、SAM-L 出 mask、RemoteCLIP 做 verifier 开始。

评估指标除了 mIoU,还应报告 click hit rate、negative-click error rate、mask verifier accuracy、uncertainty calibration ECE、abstention 后的 selective IoU,以及错误类型占比。对遥感任务尤其要单独报告小目标、细长目标、多连通域目标和类别相近目标。

一个可直接放进实验规范的 prompt/检查清单是:

你是遥感推理分割的点击提示生成器。给定一张遥感影像和一个文本问题,请输出 3 组候选 SAM 点击提示。

每组候选必须包含:
1. target: 你认为问题指向的地物类别或对象。
2. positive_clicks: 1-6 个正点击,格式为归一化坐标 [x, y],x 和 y 在 0 到 1 之间。
3. negative_clicks: 0-6 个负点击,用于排除相邻但不属于目标的区域。
4. reason: 用一句话说明为什么这些点击对应问题目标。
5. confidence: 0 到 1 的置信度。
6. failure_risk: 从 ambiguous_text、small_object、multi_region、weak_boundary、class_confusion 中选择可能风险。

禁止输出整张图像 mask。
如果文本目标不明确,必须降低 confidence,并给出至少两个不同候选。
如果目标可能由多个不连通区域组成,必须在 positive_clicks 中覆盖不同连通区域。
如果目标边界不清晰,必须加入 negative_clicks 排除相邻区域。

这个方向和遥感 VLM 的关系很直接。通用 VLM 的优势是语言理解和空间推理,SAM 的优势是边界分割;真正的问题是二者之间的提示接口是否可靠。Enabling Training-Free Text-Based Remote Sensing Segmentation 证明了“VLM 点 SAM”可以成为强基线。下一步有价值的工作,是让点击提示不只是一个坐标列表,而是带不确定性、可验证、可迭代修正的空间推理结果。

  • arXiv:https://arxiv.org/abs/2602.17799
  • arXiv HTML:https://arxiv.org/html/2602.17799v1
  • CVF Open Access:https://openaccess.thecvf.com/content/CVPR2026W/EarthVision/html/Sosa_Enabling_Training-Free_Text-Based_Remote_Sensing_Segmentation_CVPRW_2026_paper.html
  • 官方 GitHub:https://github.com/josesosajs/trainfree-rs-segmentation
  • CVF PDF:https://openaccess.thecvf.com/content/CVPR2026W/EarthVision/papers/Sosa_Enabling_Training-Free_Text-Based_Remote_Sensing_Segmentation_CVPRW_2026_paper.pdf
  • CVF supplemental:https://openaccess.thecvf.com/content/CVPR2026W/EarthVision/supplemental/Sosa_Enabling_Training-Free_Text-Based_CVPRW_2026_supplemental.pdf

Related Content

评论