RS-11 Reference-Guided SAM for Few-Shot Remote Sensing Segmentation

Series - 2024-2026 遥感 AI 细分研究方向

RS-11 Reference-Guided SAM for Few-Shot Remote Sensing Segmentation

遥感 few-shot segmentation 的难点不是单纯“样本少”,而是样本少叠加了遥感特有的数据形态:俯视视角、小目标密集、尺度变化大、同类跨区域外观差异大、背景纹理容易和目标混淆。传统 few-shot segmentation 通常用 support image/mask 学一个 prototype,再去 query image 上匹配;它能带来类别语义,但边界往往粗。SAM 则相反:边界和候选 mask 很强,但它是 category-agnostic,需要点、框、mask 等 prompt 才知道要分哪个对象。

因此 2024-2026 的一个自然小方向是:让少量参考图像自动给 SAM 生成提示,或者生成类别 prototype,再把 SAM 的边界能力和 few-shot 的语义能力合起来。RS-11 的核心问题可以表述为:

给定 1-5 张带 mask 的遥感参考图像,如何自动在目标遥感图像中找到同类地物,并生成足够稳定的 SAM prompt / prototype,使模型既不需要人工点框,又能保持遥感小目标和复杂边界质量?

SAM-RSP 将 few-shot prototype 与 SAM 结合:用 SAM encoder 感知 query 的区域边界,再用传统 few-shot backbone 产生 rough segmentation prompt,最后用 prompt transformer decoder 融合 query embedding、prompt 和 prototype。它不是遥感专用,但思路直接可迁移:prototype 提供“是什么”,SAM 提供“边界在哪里”。论文页明确给出代码链接 https://github.com/Jiaguang-NEU/SAM-RSP

Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery Based on Large Vision Models 是更早的遥感方向雏形:作者指出 SAM 依赖人工 prompt 且 category-agnostic,因此用 prior guided masks 自动产生粗 pixel-wise prompts,再交给 SAM 做遥感 few-shot segmentation。

SEMPNet 是遥感专用路线。它先利用 SAM 生成候选 mask,再通过支持集信息对 mask 做类别解析/分类。优势是工程上清楚:SAM 自动给出对象级候选,few-shot 模块只需要判断候选是否属于目标类。它的 GitHub 仓库 TinyAway/SEMPNet 包含 iSAID 数据准备、SAM mask generation 和训练脚本。

这一路线的关键风险是:SAM 候选 mask 的召回率决定上限。如果小目标、细长道路、贴近建筑或阴影区域没有被 SAM 候选覆盖,后面的语义分类再好也救不回来。

PerSAM 是 reference-guided SAM 的经典简单基线:给一张参考图和 mask,在不训练的情况下分割目标视觉概念;PerSAM-F 只训练两个 mask weight,属于极低参数 one-shot adaptation。它不是遥感论文,但适合作为 RS few-shot 的 training-free baseline。

VRP-SAM 是 CVPR 2024 方法,官方 GitHub 是 syp2ysy/VRP-SAM。它训练外部 Visual Reference Prompt Encoder,从参考图像/mask 中提取视觉参考信息,为 SAM 自动生成 prompt;仓库说明支持 point、scribble、box、mask 等 condition。它主要在 PASCAL-5i 和 COCO-20i 上评测,但对遥感很有迁移价值:遥感支持集也可以看作 visual reference,只是需要解决域差异和小目标密集问题。

ProSAM 是 ICCV 2025 方法,关注 visual reference prompt 的鲁棒性。它指出很多 SAM-based visual reference 方法会把 prompt 生成在目标边界或不稳定区域,导致结果不稳;因此学习 probabilistic prompts,避免落在不鲁棒位置。对遥感尤其重要,因为建筑边界、道路边缘、船/飞机等小目标附近背景干扰很强。

VLP-SAM 在视觉参考之外加入文本标签语义,官方 GitHub 是 kosukesakurai1/VLP-SAM。它的迁移意义是:遥感类别词如 buildingairplaneshipcroplandwater 可以提供类别语义,但自然语言标签也会带来粒度不匹配,例如 fieldfarmlandcroprice 在遥感数据集里不是同一层级。若与 RemoteCLIP/GeoRSCLIP 结合,可以把文本语义替换成遥感图文预训练空间中的类别原型。

ViRefSAM 是 RS-11 最核心的近年论文。arXiv 摘要显示它面向 remote sensing segmentation,使用少量带类别对象的 annotated reference images 自动分割目标图像中的同类对象。它引入两个关键部件:

  • Visual Contextual Prompt Encoder:从参考图像提取 class-specific semantic clues,并通过与目标图像交互产生 object-aware prompts。
  • Dynamic Target Alignment Adapter:插入 SAM image encoder,以类别相关语义缓解自然图像 SAM 与遥感图像之间的 domain gap。

它在 iSAID-5i、LoveDA-2i 和 COCO-20i 上评测,正好覆盖本条目的两个目标遥感 benchmark。

方法年份/venue是否遥感专用是否训练输入参考与 SAM/CLIP 对齐方式链接
Self-guided FSS for RSI based on LVMs2023 arXiv,作为背景需要训练/适配support mask / prior maskprior guided mask 产生 coarse pixel-wise promptarXiv
SAM-RSP2024 Image and Vision Computing / SSRN否,可迁移训练 decodersupport image/maskprototype + rough segmentation prompt + SAM query embeddingSSRN, GitHub
SEMPNet2024/2025 IJGIS训练 mask parsing networksupport image/maskSAM 生成候选 mask,few-shot 模块做语义解析paper, GitHub
PerSAM / PerSAM-F2023,作为强基线否,可迁移PerSAM 不训练;PerSAM-F 训练极少参数1 张 reference image + maskreference-target 相似度生成 prompt / mask 权重GitHub
VRP-SAM2024 CVPR否,可迁移训练 visual reference prompt encoderpoint/scribble/box/mask referenceexternal VRP encoder 自动生成 SAM promptsCVF, GitHub
VLP-SAM2025 arXiv否,可迁移训练visual reference + text labelvisual prompt + language prompt,可接 CLIP/RS-CLIParXiv, GitHub
ProSAM2025 ICCV否,可迁移训练 prompt distributionvisual referenceprobabilistic prompts,避免不稳定边界点CVF
ViRefSAM2025 arXiv / 2026 TGRS 线索训练 VCP encoder + adapter1-5 张 RS reference image/maskVisual Contextual Prompt Encoder + Dynamic Target Alignment AdapterarXiv
SAM-Aug2026 arXiv是,时序地块插件式/少训练few-shot parcel labelsSAM priors 作为 parcel segmentation regularizerarXiv
  • Training-free:PerSAM 是最轻量 baseline,但对遥感类别变化、背景干扰和多实例召回不一定稳。
  • 轻量训练:PerSAM-F、SAM-RSP decoder、VLP-SAM prompt 模块适合做低成本适配。
  • 遥感域训练:SEMPNet、ViRefSAM 更贴近 iSAID/LoveDA,但需要注意 benchmark split、公平 baseline 和数据泄漏。

参考样本不是随机越多越好。遥感中同类目标跨尺度、区域和背景差异大,建议比较四种选择策略:

  1. random support:标准 few-shot baseline。
  2. diversity support:用 DINO/RemoteCLIP embedding 选择外观多样的 support。
  3. geography-aware support:避免 support 和 query 来自同一场景瓦片,测试真正跨区域能力。
  4. prototype-quality support:根据 mask 面积、边界清晰度、遮挡/阴影比例筛选 reference。

一个合理结构是三路对齐:

  • SAM image encoder:提供边界和局部结构特征。
  • RS-CLIP/RemoteCLIP/GeoRSCLIP:提供遥感类别语义与文本标签对齐。
  • Reference prototype:从 1-5 张 support mask pooling 得到类别视觉原型。

可研究的小模块:用 cross-attention 让 reference prototype 查询 target feature;再把响应图转成 SAM point/box/mask prompt;最后用 RS-CLIP 文本原型过滤错误候选。这样可以把 ViRefSAM 的视觉参考、VLP-SAM 的语言参考、SEMPNet 的 mask parsing 合到一个统一 pipeline。

  1. Prompt 稳定性不足:reference 生成的点容易落在边界、阴影或相邻实例之间,ProSAM 指出的 instability 在遥感小目标中会更明显。
  2. 候选 mask 召回决定上限:SEMPNet 类方法若 SAM 自动 mask 漏掉细长道路、小船、小车,后续语义解析无法恢复。
  3. 参考样本选择被低估:few-shot 论文常随机 support,但遥感中 support 的地理区域、尺度、背景和成像条件会显著影响结果。
  4. SAM 与遥感域差异:SAM 在自然图像上预训练,面对俯视目标、重复纹理、低对比边界和地物混合像元时需要 adapter 或 domain-specific prompt。
  5. 类别语义粒度冲突:LoveDA/iSAID 的类别与自然语言标签、RemoteCLIP 文本空间不一定一致。
  6. Patch 化造成不一致:大幅面遥感图像切片后,同一类对象在不同 tile 上可能 prototype 漂移,拼接后边界断裂。
  • iSAID-5i:基于 iSAID 航空影像,适合目标类、小目标和密集实例;建议遵循 ViRefSAM 使用的 few-shot fold。
  • LoveDA-2i:城乡遥感语义分割,适合测试跨域、背景复杂和 land-cover 类别。
  • 每个 fold 做 1-shot、3-shot、5-shot;每个 shot 至少 5 个随机种子。
  • 增加 geography-aware split:support/query 不允许来自同一原始大图或邻近瓦片,降低空间泄漏。

必须比较三类 baseline:

  • 传统 FSS:PFENet、HSNet、CyCTR 或近年 RS-FSS 方法。
  • SAM-reference:PerSAM、VRP-SAM、SAM-RSP、VLP-SAM。
  • 遥感 SAM-reference:SEMPNet、ViRefSAM。
  • mIoU / class mIoU:主指标。
  • novel mIoU / base mIoU / harmonic IoU:若做 generalized few-shot。
  • Boundary F-score:评估 SAM 是否真的改善边界。
  • Small-object IoU:按目标面积分桶,专门看小目标。
  • Prompt cost:需要人工点/框/mask 数量;reference-guided 方法应统计人工成本。
  • Runtime / GPU memory:SAM-H、SAM-B、SAM2、adapter 方法差异很大。
  • Support sensitivity:不同 support 选择策略下的均值、方差和最坏性能。
实验模型变量目的
E1PerSAM, VRP-SAM, ViRefSAM1/3/5-shot看 reference 数量是否稳定提升
E2ViRefSAM w/o adapteradapter 开/关验证遥感域对齐是否必要
E3SEMPNet w/o SAM masksSAM 候选开/关验证候选 mask 对上限的影响
E4VLP-SAM + RemoteCLIPtext label / RS text prototype测语言语义是否减少类混淆
E5ProSAM-style probabilistic promptdeterministic / probabilistic prompt测边界附近 prompt 稳定性
E6random/diverse/geography-aware supportsupport 选择策略测参考样本选择对遥感泛化的影响

题目草案:GeoRef-SAM: Geography-Aware Visual Reference Prompting for Few-Shot Remote Sensing Segmentation

核心假设:在遥感 few-shot segmentation 中,reference prompt 的失败主要来自两个来源:support 样本不代表 query 的地理/尺度变化,以及 prompt 点落在不稳定边界或背景区域。若同时做 geography-aware support selection 和 probabilistic prompt generation,可以比单纯增加 shot 数更稳定地提升 novel-class segmentation。

方法草图:

  1. 用 RemoteCLIP/DINO/SAM encoder 从候选 support 中选多样且边界清晰的 reference。
  2. 在 support mask 内提取 class prototype,同时提取 boundary-negative prototype。
  3. 用 prototype-target cross-attention 生成响应图。
  4. 将响应图转为 probabilistic point/box/mask prompt:中心区域给正点,混淆边界给低权重,背景相似区域给负点。
  5. 调用 SAM/SAM2 decoder 生成候选 mask,再用 RS-CLIP 文本原型和 support prototype 二次筛选。
  6. 训练时只更新 reference prompt encoder、轻量 adapter 或 LoRA,冻结 SAM 主体。

预期贡献:

  • 一个 geography-aware reference selection protocol。
  • 一个 uncertainty/probability-aware prompt generator,专门避免遥感边界不稳定点。
  • 一套 iSAID-5i/LoveDA-2i 的 support sensitivity 评测,而不是只报随机均值。
  1. ViRefSAM
  2. SEMPNet and GitHub
  3. VRP-SAM and GitHub
  4. PerSAM
  5. SAM-RSP and GitHub
  6. VLP-SAM and GitHub
  7. ProSAM, ICCV 2025
  8. Learnable Prompt for Few-Shot Semantic Segmentation in Remote Sensing Domain, CVPRW 2024

Related Content

评论