RS-11 Reference-Guided SAM for Few-Shot Remote Sensing Segmentation

WangTong included in category and series 2024-2026 遥感 AI 细分研究方向

2026-06-07 09:10:00 2026-06-07 09:10:00 822 words 4 minutes

Series - 2024-2026 遥感 AI 细分研究方向

RS-11 Reference-Guided SAM for Few-Shot Remote Sensing Segmentation

1. 问题由来

遥感 few-shot segmentation 的难点不是单纯“样本少”，而是样本少叠加了遥感特有的数据形态：俯视视角、小目标密集、尺度变化大、同类跨区域外观差异大、背景纹理容易和目标混淆。传统 few-shot segmentation 通常用 support image/mask 学一个 prototype，再去 query image 上匹配；它能带来类别语义，但边界往往粗。SAM 则相反：边界和候选 mask 很强，但它是 category-agnostic，需要点、框、mask 等 prompt 才知道要分哪个对象。

因此 2024-2026 的一个自然小方向是：让少量参考图像自动给 SAM 生成提示，或者生成类别 prototype，再把 SAM 的边界能力和 few-shot 的语义能力合起来。RS-11 的核心问题可以表述为：

给定 1-5 张带 mask 的遥感参考图像，如何自动在目标遥感图像中找到同类地物，并生成足够稳定的 SAM prompt / prototype，使模型既不需要人工点框，又能保持遥感小目标和复杂边界质量？

2. 方法脉络

2.1 粗 prompt / prototype 驱动 SAM

SAM-RSP 将 few-shot prototype 与 SAM 结合：用 SAM encoder 感知 query 的区域边界，再用传统 few-shot backbone 产生 rough segmentation prompt，最后用 prompt transformer decoder 融合 query embedding、prompt 和 prototype。它不是遥感专用，但思路直接可迁移：prototype 提供“是什么”，SAM 提供“边界在哪里”。论文页明确给出代码链接 https://github.com/Jiaguang-NEU/SAM-RSP。

Self-guided Few-shot Semantic Segmentation for Remote Sensing Imagery Based on Large Vision Models 是更早的遥感方向雏形：作者指出 SAM 依赖人工 prompt 且 category-agnostic，因此用 prior guided masks 自动产生粗 pixel-wise prompts，再交给 SAM 做遥感 few-shot segmentation。

2.2 SAM mask candidate + 支持集语义解析

SEMPNet 是遥感专用路线。它先利用 SAM 生成候选 mask，再通过支持集信息对 mask 做类别解析/分类。优势是工程上清楚：SAM 自动给出对象级候选，few-shot 模块只需要判断候选是否属于目标类。它的 GitHub 仓库 TinyAway/SEMPNet 包含 iSAID 数据准备、SAM mask generation 和训练脚本。

这一路线的关键风险是：SAM 候选 mask 的召回率决定上限。如果小目标、细长道路、贴近建筑或阴影区域没有被 SAM 候选覆盖，后面的语义分类再好也救不回来。

2.3 视觉参考 prompt：PerSAM / VRP-SAM / ProSAM

PerSAM 是 reference-guided SAM 的经典简单基线：给一张参考图和 mask，在不训练的情况下分割目标视觉概念；PerSAM-F 只训练两个 mask weight，属于极低参数 one-shot adaptation。它不是遥感论文，但适合作为 RS few-shot 的 training-free baseline。

VRP-SAM 是 CVPR 2024 方法，官方 GitHub 是 syp2ysy/VRP-SAM。它训练外部 Visual Reference Prompt Encoder，从参考图像/mask 中提取视觉参考信息，为 SAM 自动生成 prompt；仓库说明支持 point、scribble、box、mask 等 condition。它主要在 PASCAL-5i 和 COCO-20i 上评测，但对遥感很有迁移价值：遥感支持集也可以看作 visual reference，只是需要解决域差异和小目标密集问题。

ProSAM 是 ICCV 2025 方法，关注 visual reference prompt 的鲁棒性。它指出很多 SAM-based visual reference 方法会把 prompt 生成在目标边界或不稳定区域，导致结果不稳；因此学习 probabilistic prompts，避免落在不鲁棒位置。对遥感尤其重要，因为建筑边界、道路边缘、船/飞机等小目标附近背景干扰很强。

2.4 视觉 + 语言参考 prompt：VLP-SAM

VLP-SAM 在视觉参考之外加入文本标签语义，官方 GitHub 是 kosukesakurai1/VLP-SAM。它的迁移意义是：遥感类别词如 building、airplane、ship、cropland、water 可以提供类别语义，但自然语言标签也会带来粒度不匹配，例如 field、farmland、crop、rice 在遥感数据集里不是同一层级。若与 RemoteCLIP/GeoRSCLIP 结合，可以把文本语义替换成遥感图文预训练空间中的类别原型。

2.5 遥感专用 reference-guided SAM：ViRefSAM

ViRefSAM 是 RS-11 最核心的近年论文。arXiv 摘要显示它面向 remote sensing segmentation，使用少量带类别对象的 annotated reference images 自动分割目标图像中的同类对象。它引入两个关键部件：

Visual Contextual Prompt Encoder：从参考图像提取 class-specific semantic clues，并通过与目标图像交互产生 object-aware prompts。
Dynamic Target Alignment Adapter：插入 SAM image encoder，以类别相关语义缓解自然图像 SAM 与遥感图像之间的 domain gap。

它在 iSAID-5i、LoveDA-2i 和 COCO-20i 上评测，正好覆盖本条目的两个目标遥感 benchmark。

3. 代表论文/项目表

方法	年份/venue	是否遥感专用	是否训练	输入参考	与 SAM/CLIP 对齐方式	链接
Self-guided FSS for RSI based on LVMs	2023 arXiv，作为背景	是	需要训练/适配	support mask / prior mask	prior guided mask 产生 coarse pixel-wise prompt	arXiv
SAM-RSP	2024 Image and Vision Computing / SSRN	否，可迁移	训练 decoder	support image/mask	prototype + rough segmentation prompt + SAM query embedding	SSRN, GitHub
SEMPNet	2024/2025 IJGIS	是	训练 mask parsing network	support image/mask	SAM 生成候选 mask，few-shot 模块做语义解析	paper, GitHub
PerSAM / PerSAM-F	2023，作为强基线	否，可迁移	PerSAM 不训练；PerSAM-F 训练极少参数	1 张 reference image + mask	reference-target 相似度生成 prompt / mask 权重	GitHub
VRP-SAM	2024 CVPR	否，可迁移	训练 visual reference prompt encoder	point/scribble/box/mask reference	external VRP encoder 自动生成 SAM prompts	CVF, GitHub
VLP-SAM	2025 arXiv	否，可迁移	训练	visual reference + text label	visual prompt + language prompt，可接 CLIP/RS-CLIP	arXiv, GitHub
ProSAM	2025 ICCV	否，可迁移	训练 prompt distribution	visual reference	probabilistic prompts，避免不稳定边界点	CVF
ViRefSAM	2025 arXiv / 2026 TGRS 线索	是	训练 VCP encoder + adapter	1-5 张 RS reference image/mask	Visual Contextual Prompt Encoder + Dynamic Target Alignment Adapter	arXiv
SAM-Aug	2026 arXiv	是，时序地块	插件式/少训练	few-shot parcel labels	SAM priors 作为 parcel segmentation regularizer	arXiv

4. 关键比较

是否需要训练

Training-free：PerSAM 是最轻量 baseline，但对遥感类别变化、背景干扰和多实例召回不一定稳。
轻量训练：PerSAM-F、SAM-RSP decoder、VLP-SAM prompt 模块适合做低成本适配。
遥感域训练：SEMPNet、ViRefSAM 更贴近 iSAID/LoveDA，但需要注意 benchmark split、公平 baseline 和数据泄漏。

如何选参考样本

参考样本不是随机越多越好。遥感中同类目标跨尺度、区域和背景差异大，建议比较四种选择策略：

random support：标准 few-shot baseline。
diversity support：用 DINO/RemoteCLIP embedding 选择外观多样的 support。
geography-aware support：避免 support 和 query 来自同一场景瓦片，测试真正跨区域能力。
prototype-quality support：根据 mask 面积、边界清晰度、遮挡/阴影比例筛选 reference。

如何与 RS-CLIP/SAM 特征对齐

一个合理结构是三路对齐：

SAM image encoder：提供边界和局部结构特征。
RS-CLIP/RemoteCLIP/GeoRSCLIP：提供遥感类别语义与文本标签对齐。
Reference prototype：从 1-5 张 support mask pooling 得到类别视觉原型。

可研究的小模块：用 cross-attention 让 reference prototype 查询 target feature；再把响应图转成 SAM point/box/mask prompt；最后用 RS-CLIP 文本原型过滤错误候选。这样可以把 ViRefSAM 的视觉参考、VLP-SAM 的语言参考、SEMPNet 的 mask parsing 合到一个统一 pipeline。

5. 现有问题

Prompt 稳定性不足：reference 生成的点容易落在边界、阴影或相邻实例之间，ProSAM 指出的 instability 在遥感小目标中会更明显。
候选 mask 召回决定上限：SEMPNet 类方法若 SAM 自动 mask 漏掉细长道路、小船、小车，后续语义解析无法恢复。
参考样本选择被低估：few-shot 论文常随机 support，但遥感中 support 的地理区域、尺度、背景和成像条件会显著影响结果。
SAM 与遥感域差异：SAM 在自然图像上预训练，面对俯视目标、重复纹理、低对比边界和地物混合像元时需要 adapter 或 domain-specific prompt。
类别语义粒度冲突：LoveDA/iSAID 的类别与自然语言标签、RemoteCLIP 文本空间不一定一致。
Patch 化造成不一致：大幅面遥感图像切片后，同一类对象在不同 tile 上可能 prototype 漂移，拼接后边界断裂。

6. 推荐实验方案：iSAID-5i / LoveDA-2i

6.1 数据与 split

iSAID-5i：基于 iSAID 航空影像，适合目标类、小目标和密集实例；建议遵循 ViRefSAM 使用的 few-shot fold。
LoveDA-2i：城乡遥感语义分割，适合测试跨域、背景复杂和 land-cover 类别。
每个 fold 做 1-shot、3-shot、5-shot；每个 shot 至少 5 个随机种子。
增加 geography-aware split：support/query 不允许来自同一原始大图或邻近瓦片，降低空间泄漏。

6.2 Baseline

必须比较三类 baseline：

传统 FSS：PFENet、HSNet、CyCTR 或近年 RS-FSS 方法。
SAM-reference：PerSAM、VRP-SAM、SAM-RSP、VLP-SAM。
遥感 SAM-reference：SEMPNet、ViRefSAM。

6.3 指标

mIoU / class mIoU：主指标。
novel mIoU / base mIoU / harmonic IoU：若做 generalized few-shot。
Boundary F-score：评估 SAM 是否真的改善边界。
Small-object IoU：按目标面积分桶，专门看小目标。
Prompt cost：需要人工点/框/mask 数量；reference-guided 方法应统计人工成本。
Runtime / GPU memory：SAM-H、SAM-B、SAM2、adapter 方法差异很大。
Support sensitivity：不同 support 选择策略下的均值、方差和最坏性能。

6.4 最小复现矩阵

实验	模型	变量	目的
E1	PerSAM, VRP-SAM, ViRefSAM	1/3/5-shot	看 reference 数量是否稳定提升
E2	ViRefSAM w/o adapter	adapter 开/关	验证遥感域对齐是否必要
E3	SEMPNet w/o SAM masks	SAM 候选开/关	验证候选 mask 对上限的影响
E4	VLP-SAM + RemoteCLIP	text label / RS text prototype	测语言语义是否减少类混淆
E5	ProSAM-style probabilistic prompt	deterministic / probabilistic prompt	测边界附近 prompt 稳定性
E6	random/diverse/geography-aware support	support 选择策略	测参考样本选择对遥感泛化的影响

7. 一个可投稿的小课题

题目草案：GeoRef-SAM: Geography-Aware Visual Reference Prompting for Few-Shot Remote Sensing Segmentation

核心假设：在遥感 few-shot segmentation 中，reference prompt 的失败主要来自两个来源：support 样本不代表 query 的地理/尺度变化，以及 prompt 点落在不稳定边界或背景区域。若同时做 geography-aware support selection 和 probabilistic prompt generation，可以比单纯增加 shot 数更稳定地提升 novel-class segmentation。

方法草图：

用 RemoteCLIP/DINO/SAM encoder 从候选 support 中选多样且边界清晰的 reference。
在 support mask 内提取 class prototype，同时提取 boundary-negative prototype。
用 prototype-target cross-attention 生成响应图。
将响应图转为 probabilistic point/box/mask prompt：中心区域给正点，混淆边界给低权重，背景相似区域给负点。
调用 SAM/SAM2 decoder 生成候选 mask，再用 RS-CLIP 文本原型和 support prototype 二次筛选。
训练时只更新 reference prompt encoder、轻量 adapter 或 LoRA，冻结 SAM 主体。

预期贡献：

一个 geography-aware reference selection protocol。
一个 uncertainty/probability-aware prompt generator，专门避免遥感边界不稳定点。
一套 iSAID-5i/LoveDA-2i 的 support sensitivity 评测，而不是只报随机均值。

Contents

RS-11 Reference-Guided SAM for Few-Shot Remote Sensing Segmentation

RS-11 Reference-Guided SAM for Few-Shot Remote Sensing Segmentation

1. 问题由来

2. 方法脉络

2.1 粗 prompt / prototype 驱动 SAM

2.2 SAM mask candidate + 支持集语义解析

2.3 视觉参考 prompt：PerSAM / VRP-SAM / ProSAM

2.4 视觉 + 语言参考 prompt：VLP-SAM

2.5 遥感专用 reference-guided SAM：ViRefSAM

3. 代表论文/项目表

4. 关键比较

是否需要训练

如何选参考样本

如何与 RS-CLIP/SAM 特征对齐

5. 现有问题

6. 推荐实验方案：iSAID-5i / LoveDA-2i

6.1 数据与 split

6.2 Baseline

6.3 指标

6.4 最小复现矩阵

7. 一个可投稿的小课题

8. 后续阅读队列

Related Content

评论

RS-11 Reference-Guided SAM for Few-Shot Remote Sensing Segmentation

RS-11 Reference-Guided SAM for Few-Shot Remote Sensing Segmentation

1. 问题由来

2. 方法脉络

2.1 粗 prompt / prototype 驱动 SAM

2.2 SAM mask candidate + 支持集语义解析

2.3 视觉参考 prompt：PerSAM / VRP-SAM / ProSAM

2.4 视觉 + 语言参考 prompt：VLP-SAM

2.5 遥感专用 reference-guided SAM：ViRefSAM

3. 代表论文/项目表

4. 关键比较

是否需要训练

如何选参考样本

如何与 RS-CLIP/SAM 特征对齐

5. 现有问题

6. 推荐实验方案：iSAID-5i / LoveDA-2i

6.1 数据与 split

6.2 Baseline

6.3 指标

6.4 最小复现矩阵

7. 一个可投稿的小课题

8. 后续阅读队列

Related Content

Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM

RS-15 Taxonomy-Aware Mask Selection

RS-14 SAM3 Presence Score Calibration for Remote Sensing OVSS

RS-13 SAM2 Geographic Memory for Multi-Temporal Remote Sensing

RS-12 Training-Free Open-Vocabulary Remote Sensing Segmentation

评论