提示式分割 - Tag - 堂堂一跑堂

RS-15 Taxonomy-Aware Mask Selection

Sun, 07 Jun 2026 09:14:00 +0800

RS-15 Taxonomy-Aware Mask Selection

1. 问题由来

开放词表遥感分割通常把问题拆成两步：先用 SAM/SAM3 或分割骨干产生候选 mask，再用 CLIP/RemoteCLIP/RS-CLIP/VLM 对 mask 和类别文本打分。这个范式解决了“类别不固定”的问题，但在遥感里很快遇到层级标签冲突：

building 是父类，residential building、industrial building、damaged building 是子类或属性组合。预测父类未必是错，但用 flat mIoU 会被当成全错。
road、highway、runway 在俯视图中都可能是细长硬质铺装面；CLIP 文本 embedding 很容易被纹理和形状牵着走。
crop、field、rice、farmland 混合了土地覆盖、土地利用、作物类型和地块对象，跨数据集 label 定义不一致。
同一个 mask 可能同时属于多个层级：一片 impervious surface 里面包含 road、parking lot、building roof；一个 water mask 可能是 river、lake、pond 或 flood water。

因此，RS-15 的研究对象不是泛泛的“遥感语义分割”，而是一个更窄的问题：当候选 mask 和开放词表类别已经给出时，如何利用层级 taxonomy、语义相似度、地理/几何先验和父子一致性来选择最终 mask label，并用更合理的指标评价预测？

2. 代表论文与项目

论文/项目	年份/venue	链接	代码/项目	与 RS-15 的关系
SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images	2024 arXiv / 2025 CVPR	arXiv, CVF PDF, project	项目页称代码释放	训练自由遥感 OVSS 基线；证明 CLIP patch token 与低分辨率边界在 RS 中不稳，可作为 taxonomy-aware mask selection 的底座。
ReSeg-CLIP: Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition	2026 arXiv	arXiv	未检索到稳定官方代码	用 SAM mask 做 hierarchical attention masking；“hierarchical”主要是 mask/attention 多尺度，不是语义 taxonomy，但方法结构很适合接入 taxonomy 约束。
ConInfer: Context-Aware Inference for Training-Free Open-Vocabulary Remote Sensing Segmentation	2026 arXiv / CVPR 2026 Findings	arXiv, CVF PDF	GitHub	从独立 patch 推理转向上下文联合推理；可扩展为“区域间 label 层级一致性/互斥性”推理。
HG-RSOVSSeg: Hierarchical Guidance Open-Vocabulary Semantic Segmentation Framework of High-Resolution Remote Sensing Images	2026 Remote Sensing	MDPI	文中给出 GitHub	直接以 hierarchical guidance 命名；重点是文本引导高分辨率 decoder，可作为层级文本特征构造参考。
Reducing Semantic Ambiguity in Open-Vocabulary Remote Sensing Image Segmentation via Knowledge Graph-Enhanced Class Representations	2025 ISPRS JPRS	ScienceDirect	未见稳定官方代码	最贴近 RS-15：用 knowledge graph 缓解开放词表 RS segmentation 的语义歧义。适合作为 taxonomy-aware text embedding 的直接对照。
DGSeg: Dual Guidance with Textual Priors and Structural Awareness for Open-Vocabulary Remote Sensing Segmentation	2026 Computers & Geosciences	ScienceDirect	GitHub	同时处理文本语义和结构边界，适合比较“文本先验 + 几何结构”与 taxonomy-aware mask selection 的互补性。
Towards Open-Vocabulary Semantic Segmentation for Remote Sensing Images / ROSS	2026 Pattern Recognition	ScienceDirect	未见稳定官方代码	强调旋转、领域知识、多尺度融合，说明遥感 OVSS 的语义混淆和空间边界需要同时处理。
Effective SAM Combination for Open-Vocabulary Semantic Segmentation / ESC-Net	2024 arXiv / 2025 CVPR	arXiv, CVF PDF	未见稳定官方代码	CV 侧 SAM+CLIP 组合路线，可迁移到 RS：用图文相关生成 pseudo prompt，减少两阶段高成本。
Open-World Semantic Segmentation Including Class Similarity	2024 CVPR	CVF	论文页有补充材料	不是遥感，但提出“未知类与已知类相似度”思想；可转成 hierarchy-aware / semantic-distance metric。
Flattening the Parent Bias: Hierarchical Semantic Segmentation in the Poincare Ball	2024 CVPR	CVPR poster	论文页 PDF	提醒不要迷信层级结构：如果父类 bias 处理不好，层级监督可能反而伤害跨域泛化。
Fusion of Hierarchical Class Graphs for Remote Sensing Semantic Segmentation	2024 Information Fusion	ScienceDirect	未见稳定官方代码	遥感固定类分割里的 class hierarchy graph，可迁移为开放词表 mask selection 的 taxonomy graph。
SHiNe: Semantic Hierarchy Nexus for Open-Vocabulary Object Detection	2024 CVPR	CVF PDF	需进一步查证	检测方向的层级语义建模，可借鉴文本类别图和父子节点融合方式。

3. 方法比较：当前路线缺什么

路线	典型方法	优点	对 RS-15 的缺口
CLIP patch scoring	SegEarth-OV, DGSeg, ROSS	训练自由或少训练，开放词表灵活	类别词平面化，`road/highway/runway` 这种近义/层级冲突难解
SAM mask proposal + CLIP classification	ReSeg-CLIP, ESC-Net, OVSAM 类方法	mask 边界好，能避免纯 patch 噪声	一个 mask 可能对应父类和子类，缺少父子一致性约束
上下文联合推理	ConInfer	缓解大图 patch 独立预测导致的类别漂移	上下文通常是空间/语义相关，未显式建模 taxonomy graph
知识图谱/层级文本增强	KG-OVRSeg, HG-RSOVSSeg, SHiNe	能显式利用类别关系和同义词	需要解决遥感 taxonomy 不统一、图谱噪声和跨数据集 label 映射
层级语义分割指标	Flattening Parent Bias, Open-world class similarity	能缓解父子类误判被 flat mIoU 惩罚过重	需要为遥感 land-cover/object/use 混合标签定义语义距离

关键空白：目前遥感 OVSS 多数方法把类别列表当成 flat vocabulary；即便方法名里有 hierarchical，也常指 feature/mask hierarchy，而不是语义 taxonomy。 RS-15 可以把贡献落在“后处理/推理层”的 taxonomy-aware mask selection 上，避免重新训练大模型，研究成本相对可控。

RS-14 SAM3 Presence Score Calibration for Remote Sensing OVSS

Sun, 07 Jun 2026 09:13:00 +0800

RS-14 SAM3 Presence Score Calibration for Remote Sensing OVSS

1. 研究问题

细问题：SAM3 的 presence score 被设计成“概念是否存在”的全局判别信号。SegEarth-OV3 将它用于遥感开放词表语义分割，过滤大词表和 patch-level 推理中不存在类别造成的 false positives。RS-14 关注的不是“做一个遥感开放词表分割模型”，而是一个更窄的环节：

当遥感大图被切成多个 patch，并且输入词表包含大量同义词、层级词、对象词和土地覆盖词时，如何校准 SAM3/SegEarth-OV3 的 presence score，使它更可靠地区分“该类别真的在当前区域出现”与“语义相近、尺度不匹配或上下文诱导的误检”？

这个方向适合做成一个小论文，因为它抓住了 SAM3 相比 SAM/SAM2 的新能力：SAM/SAM2 主要是 class-agnostic mask generator，SAM3 引入 promptable concept segmentation，能直接接收文本/示例图像概念，并通过 presence head 把“识别是什么”和“定位在哪里”解耦。遥感 OVSS 的痛点恰好在于：类别词表大、概念层级混乱、patch 切片破坏场景上下文、自然图像概念和遥感概念不完全对齐。

2. 问题由来

2.1 SAM 到 SAM3 的变化

SAM/SAM2 在遥感中已经被广泛用作边界生成器，但它们本质上不知道“这个 mask 是建筑还是道路”。开放词表遥感分割通常要把 CLIP/RS-CLIP/DINO/VLM 的语义分数和 SAM mask 融合：语义模型负责类别，SAM 负责边界。这会带来两个典型问题：

语义分数高但 mask 不对：例如把停车场纹理误当作建筑。
mask 边界好但类别不对：例如道路、跑道、河流、裸地这些长条或低纹理区域容易互相混。

SAM3 的新接口是 promptable concept segmentation。Hugging Face 文档将 SAM3 描述为能基于文本或图像示例概念返回实例/语义 mask，并指出 recognition/localization 通过 presence head 解耦；Ultralytics 文档也强调了 presence head 用于全局概念存在判断。对遥感来说，这意味着我们不必只依赖 CLIP similarity 后验去猜类别，而是可以利用 SAM3 自带的 presence score 作为“类别是否存在”的门控。

RS-13 SAM2 Geographic Memory for Multi-Temporal Remote Sensing

Sun, 07 Jun 2026 09:12:00 +0800

RS-13 SAM2 Geographic Memory for Multi-Temporal Remote Sensing

细问题：如何把 SAM2 的 video streaming memory 改造成遥感多时相 memory，用于农田边界、灾害水体或施工变化等光学遥感任务。

结论摘要

SAM2 的真正新能力不是“又一个更强 SAM”，而是它把交互式分割扩展到视频：给某一帧提示后，模型可以用 streaming memory 在后续帧传播对象 mask。这个机制天然吸引遥感多时相任务，但不能直接把 Sentinel-2/Landsat/航空影像时间序列当作视频来跑。自然视频中的相邻帧通常是秒级连续运动；遥感多时相是天、月、季、年级间隔，存在云影、季节物候、传感器差异、配准误差、GSD 差异和真实地物变化。

因此，值得研究的小问题是：把 SAM2 的“帧序 memory”改为“地理位置/对象/季节/传感器条件化 memory”。换句话说，memory 不应该只问“上一帧这个对象在哪里”，而应该问：

这个对象或地块在同一地理坐标下是否应该保持身份？
当前影像是否因云、阴影、季节、传感器或配准误差而不适合更新 memory？
mask 变化是真变化，还是视觉外观变化？
对农田边界、水体、建筑施工这三类不同变化速度的对象，memory 更新策略是否应该不同？

代表论文与项目

论文/项目	年份/来源	链接	代码/资源	与本细问题的关系
SAM 2: Segment Anything in Images and Videos	2024 arXiv / ICLR 2025	arXiv, Meta page	facebookresearch/sam2	提供 streaming memory、promptable video segmentation 和 image/video unified architecture，是“多时相 memory”灵感来源。
Grounded SAM 2	2024 GitHub project	GitHub	同链接	将 Grounding DINO/Florence-2/DINO-X 与 SAM2 结合，实现 text grounding + video tracking；可迁移为遥感“文本提示 + 时序 mask 传播”基线。
RS2-SAM2: Customized SAM2 for Referring Remote Sensing Image Segmentation	2025 arXiv / AAAI 2026	arXiv, AAAI PDF	未核验到稳定官方 GitHub	面向遥感 referring segmentation，提出 union encoder、层级融合、pseudo-mask dense prompt、text-guided boundary loss；可作为“语义提示生成器”接入多时相 SAM2。
RSRefSeg 2	2025 arXiv	arXiv	KyanChen/RSRefSeg2	用 CLIP 做粗定位、SAM 做精分割，说明遥感文本/区域提示与 SAM 协作是可行路线。
SAM2-CD: Remote Sensing Image Change Detection with SAM2	2025 IEEE JSTARS	DOI summary	未核验到官方 GitHub	直接把 SAM2 适配到变化检测，指出 vanilla SAM2 在 RS-CD 中受 single-image bias 和 contextual granularity mismatch 限制。
Remote SAMsing	2026 arXiv	arXiv	论文称 open-source pipeline，需进一步核验仓库	关注 SAM2 在大幅面遥感中的 coverage-quality trade-off 与 tile fragmentation；对多时相大图 memory 的 tile 合并很关键。
SAM2-ARAFNet	2026 Scientific Reports	PMC	未核验到官方代码	将 SAM2-Hiera 与 adapter/ASPP/蒸馏结合做高分遥感语义分割；说明 SAM2 encoder 可作为遥感密集预测基座。
Adaptive SAM2 for Planted Field Segmentation	2026 IJDE	Taylor & Francis	未核验到官方代码	使用 SAM2 prompt 做种植地块分割，明确提到生长季多时相影像有助于区分作物纹理/光谱差异。
SegTS: Subseries-driven Temporo-Spatial Learning with SAM	2026 Computers and Electronics in Agriculture	ScienceDirect	未核验到官方代码	不是 SAM2，但它把 SAM-derived temporo-spatial knowledge 用于 SITS crop segmentation，并处理云过滤和子序列建模，是“遥感时间不是自然视频”的重要参照。
SAMWS: SAM-based Weakly Supervised Crop Mapping using Sentinel-2 Time Series	2024 IJAEOG	ScienceDirect	Nick0317Sun/SAMWS	用 SAM 与弱监督构造 Sentinel-2 time series crop mapping 管线，适合作为低标注农业实验基线。
fabSAM / FieldSeg / Field Boundary SAM 系列	2025-2026 arXiv/ScienceDirect	fabSAM arXiv, FieldSeg	需逐篇核验	农田边界是最适合“地理记忆”的对象：边界较稳定，但内部作物纹理随季节变化。
OmniCD / TERRA-CD / Changen2 / AnyTime-CD	2024-2026 arXiv/RSE	OmniCD, TERRA-CD, Changen2, AnyTime-CD	部分代码待核验	这些是传统或新型多时相/变化检测强基线，必须和 SAM2 memory 路线公平比较。

问题由来

SAM2 的 memory 假设

SAM2 将图像看成单帧视频，并为视频分割引入 streaming memory。自然视频里的 memory 主要解决对象跨帧传播：对象身份大致连续，外观变化平滑，帧间位移可由视觉相似性和短期记忆处理。

RS-12 Training-Free Open-Vocabulary Remote Sensing Segmentation

Sun, 07 Jun 2026 09:11:00 +0800

RS-12 Training-Free Open-Vocabulary Remote Sensing Segmentation

范围：光学/航空/卫星遥感为主；关注 training-free 或接近 training-free 的 open-vocabulary semantic segmentation (OVSS/OVRSS/OVRSIS)，并比较 CLIP token、SAM mask、DINO feature、上下文推理的组合方式。

1. 问题由来

遥感语义分割长期依赖封闭类别：训练集里有 building/road/water/crop，测试时也只能预测这些类。但真实地理应用经常要临时查询新类别，比如“洪水淹没道路”“停车场”“光伏板”“裸土中的采矿坑”。重新标注像素级数据成本很高，于是 open-vocabulary segmentation 变得很诱人。

把自然图像 OVSS 直接搬到遥感会遇到三个硬问题：

遥感目标方向任意、尺度跨度大。自然图像里的 CLIP patch similarity 在遥感小目标、旋转目标上容易粗糙。
遥感影像通常是大场景，独立 tile 预测会破坏道路、水体、农田等空间连续性。
类别语义层级复杂。impervious surface/road/runway/building、field/crop/rice、water/river/lake/flood 之间存在父子和重叠关系，简单 prompt matching 会产生类别漂移。

因此 2024-2026 的主线不是“重新训练一个遥感分割网络”，而是把已有 foundation model 的能力组合起来：CLIP/RS-CLIP 提供文本语义，SAM 提供候选 mask 和边界，DINO/DINOv3 提供更强 patch feature，上下文推理负责跨 tile 或跨 region 一致性。

2. 代表论文与代码

方法	年份/来源	训练需求	关键组件	官方链接	核心贡献
OVRS / Open-Vocabulary Remote Sensing Image Semantic Segmentation	2024 arXiv	需要方法训练/基准构造	CLIP similarity、rotation aggregation、multi-scale refinement	arXiv, GitHub	面向遥感 OVS 的早期系统框架；提出旋转聚合相似度和尺度感知上采样，并开源 4 个遥感数据集基准。
SegEarth-OV	2025 CVPR Oral	推理主流程 training-free；SimFeatUp 有预训练组件	CLIP patch token、CLS subtraction、SimFeatUp	Project, CVPR PDF, GitHub	观察 CLIP local patch token 受 global CLS bias 干扰，用 CLS token subtraction 缓解全局偏置，用 SimFeatUp 恢复空间细节；在 17 个遥感数据集上覆盖语义分割、建筑、道路、水体/洪水。
AerOSeg	2025 CVPRW EarthVision	有方法组件/可能轻训练	SAM-guided OVS、旋转增强图文相关特征	CVPRW PDF	使用 SAM 边界/空间先验增强开放词表遥感分割，强调遥感旋转和空间 refinement。
ReSeg-CLIP	2026 arXiv	training-free	SAM hierarchical masks、RS-CLIP model composition	arXiv	用 SAM 多尺度 mask 限制 CLIP self-attention 交互，并组合多个遥感 CLIP 变体；目标是无需额外训练提升 OVSS。
Enabling Training-Free Text-Based Remote Sensing Segmentation	2026 CVPRW EarthVision	完全 zero-shot 或轻量 LoRA	CLIP mask selector、SAM grid masks、GPT/Qwen-VL click prompts	CVF, arXiv, GitHub	训练自由地把 CLIP 用作 SAM grid mask selector；同时用生成式 VLM 产生 click prompts，覆盖 OVSS、referring 和 reasoning segmentation。
ConInfer	2026 CVPR Findings	inference-only framework	context-aware joint inference、inter-unit semantic dependencies	arXiv, CVPR PDF, GitHub	指出 patch 独立预测与遥感大场景空间语义相关性不匹配；通过多空间单元联合预测提升一致性和泛化。
Towards Realistic OVRS Segmentation / Pi-Seg	2026 arXiv	需要训练 baseline，但贡献在 benchmark	OVRSISBenchV2、OVRSIS95K、positive-incentive noise	arXiv, GitHub	构建更真实的大规模 OVRSIS benchmark：约 170K images、128 categories，并加入建筑、道路、洪水等应用协议。
DINO Soars / CAFe-DINO	2026 arXiv	主干不做遥感 fine-tuning；在 RS-targeted COCO-Stuff 子集微调	DINOv3/DINO.txt、cost aggregation、feature upsampling	arXiv, GitHub	利用 DINOv3 的 dense feature 和 DINO.txt 的开放词表能力，强调比 CLIP-style dense similarity 更适合遥感 OVSS。
dinov3.seg	2026 arXiv, CV 通用	非遥感专用	DINOv3 local/global alignment、early/late refinement、sliding-window aggregation	arXiv	通用 OVSS 方向的重要可迁移方法；其 high-resolution local-global inference 对遥感大图有直接借鉴价值。

3. 方法脉络比较

3.1 CLIP Token 路线

代表：OVRS、SegEarth-OV、ReSeg-CLIP、CVPRW 2026 text-based segmentation。

RS-11 Reference-Guided SAM for Few-Shot Remote Sensing Segmentation

Sun, 07 Jun 2026 09:10:00 +0800

RS-11 Reference-Guided SAM for Few-Shot Remote Sensing Segmentation

1. 问题由来

遥感 few-shot segmentation 的难点不是单纯“样本少”，而是样本少叠加了遥感特有的数据形态：俯视视角、小目标密集、尺度变化大、同类跨区域外观差异大、背景纹理容易和目标混淆。传统 few-shot segmentation 通常用 support image/mask 学一个 prototype，再去 query image 上匹配；它能带来类别语义，但边界往往粗。SAM 则相反：边界和候选 mask 很强，但它是 category-agnostic，需要点、框、mask 等 prompt 才知道要分哪个对象。

因此 2024-2026 的一个自然小方向是：让少量参考图像自动给 SAM 生成提示，或者生成类别 prototype，再把 SAM 的边界能力和 few-shot 的语义能力合起来。RS-11 的核心问题可以表述为：

给定 1-5 张带 mask 的遥感参考图像，如何自动在目标遥感图像中找到同类地物，并生成足够稳定的 SAM prompt / prototype，使模型既不需要人工点框，又能保持遥感小目标和复杂边界质量？

2. 方法脉络

2.1 粗 prompt / prototype 驱动 SAM

SAM-RSP 将 few-shot prototype 与 SAM 结合：用 SAM encoder 感知 query 的区域边界，再用传统 few-shot backbone 产生 rough segmentation prompt，最后用 prompt transformer decoder 融合 query embedding、prompt 和 prototype。它不是遥感专用，但思路直接可迁移：prototype 提供“是什么”，SAM 提供“边界在哪里”。论文页明确给出代码链接 https://github.com/Jiaguang-NEU/SAM-RSP。