RS-14 SAM3 Presence Score Calibration for Remote Sensing OVSS
RS-14 SAM3 Presence Score Calibration for Remote Sensing OVSS
1. 研究问题
细问题:SAM3 的 presence score 被设计成“概念是否存在”的全局判别信号。SegEarth-OV3 将它用于遥感开放词表语义分割,过滤大词表和 patch-level 推理中不存在类别造成的 false positives。RS-14 关注的不是“做一个遥感开放词表分割模型”,而是一个更窄的环节:
当遥感大图被切成多个 patch,并且输入词表包含大量同义词、层级词、对象词和土地覆盖词时,如何校准 SAM3/SegEarth-OV3 的 presence score,使它更可靠地区分“该类别真的在当前区域出现”与“语义相近、尺度不匹配或上下文诱导的误检”?
这个方向适合做成一个小论文,因为它抓住了 SAM3 相比 SAM/SAM2 的新能力:SAM/SAM2 主要是 class-agnostic mask generator,SAM3 引入 promptable concept segmentation,能直接接收文本/示例图像概念,并通过 presence head 把“识别是什么”和“定位在哪里”解耦。遥感 OVSS 的痛点恰好在于:类别词表大、概念层级混乱、patch 切片破坏场景上下文、自然图像概念和遥感概念不完全对齐。
2. 问题由来
2.1 SAM 到 SAM3 的变化
SAM/SAM2 在遥感中已经被广泛用作边界生成器,但它们本质上不知道“这个 mask 是建筑还是道路”。开放词表遥感分割通常要把 CLIP/RS-CLIP/DINO/VLM 的语义分数和 SAM mask 融合:语义模型负责类别,SAM 负责边界。这会带来两个典型问题:
- 语义分数高但 mask 不对:例如把停车场纹理误当作建筑。
- mask 边界好但类别不对:例如道路、跑道、河流、裸地这些长条或低纹理区域容易互相混。
SAM3 的新接口是 promptable concept segmentation。Hugging Face 文档将 SAM3 描述为能基于文本或图像示例概念返回实例/语义 mask,并指出 recognition/localization 通过 presence head 解耦;Ultralytics 文档也强调了 presence head 用于全局概念存在判断。对遥感来说,这意味着我们不必只依赖 CLIP similarity 后验去猜类别,而是可以利用 SAM3 自带的 presence score 作为“类别是否存在”的门控。
2.2 SegEarth-OV3 为什么需要 presence-guided filtering
SegEarth-OV3 的官方 GitHub README 明确给出三步 pipeline:
- instance aggregation:合并稀疏对象预测;
- dual-head mask fusion:融合 instance head 的细粒度细节和 semantic head 的全局覆盖;
- presence-guided filtering:用 presence score 抑制 absent categories 的 false positives。
arXiv 摘要同样指出,SegEarth-OV3 使用 SAM3 presence head 的 presence score 过滤场景中不存在的类别,减少大词表和 geospatial patch-level processing 带来的误检。
这正是 RS-14 的切入点:SegEarth-OV3 已经证明 presence score 有用,但它更像一个工程过滤器。遥感场景下,这个分数很可能需要专门校准,而不是使用统一阈值。
2.3 遥感 OVSS 为什么比自然图像更需要校准
遥感开放词表分割有几类独特干扰:
- 大图 patch 化:一个 10k x 10k 影像被切成很多 patch,某类别可能在整图存在但在当前 patch 不存在;也可能 patch 太小,只看到局部纹理,导致 presence score 误判。
- 类别层级混合:
building、residential building、damaged building;road、highway、runway;water、river、lake不是同一层级,但常被放在同一个词表里。 - land-cover 与 object 混用:
impervious surface是覆盖类型,building是对象;vegetation是覆盖类型,tree是对象;presence 的含义不一样。 - 尺度依赖强:同样是
car,在 5cm GSD 航空影像可见,在 10m Sentinel-2 中不可见;统一阈值会把尺度不可见当成类别不存在或误检。 - 地理先验显著:
rice paddy、snow、desert、harbor、runway的出现概率与地理区域、季节、近水/近城市上下文有关,但先验不能替代图像证据。
所以,presence calibration 的目标不是简单“提高阈值减少 false positive”,而是在不同词、尺度、场景、patch 层级下,让分数具有可解释的概率意义。
3. 代表论文与项目
| 论文/项目 | 年份/venue | 链接 | 官方代码/资源 | 与 RS-14 的关系 |
|---|---|---|---|---|
| SAM 3: Segment Anything with Concepts | 2025/ICLR 2026 | OpenReview PDF, HF docs, Ultralytics docs | facebookresearch/sam3 | presence head 来源;将 concept presence 和 mask localization 解耦。 |
| SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images | 2025 arXiv | arXiv | GitHub | 直接将 SAM3 presence score 用于遥感 OVSS、变化检测和 3D segmentation 的 false positive filtering。 |
| SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images | 2025 CVPR | CVF PDF, project | project/code | SegEarth-OV3 的前身;CLIP/SAM training-free OVSS 基线,适合比较“无 presence head”时的误检。 |
| ReSeg-CLIP | 2026 arXiv | arXiv | 未见明确官方代码 | 利用 SAM mask 做 hierarchical attention masking,并组合 RS-CLIP;适合作为 SAM-mask + CLIP semantic calibration 对照。 |
| ConInfer | 2026 CVPRF/arXiv | arXiv, CVF PDF | GitHub | 训练自由的上下文推理;说明 patch 独立预测会导致类别不一致,presence calibration 可吸收上下文一致性。 |
| Towards Realistic Open-Vocabulary Remote Sensing Segmentation: Benchmark and Baseline | 2026 arXiv | arXiv | GitHub branch | 提出更现实的 OVRSISBenchV2/OVRSIS95K;适合作为 calibration benchmark。 |
| DINO Soars | 2026 arXiv | arXiv | GitHub | DINOv3 + text 的遥感 OVSS;可作为非 SAM3 的强开放词表分割 baseline。 |
| AerOSeg | 2025 arXiv/CVPRW EarthVision | arXiv | 未见明确官方代码 | 使用 SAM 引导开放词表遥感分割;可比较 SAM 特征引导与 SAM3 presence filtering。 |
| Remote SAMsing | 2026 arXiv | arXiv | 论文称 open-source pipeline | 证明遥感大图中 tile size 影响 mask coverage/quality,提示 presence score 也应随 tile/GSD/coverage 校准。 |
| From Pixels to Concepts: Do Segmentation Models Understand What They Segment? | 2026 arXiv | arXiv | 未见官方代码 | 直接质疑 SAM3 类概念分割是否真正理解查询概念,适合作为语义一致性评测参考。 |
| DisDop | 2026 arXiv | arXiv | 未见明确官方代码 | 开放词表航空目标检测中的 domain prior distillation,可迁移为 presence prior。 |
说明:SAM3/SegEarth-OV3 是核心;SegEarth-OV、ReSeg-CLIP、ConInfer、DINO Soars 是对照路线;Remote SAMsing 提供大图/tile 失败模式;Towards Realistic OVRSIS 提供更接近真实任务的评测背景。
4. Presence Score 在遥感中的失败模式
4.1 Absent-category false positives
大词表中包含很多当前图像不存在的类别。自然图像中 dog、bus、person 往往有清晰对象形态;遥感中 airport、runway、road、parking lot、impervious surface 可能共享纹理和几何结构。presence score 如果只看局部纹理,很容易把不存在类别判为存在。
典型例子:
runwayvsroad:长条灰色区域在工业园、机场、城市道路中都存在。buildingvsimpervious surface:屋顶、停车场、硬化地面纹理相近。shipvsdock/container:港口小目标密集,水陆边界复杂。
4.2 Synonym and prompt sensitivity
同一个类别用不同 prompt 可能得到不同 presence:
building,buildings,house,residential buildingroad,highway,street,runwayfarmland,cropland,field,rice paddy
如果直接对每个 prompt 独立阈值,会导致同义词互相冲突;如果简单取最大值,又容易放大 false positive。
4.3 Land-cover vs object label mismatch
land-cover 类别通常覆盖整片区域,object 类别通常是离散实例。SAM3 的 promptable concept segmentation 更自然地适配“可数对象”,但遥感语义分割常包含不可数覆盖类:
- object:car, ship, airplane, building
- stuff/land-cover:water, forest, cropland, impervious surface, bare soil
- hybrid:road, runway, river, parking lot
presence calibration 应该对不同类别类型使用不同解释:object 类看实例存在概率,land-cover 类看区域覆盖比例/置信度。
4.4 Scale and GSD mismatch
遥感类别可见性强依赖 GSD。car 在 0.1m 航空图像中是对象,在 10m Sentinel-2 中基本不可辨;crop field 在 10m 中可见,在很小的 UAV tile 里可能只呈现局部纹理。统一阈值会混淆:
- 因尺度不可见导致的低 presence;
- 因类别真的不存在导致的低 presence;
- 因纹理相似导致的高 presence。
4.5 Patch-level context loss
SegEarth-OV3 关注 patch-level geospatial processing,这很关键。遥感大图切片时,一个类别在整张影像存在,但当前 patch 只包含背景;或者当前 patch 中出现目标局部,缺少全局形态。presence score 在 patch、super-patch、整图三个层级的含义不同。
4.6 Geographic prior overuse
地理先验有帮助,但也危险。靠近海岸并不意味着一定有 ship;城市中心并不意味着当前 patch 有 building;稻作区并不意味着每个季节都有 rice paddy。校准时要把先验当作弱证据,不能让它替代图像证据。
5. 方法比较:从过滤到校准
5.1 Baseline A:单阈值过滤
做法:对所有类别使用统一 threshold,例如 presence_score > t 才保留类别/mask。
优点:简单,能立刻减少 absent-category false positives。
缺点:忽略类别频率、同义词、尺度、patch 大小和 land-cover/object 差异。对长尾类别通常会过度过滤,对高频类别可能仍误检。
5.2 Baseline B:类别特定阈值
做法:在验证集上为每个类别学习一个 threshold。
优点:比统一阈值更合理,能适应 building 和 car 的分数分布差异。
缺点:开放词表场景下无法为所有未见类别标定;同义词 prompt 的阈值需要共享或平滑。
5.3 Baseline C:prompt ensemble
做法:为每个类别构造 prompt set,例如:
- building:
building,buildings,rooftop,residential building - water:
water,river,lake,pond - road:
road,street,highway
然后对 presence score 做 max/mean/logit average/trimmed mean。
优点:降低单一 prompt wording 的不稳定性。
缺点:同义词不总等价,尤其是层级词;max 会放大错误,mean 会稀释真正细粒度类别。
5.4 Proposed:RS-PresCal
名称草案:RS-PresCal: Scale- and Taxonomy-Aware Presence Calibration for SAM3 Remote Sensing Open-Vocabulary Segmentation
核心思想:把 SAM3 presence score 从一个原始模型分数校准为条件概率:
P(class present | prompt set, SAM3 score, mask evidence, GSD, patch context, taxonomy, optional geo prior)
它不是重训 SAM3 主体,而是在 SegEarth-OV3 推理结果之后加一个轻量 calibration layer。
输入特征:
SAM3 presence features
- raw presence score
- prompt ensemble mean/max/variance
- positive/negative prompt margin
mask evidence features
- mask area ratio
- instance count
- mean mask confidence/logit
- boundary compactness / elongation / connected components
- semantic head 与 instance head 一致性
scale features
- GSD
- patch size in meters
- expected object size range for class
- tile pyramid level
taxonomy features
- object/stuff/hybrid class type
- parent/child/sibling relation
- synonym group id
- mutual exclusion group, e.g.
runwayvsroad不强互斥,watervsbuilding更强互斥
context/geographic features
- super-patch/neighbor-patch presence consistency
- scene type prior from CLIP/DINO/GeoFM embedding
- optional OSM/land-cover prior, used only as weak feature
输出:
- calibrated presence probability;
- calibrated absent probability;
- uncertainty / abstention flag;
- optional per-class threshold recommendation。
模型选择:
- 最小可复现:temperature scaling + isotonic regression;
- 中等复杂度:logistic regression / gradient boosting;
- 可投稿增强:taxonomy-aware graph calibration,把同义词、父子类和互斥类作为图约束。
6. Prompt Ensemble 设计
6.1 Prompt 类型
| 类型 | 例子 | 作用 | 风险 |
|---|---|---|---|
| canonical | building | 数据集主标签 | 对遥感语义可能太粗 |
| plural/object | buildings, cars | 与实例存在更匹配 | 对 stuff 类无意义 |
| subtype | residential building, industrial building | 检测细粒度语义 | 容易和父类冲突 |
| visual synonym | rooftop, paved road | 遥感视角下更接近外观 | 可能改变类别定义 |
| negative prompt | not a road, no buildings 或 hard-negative prompt set | 用于 margin,而非直接输出 | SAM3 接口对负文本支持需实测 |
| geo-context prompt | airport runway, urban road | 引入上下文 | 容易用语言先验代替图像证据 |
建议不要只用自然语言模板 a satellite image of {class}。遥感 OVSS 中,prompt 的语义应按 taxonomy 管理,否则同义词会变成隐藏变量。
6.2 Ensemble 聚合策略
需要比较四种:
- max:只要一个 prompt 高就认为存在。召回高,误检高。
- mean:同义词一致才高。稳定,但细粒度类易被稀释。
- trimmed mean:去掉最高/最低极端分数,适合减少 prompt outlier。
- margin:
positive_prompt_score - hard_negative_or_sibling_score,例如runway与road的 margin。
推荐主方法使用 trimmed mean + sibling margin + variance uncertainty。如果 prompt variance 很大,则进入 abstain 或人工审核。
7. 实验矩阵
7.1 数据集
SegEarth-OV3 仓库列出的可评测数据覆盖较广,建议分层选择:
| 任务类型 | 数据集 | 目的 |
|---|---|---|
| Semantic segmentation | OpenEarthMap, LoveDA, iSAID, Potsdam, Vaihingen, UAVid, UDD5, VDD | 评估多类别 OVSS 与 object/stuff 混合标签 |
| Building extraction | WHU Aerial, WHU Satellite II, Inria, xBD-pre | 评估高频 object/stuff 混淆与边界 |
| Road extraction | DeepGlobe, Massachusetts, SpaceNet, CHN6-CUG | 评估 road/runway/impervious surface 等细长类别 |
| Water extraction | WBS-SI | 评估 stuff/水体类 coverage |
| Change detection | LEVIR-CD, WHU-CD, S2Looking | 检查 presence 是否可用于变化类别过滤 |
| Realistic OVRSIS | OVRSISBenchV2 / OVRSIS95K | 评估开放词表、大词表与跨数据集泛化 |
7.2 Baseline
| 编号 | 方法 | 校准方式 | 目的 |
|---|---|---|---|
| B0 | SegEarth-OV3 default | 仓库默认 presence filtering | 复现主基线 |
| B1 | no presence filtering | 不使用 presence score | 测 presence score 原始价值 |
| B2 | global threshold | 单一阈值 | 简单过滤基线 |
| B3 | per-class threshold | 类别阈值 | 闭集上限基线 |
| B4 | prompt max/mean ensemble | 文本集成 | 测 prompt wording 敏感性 |
| B5 | CLIP/SAM route | SegEarth-OV/ReSeg-CLIP | 无 SAM3 presence head 的对照 |
| B6 | context route | ConInfer | 测上下文一致性能否替代 calibration |
| Ours | RS-PresCal | scale/taxonomy/context calibration | 主方法 |
7.3 消融实验
| 实验 | 变量 | 问题 |
|---|---|---|
| E1 | global vs per-class vs calibrated threshold | 校准是否优于简单阈值 |
| E2 | canonical prompt vs prompt ensemble | prompt wording 是否影响 presence |
| E3 | max/mean/trimmed/margin | 哪种 ensemble 最稳 |
| E4 | object/stuff/hybrid 分组 | 类别类型是否需要不同校准 |
| E5 | 加/不加 GSD 和 patch size | 尺度先验是否有用 |
| E6 | patch-only vs neighbor/super-patch context | 上下文是否减少 patch 误检 |
| E7 | 加/不加 taxonomy graph | 同义词/层级冲突是否缓解 |
| E8 | 加/不加 geo prior | 地理先验是否真的提升,是否造成偏置 |
| E9 | seen categories vs unseen synonyms | 开放词表泛化能力 |
| E10 | high-frequency vs rare classes | 长尾类是否被过度过滤 |
8. 指标设计
传统 mIoU 不足以评价 presence calibration,需要同时看“类别是否存在”和“mask 是否正确”。
8.1 Presence-level 指标
- AUROC / AUPRC:类别存在/不存在二分类。
- Brier score:概率校准质量。
- ECE / adaptive ECE:presence score 是否可解释为概率。
- FPR@95TPR:高召回情况下误检率。
- absent-category false positive rate:输入词表中不存在类别被保留的比例。
- prompt variance:同义词 prompt 间分数方差。
8.2 Segmentation-level 指标
- mIoU / hIoU / seen-unseen IoU。
- false-positive area ratio:不存在类别 mask 面积占比。
- class confusion matrix:尤其看 sibling classes。
- object/stuff 分组 IoU。
- boundary F1:避免校准只删 mask、不改善质量。
8.3 Remote-sensing-specific 指标
- scale-binned calibration:按 GSD 或目标像素面积分桶看 ECE。
- patch consistency:邻近 patch 对同一类别的 calibrated presence 是否连续。
- taxonomy consistency:子类 presence 不应无根据地高于父类;互斥类不能同时高置信。
- abstention utility:模型选择“不确定/需人工审核”时能减少多少误检面积。
9. 可投稿方法方案
题目草案:
RS-PresCal: Scale- and Taxonomy-Aware Presence Calibration for SAM3 Open-Vocabulary Remote Sensing Segmentation
9.1 核心假设
SAM3 presence score 在自然图像概念分割中能减少 hard-negative false positives,但在遥感 OVSS 中,原始分数受 prompt wording、尺度、patch 上下文和类别层级影响。若显式加入遥感尺度、taxonomy 和邻域上下文进行校准,可以在不重训 SAM3 的情况下显著降低 absent-category false positives,同时保持开放词表召回。
9.2 方法模块
Taxonomy-aware prompt builder
- 为每个类别构造 canonical/synonym/subtype/sibling prompt set。
- 标注类别类型:object、stuff、hybrid。
- 构建 parent-child/sibling/mutual-exclusion graph。
Multi-prompt SAM3 inference
- 对每个 prompt 获取 presence score、instance masks、semantic masks。
- 保留 SegEarth-OV3 的 instance aggregation 和 dual-head mask fusion。
Scale-context feature extractor
- 从影像元数据获取 GSD;没有 GSD 时用数据集默认值。
- 计算 patch physical size、mask area ratio、instance count、shape compactness。
- 统计 neighbor/super-patch presence consistency。
Calibration layer
- 轻量版本:temperature scaling + logistic regression。
- 完整版本:taxonomy graph calibration,约束同义词一致、父子类单调、兄弟类 margin。
Decision module
- calibrated score 高:保留 mask。
- calibrated score 中等且 uncertainty 高:abstain 或进入人工审核。
- sibling conflict:保留 margin 更高的类别,或合并到父类。
9.3 最小实现路线
- 复现 SegEarth-OV3 在 LoveDA、iSAID、Potsdam、DeepGlobe 或 OpenEarthMap 上的 default inference。
- 构造每个数据集标签的 prompt set 和 sibling set。
- 生成类别存在 GT:一个类别在 patch 中是否有非零 mask。
- 收集 raw presence score、prompt ensemble score、mask evidence、GSD/patch size。
- 用 validation split 训练 calibration layer,测试集报告 presence 和 segmentation 指标。
- 与 no-filter/global-threshold/per-class-threshold/prompt-ensemble 做消融。
9.4 预期贡献
- 第一个专门面向 SAM3 remote sensing OVSS 的 presence calibration protocol。
- 一个 object/stuff/hybrid + taxonomy-aware prompt ensemble 设计。
- 一个尺度/GSD 与 patch context 感知的轻量校准器。
- 一个错误分析工具,解释 absent-category FP、同义词冲突、层级冲突和尺度误判。
10. 风险与规避
| 风险 | 影响 | 规避 |
|---|---|---|
| SegEarth-OV3/SAM3 本身版本更新快 | 复现不稳定 | 固定 checkpoint、commit、配置和数据 split |
| 校准需要验证集标签 | 开放词表泛化受限 | 使用少量 validation + taxonomy sharing;报告 unseen prompt 泛化 |
| 地理先验造成偏见 | 模型可能靠位置猜类别 | geo prior 作为可选特征,并做 image-only vs image+geo 对照 |
| 只降低 FP、伤害 recall | mIoU 可能下降 | 用 AUPRC、FPR@95TPR、seen/unseen recall 共同评价 |
| prompt ensemble 人工设计过强 | 泛化差 | 使用可复现 prompt template,并报告 prompt sensitivity |
| object/stuff 类别定义不清 | 指标混乱 | 先做类别 taxonomy card,再报告分组指标 |
11. 未来研究方向
- Active calibration:优先让人审核高不确定、高面积、高业务风险类别,快速提升校准器。
- GeoFM prior calibration:用 AlphaEarth/Prithvi/Clay embedding 提供 scene prior,但保持图像证据约束。
- Change-aware presence:双时相 OVSS 中校准“类别是否新增/消失”,而不是单时相存在。
- SAM3 + RS-CLIP disagreement mining:当 SAM3 presence 与 RS-CLIP text similarity 冲突时,自动生成 hard negatives。
- Taxonomy-aware evaluation toolkit:为遥感 OVSS 提供 hierarchy-aware IoU、semantic distance、presence ECE。
- Scale transfer:在 UAV/VHR/Sentinel-2 多尺度数据上学习类别可见性曲线。
- Human-in-the-loop prompt refinement:把 prompt variance 高的类别交给人类选择更合适的遥感术语。
12. 推荐阅读顺序
- SAM 3: Segment Anything with Concepts
- SAM3 Hugging Face documentation
- SegEarth-OV3 GitHub
- SegEarth-OV3 arXiv
- SegEarth-OV CVPR 2025 PDF
- ReSeg-CLIP
- ConInfer and GitHub
- Towards Realistic OVRSIS
- DINO Soars and GitHub
- Remote SAMsing
- From Pixels to Concepts
13. 最小复现实验清单
- 固定模型:SAM3 official checkpoint + SegEarth-OV3 repo commit。
- 数据:LoveDA、iSAID、Potsdam/Vaihingen、DeepGlobe Road;可选 OVRSISBenchV2。
- 词表:每个数据集标签构造 3-5 个 synonym/subtype prompt,并标注 object/stuff/hybrid。
- 推理:记录每个 patch、每个 prompt 的 presence score、mask area、instance count、semantic/instance head 一致性。
- 校准:global threshold、per-class threshold、prompt ensemble、RS-PresCal。
- 指标:presence AUROC/AUPRC/Brier/ECE、absent FPR、mIoU、false-positive area、taxonomy consistency、scale-binned ECE。
- 可视化:展示原始 SegEarth-OV3、统一阈值、RS-PresCal 在 absent class、sibling class、scale mismatch 三类失败上的对比。
评论