RS-14 SAM3 Presence Score Calibration for Remote Sensing OVSS

Series - 2024-2026 遥感 AI 细分研究方向

RS-14 SAM3 Presence Score Calibration for Remote Sensing OVSS

细问题:SAM3 的 presence score 被设计成“概念是否存在”的全局判别信号。SegEarth-OV3 将它用于遥感开放词表语义分割,过滤大词表和 patch-level 推理中不存在类别造成的 false positives。RS-14 关注的不是“做一个遥感开放词表分割模型”,而是一个更窄的环节:

当遥感大图被切成多个 patch,并且输入词表包含大量同义词、层级词、对象词和土地覆盖词时,如何校准 SAM3/SegEarth-OV3 的 presence score,使它更可靠地区分“该类别真的在当前区域出现”与“语义相近、尺度不匹配或上下文诱导的误检”?

这个方向适合做成一个小论文,因为它抓住了 SAM3 相比 SAM/SAM2 的新能力:SAM/SAM2 主要是 class-agnostic mask generator,SAM3 引入 promptable concept segmentation,能直接接收文本/示例图像概念,并通过 presence head 把“识别是什么”和“定位在哪里”解耦。遥感 OVSS 的痛点恰好在于:类别词表大、概念层级混乱、patch 切片破坏场景上下文、自然图像概念和遥感概念不完全对齐。

SAM/SAM2 在遥感中已经被广泛用作边界生成器,但它们本质上不知道“这个 mask 是建筑还是道路”。开放词表遥感分割通常要把 CLIP/RS-CLIP/DINO/VLM 的语义分数和 SAM mask 融合:语义模型负责类别,SAM 负责边界。这会带来两个典型问题:

  • 语义分数高但 mask 不对:例如把停车场纹理误当作建筑。
  • mask 边界好但类别不对:例如道路、跑道、河流、裸地这些长条或低纹理区域容易互相混。

SAM3 的新接口是 promptable concept segmentation。Hugging Face 文档将 SAM3 描述为能基于文本或图像示例概念返回实例/语义 mask,并指出 recognition/localization 通过 presence head 解耦;Ultralytics 文档也强调了 presence head 用于全局概念存在判断。对遥感来说,这意味着我们不必只依赖 CLIP similarity 后验去猜类别,而是可以利用 SAM3 自带的 presence score 作为“类别是否存在”的门控。

SegEarth-OV3 的官方 GitHub README 明确给出三步 pipeline:

  1. instance aggregation:合并稀疏对象预测;
  2. dual-head mask fusion:融合 instance head 的细粒度细节和 semantic head 的全局覆盖;
  3. presence-guided filtering:用 presence score 抑制 absent categories 的 false positives。

arXiv 摘要同样指出,SegEarth-OV3 使用 SAM3 presence head 的 presence score 过滤场景中不存在的类别,减少大词表和 geospatial patch-level processing 带来的误检。

这正是 RS-14 的切入点:SegEarth-OV3 已经证明 presence score 有用,但它更像一个工程过滤器。遥感场景下,这个分数很可能需要专门校准,而不是使用统一阈值。

遥感开放词表分割有几类独特干扰:

  • 大图 patch 化:一个 10k x 10k 影像被切成很多 patch,某类别可能在整图存在但在当前 patch 不存在;也可能 patch 太小,只看到局部纹理,导致 presence score 误判。
  • 类别层级混合:buildingresidential buildingdamaged buildingroadhighwayrunwaywaterriverlake 不是同一层级,但常被放在同一个词表里。
  • land-cover 与 object 混用:impervious surface 是覆盖类型,building 是对象;vegetation 是覆盖类型,tree 是对象;presence 的含义不一样。
  • 尺度依赖强:同样是 car,在 5cm GSD 航空影像可见,在 10m Sentinel-2 中不可见;统一阈值会把尺度不可见当成类别不存在或误检。
  • 地理先验显著:rice paddysnowdesertharborrunway 的出现概率与地理区域、季节、近水/近城市上下文有关,但先验不能替代图像证据。

所以,presence calibration 的目标不是简单“提高阈值减少 false positive”,而是在不同词、尺度、场景、patch 层级下,让分数具有可解释的概率意义。

论文/项目年份/venue链接官方代码/资源与 RS-14 的关系
SAM 3: Segment Anything with Concepts2025/ICLR 2026OpenReview PDF, HF docs, Ultralytics docsfacebookresearch/sam3presence head 来源;将 concept presence 和 mask localization 解耦。
SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images2025 arXivarXivGitHub直接将 SAM3 presence score 用于遥感 OVSS、变化检测和 3D segmentation 的 false positive filtering。
SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images2025 CVPRCVF PDF, projectproject/codeSegEarth-OV3 的前身;CLIP/SAM training-free OVSS 基线,适合比较“无 presence head”时的误检。
ReSeg-CLIP2026 arXivarXiv未见明确官方代码利用 SAM mask 做 hierarchical attention masking,并组合 RS-CLIP;适合作为 SAM-mask + CLIP semantic calibration 对照。
ConInfer2026 CVPRF/arXivarXiv, CVF PDFGitHub训练自由的上下文推理;说明 patch 独立预测会导致类别不一致,presence calibration 可吸收上下文一致性。
Towards Realistic Open-Vocabulary Remote Sensing Segmentation: Benchmark and Baseline2026 arXivarXivGitHub branch提出更现实的 OVRSISBenchV2/OVRSIS95K;适合作为 calibration benchmark。
DINO Soars2026 arXivarXivGitHubDINOv3 + text 的遥感 OVSS;可作为非 SAM3 的强开放词表分割 baseline。
AerOSeg2025 arXiv/CVPRW EarthVisionarXiv未见明确官方代码使用 SAM 引导开放词表遥感分割;可比较 SAM 特征引导与 SAM3 presence filtering。
Remote SAMsing2026 arXivarXiv论文称 open-source pipeline证明遥感大图中 tile size 影响 mask coverage/quality,提示 presence score 也应随 tile/GSD/coverage 校准。
From Pixels to Concepts: Do Segmentation Models Understand What They Segment?2026 arXivarXiv未见官方代码直接质疑 SAM3 类概念分割是否真正理解查询概念,适合作为语义一致性评测参考。
DisDop2026 arXivarXiv未见明确官方代码开放词表航空目标检测中的 domain prior distillation,可迁移为 presence prior。

说明:SAM3/SegEarth-OV3 是核心;SegEarth-OV、ReSeg-CLIP、ConInfer、DINO Soars 是对照路线;Remote SAMsing 提供大图/tile 失败模式;Towards Realistic OVRSIS 提供更接近真实任务的评测背景。

大词表中包含很多当前图像不存在的类别。自然图像中 dogbusperson 往往有清晰对象形态;遥感中 airportrunwayroadparking lotimpervious surface 可能共享纹理和几何结构。presence score 如果只看局部纹理,很容易把不存在类别判为存在。

典型例子:

  • runway vs road:长条灰色区域在工业园、机场、城市道路中都存在。
  • building vs impervious surface:屋顶、停车场、硬化地面纹理相近。
  • ship vs dock/container:港口小目标密集,水陆边界复杂。

同一个类别用不同 prompt 可能得到不同 presence:

  • building, buildings, house, residential building
  • road, highway, street, runway
  • farmland, cropland, field, rice paddy

如果直接对每个 prompt 独立阈值,会导致同义词互相冲突;如果简单取最大值,又容易放大 false positive。

land-cover 类别通常覆盖整片区域,object 类别通常是离散实例。SAM3 的 promptable concept segmentation 更自然地适配“可数对象”,但遥感语义分割常包含不可数覆盖类:

  • object:car, ship, airplane, building
  • stuff/land-cover:water, forest, cropland, impervious surface, bare soil
  • hybrid:road, runway, river, parking lot

presence calibration 应该对不同类别类型使用不同解释:object 类看实例存在概率,land-cover 类看区域覆盖比例/置信度。

遥感类别可见性强依赖 GSD。car 在 0.1m 航空图像中是对象,在 10m Sentinel-2 中基本不可辨;crop field 在 10m 中可见,在很小的 UAV tile 里可能只呈现局部纹理。统一阈值会混淆:

  • 因尺度不可见导致的低 presence;
  • 因类别真的不存在导致的低 presence;
  • 因纹理相似导致的高 presence。

SegEarth-OV3 关注 patch-level geospatial processing,这很关键。遥感大图切片时,一个类别在整张影像存在,但当前 patch 只包含背景;或者当前 patch 中出现目标局部,缺少全局形态。presence score 在 patch、super-patch、整图三个层级的含义不同。

地理先验有帮助,但也危险。靠近海岸并不意味着一定有 ship;城市中心并不意味着当前 patch 有 building;稻作区并不意味着每个季节都有 rice paddy。校准时要把先验当作弱证据,不能让它替代图像证据。

做法:对所有类别使用统一 threshold,例如 presence_score > t 才保留类别/mask。

优点:简单,能立刻减少 absent-category false positives。

缺点:忽略类别频率、同义词、尺度、patch 大小和 land-cover/object 差异。对长尾类别通常会过度过滤,对高频类别可能仍误检。

做法:在验证集上为每个类别学习一个 threshold。

优点:比统一阈值更合理,能适应 buildingcar 的分数分布差异。

缺点:开放词表场景下无法为所有未见类别标定;同义词 prompt 的阈值需要共享或平滑。

做法:为每个类别构造 prompt set,例如:

  • building: building, buildings, rooftop, residential building
  • water: water, river, lake, pond
  • road: road, street, highway

然后对 presence score 做 max/mean/logit average/trimmed mean。

优点:降低单一 prompt wording 的不稳定性。

缺点:同义词不总等价,尤其是层级词;max 会放大错误,mean 会稀释真正细粒度类别。

名称草案:RS-PresCal: Scale- and Taxonomy-Aware Presence Calibration for SAM3 Remote Sensing Open-Vocabulary Segmentation

核心思想:把 SAM3 presence score 从一个原始模型分数校准为条件概率:

P(class present | prompt set, SAM3 score, mask evidence, GSD, patch context, taxonomy, optional geo prior)

它不是重训 SAM3 主体,而是在 SegEarth-OV3 推理结果之后加一个轻量 calibration layer。

输入特征:

  1. SAM3 presence features

    • raw presence score
    • prompt ensemble mean/max/variance
    • positive/negative prompt margin
  2. mask evidence features

    • mask area ratio
    • instance count
    • mean mask confidence/logit
    • boundary compactness / elongation / connected components
    • semantic head 与 instance head 一致性
  3. scale features

    • GSD
    • patch size in meters
    • expected object size range for class
    • tile pyramid level
  4. taxonomy features

    • object/stuff/hybrid class type
    • parent/child/sibling relation
    • synonym group id
    • mutual exclusion group, e.g. runway vs road 不强互斥,water vs building 更强互斥
  5. context/geographic features

    • super-patch/neighbor-patch presence consistency
    • scene type prior from CLIP/DINO/GeoFM embedding
    • optional OSM/land-cover prior, used only as weak feature

输出:

  • calibrated presence probability;
  • calibrated absent probability;
  • uncertainty / abstention flag;
  • optional per-class threshold recommendation。

模型选择:

  • 最小可复现:temperature scaling + isotonic regression;
  • 中等复杂度:logistic regression / gradient boosting;
  • 可投稿增强:taxonomy-aware graph calibration,把同义词、父子类和互斥类作为图约束。
类型例子作用风险
canonicalbuilding数据集主标签对遥感语义可能太粗
plural/objectbuildings, cars与实例存在更匹配对 stuff 类无意义
subtyperesidential building, industrial building检测细粒度语义容易和父类冲突
visual synonymrooftop, paved road遥感视角下更接近外观可能改变类别定义
negative promptnot a road, no buildings 或 hard-negative prompt set用于 margin,而非直接输出SAM3 接口对负文本支持需实测
geo-context promptairport runway, urban road引入上下文容易用语言先验代替图像证据

建议不要只用自然语言模板 a satellite image of {class}。遥感 OVSS 中,prompt 的语义应按 taxonomy 管理,否则同义词会变成隐藏变量。

需要比较四种:

  1. max:只要一个 prompt 高就认为存在。召回高,误检高。
  2. mean:同义词一致才高。稳定,但细粒度类易被稀释。
  3. trimmed mean:去掉最高/最低极端分数,适合减少 prompt outlier。
  4. margin:positive_prompt_score - hard_negative_or_sibling_score,例如 runwayroad 的 margin。

推荐主方法使用 trimmed mean + sibling margin + variance uncertainty。如果 prompt variance 很大,则进入 abstain 或人工审核。

SegEarth-OV3 仓库列出的可评测数据覆盖较广,建议分层选择:

任务类型数据集目的
Semantic segmentationOpenEarthMap, LoveDA, iSAID, Potsdam, Vaihingen, UAVid, UDD5, VDD评估多类别 OVSS 与 object/stuff 混合标签
Building extractionWHU Aerial, WHU Satellite II, Inria, xBD-pre评估高频 object/stuff 混淆与边界
Road extractionDeepGlobe, Massachusetts, SpaceNet, CHN6-CUG评估 road/runway/impervious surface 等细长类别
Water extractionWBS-SI评估 stuff/水体类 coverage
Change detectionLEVIR-CD, WHU-CD, S2Looking检查 presence 是否可用于变化类别过滤
Realistic OVRSISOVRSISBenchV2 / OVRSIS95K评估开放词表、大词表与跨数据集泛化
编号方法校准方式目的
B0SegEarth-OV3 default仓库默认 presence filtering复现主基线
B1no presence filtering不使用 presence score测 presence score 原始价值
B2global threshold单一阈值简单过滤基线
B3per-class threshold类别阈值闭集上限基线
B4prompt max/mean ensemble文本集成测 prompt wording 敏感性
B5CLIP/SAM routeSegEarth-OV/ReSeg-CLIP无 SAM3 presence head 的对照
B6context routeConInfer测上下文一致性能否替代 calibration
OursRS-PresCalscale/taxonomy/context calibration主方法
实验变量问题
E1global vs per-class vs calibrated threshold校准是否优于简单阈值
E2canonical prompt vs prompt ensembleprompt wording 是否影响 presence
E3max/mean/trimmed/margin哪种 ensemble 最稳
E4object/stuff/hybrid 分组类别类型是否需要不同校准
E5加/不加 GSD 和 patch size尺度先验是否有用
E6patch-only vs neighbor/super-patch context上下文是否减少 patch 误检
E7加/不加 taxonomy graph同义词/层级冲突是否缓解
E8加/不加 geo prior地理先验是否真的提升,是否造成偏置
E9seen categories vs unseen synonyms开放词表泛化能力
E10high-frequency vs rare classes长尾类是否被过度过滤

传统 mIoU 不足以评价 presence calibration,需要同时看“类别是否存在”和“mask 是否正确”。

  • AUROC / AUPRC:类别存在/不存在二分类。
  • Brier score:概率校准质量。
  • ECE / adaptive ECE:presence score 是否可解释为概率。
  • FPR@95TPR:高召回情况下误检率。
  • absent-category false positive rate:输入词表中不存在类别被保留的比例。
  • prompt variance:同义词 prompt 间分数方差。
  • mIoU / hIoU / seen-unseen IoU。
  • false-positive area ratio:不存在类别 mask 面积占比。
  • class confusion matrix:尤其看 sibling classes。
  • object/stuff 分组 IoU。
  • boundary F1:避免校准只删 mask、不改善质量。
  • scale-binned calibration:按 GSD 或目标像素面积分桶看 ECE。
  • patch consistency:邻近 patch 对同一类别的 calibrated presence 是否连续。
  • taxonomy consistency:子类 presence 不应无根据地高于父类;互斥类不能同时高置信。
  • abstention utility:模型选择“不确定/需人工审核”时能减少多少误检面积。

题目草案:

RS-PresCal: Scale- and Taxonomy-Aware Presence Calibration for SAM3 Open-Vocabulary Remote Sensing Segmentation

SAM3 presence score 在自然图像概念分割中能减少 hard-negative false positives,但在遥感 OVSS 中,原始分数受 prompt wording、尺度、patch 上下文和类别层级影响。若显式加入遥感尺度、taxonomy 和邻域上下文进行校准,可以在不重训 SAM3 的情况下显著降低 absent-category false positives,同时保持开放词表召回。

  1. Taxonomy-aware prompt builder

    • 为每个类别构造 canonical/synonym/subtype/sibling prompt set。
    • 标注类别类型:object、stuff、hybrid。
    • 构建 parent-child/sibling/mutual-exclusion graph。
  2. Multi-prompt SAM3 inference

    • 对每个 prompt 获取 presence score、instance masks、semantic masks。
    • 保留 SegEarth-OV3 的 instance aggregation 和 dual-head mask fusion。
  3. Scale-context feature extractor

    • 从影像元数据获取 GSD;没有 GSD 时用数据集默认值。
    • 计算 patch physical size、mask area ratio、instance count、shape compactness。
    • 统计 neighbor/super-patch presence consistency。
  4. Calibration layer

    • 轻量版本:temperature scaling + logistic regression。
    • 完整版本:taxonomy graph calibration,约束同义词一致、父子类单调、兄弟类 margin。
  5. Decision module

    • calibrated score 高:保留 mask。
    • calibrated score 中等且 uncertainty 高:abstain 或进入人工审核。
    • sibling conflict:保留 margin 更高的类别,或合并到父类。
  1. 复现 SegEarth-OV3 在 LoveDA、iSAID、Potsdam、DeepGlobe 或 OpenEarthMap 上的 default inference。
  2. 构造每个数据集标签的 prompt set 和 sibling set。
  3. 生成类别存在 GT:一个类别在 patch 中是否有非零 mask。
  4. 收集 raw presence score、prompt ensemble score、mask evidence、GSD/patch size。
  5. 用 validation split 训练 calibration layer,测试集报告 presence 和 segmentation 指标。
  6. 与 no-filter/global-threshold/per-class-threshold/prompt-ensemble 做消融。
  • 第一个专门面向 SAM3 remote sensing OVSS 的 presence calibration protocol。
  • 一个 object/stuff/hybrid + taxonomy-aware prompt ensemble 设计。
  • 一个尺度/GSD 与 patch context 感知的轻量校准器。
  • 一个错误分析工具,解释 absent-category FP、同义词冲突、层级冲突和尺度误判。
风险影响规避
SegEarth-OV3/SAM3 本身版本更新快复现不稳定固定 checkpoint、commit、配置和数据 split
校准需要验证集标签开放词表泛化受限使用少量 validation + taxonomy sharing;报告 unseen prompt 泛化
地理先验造成偏见模型可能靠位置猜类别geo prior 作为可选特征,并做 image-only vs image+geo 对照
只降低 FP、伤害 recallmIoU 可能下降用 AUPRC、FPR@95TPR、seen/unseen recall 共同评价
prompt ensemble 人工设计过强泛化差使用可复现 prompt template,并报告 prompt sensitivity
object/stuff 类别定义不清指标混乱先做类别 taxonomy card,再报告分组指标
  1. Active calibration:优先让人审核高不确定、高面积、高业务风险类别,快速提升校准器。
  2. GeoFM prior calibration:用 AlphaEarth/Prithvi/Clay embedding 提供 scene prior,但保持图像证据约束。
  3. Change-aware presence:双时相 OVSS 中校准“类别是否新增/消失”,而不是单时相存在。
  4. SAM3 + RS-CLIP disagreement mining:当 SAM3 presence 与 RS-CLIP text similarity 冲突时,自动生成 hard negatives。
  5. Taxonomy-aware evaluation toolkit:为遥感 OVSS 提供 hierarchy-aware IoU、semantic distance、presence ECE。
  6. Scale transfer:在 UAV/VHR/Sentinel-2 多尺度数据上学习类别可见性曲线。
  7. Human-in-the-loop prompt refinement:把 prompt variance 高的类别交给人类选择更合适的遥感术语。
  1. SAM 3: Segment Anything with Concepts
  2. SAM3 Hugging Face documentation
  3. SegEarth-OV3 GitHub
  4. SegEarth-OV3 arXiv
  5. SegEarth-OV CVPR 2025 PDF
  6. ReSeg-CLIP
  7. ConInfer and GitHub
  8. Towards Realistic OVRSIS
  9. DINO Soars and GitHub
  10. Remote SAMsing
  11. From Pixels to Concepts
  • 固定模型:SAM3 official checkpoint + SegEarth-OV3 repo commit。
  • 数据:LoveDA、iSAID、Potsdam/Vaihingen、DeepGlobe Road;可选 OVRSISBenchV2。
  • 词表:每个数据集标签构造 3-5 个 synonym/subtype prompt,并标注 object/stuff/hybrid。
  • 推理:记录每个 patch、每个 prompt 的 presence score、mask area、instance count、semantic/instance head 一致性。
  • 校准:global threshold、per-class threshold、prompt ensemble、RS-PresCal。
  • 指标:presence AUROC/AUPRC/Brier/ECE、absent FPR、mIoU、false-positive area、taxonomy consistency、scale-binned ECE。
  • 可视化:展示原始 SegEarth-OV3、统一阈值、RS-PresCal 在 absent class、sibling class、scale mismatch 三类失败上的对比。

Related Content

评论