Benchmark - Tag - 堂堂一跑堂

OSTB：遥感 VLM 部署别先赌一个 backbone

Sun, 14 Jun 2026 15:00:02 +0800

OSTB：遥感 VLM 部署别先赌一个 backbone

结论：这一轮最值得单独跟踪的是 One Stone, Three Birds: Self-adaptive Optimal Transport for Multi-VLM Selection, Adaptation, and Ensembling。它不是又训练一个遥感专用 CLIP，而是处理一个更接近真实部署的问题：手里同时有 CLIP、GeoRSCLIP、RemoteCLIP、SkyCLIP、RS-M-CLIP、RSDiX-CLIP、StreetCLIP 等候选 VLM，但目标地区没有标签，到底该信哪一个、怎么适配、要不要集成？论文提出 OSTB，用自适应最优传输在无标签目标集上估计样本-类别结构，并把同一个结构同时用于模型排序、目标域 GMM 适配和可靠性加权集成。对遥感 VLM 来说，它的价值在于把“选模型”从经验判断变成了可评测、可复现、可插拔的部署模块。

我按 2026-06-14 15:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线工作。本篇选择 2026-06-06 提交 arXiv 的 OSTB。论文 arXiv 页面、HTML、PDF 和官方 GitHub 仓库均已公开；仓库提供论文链接、特征数据下载入口、数据集划分说明和实验结果表。该工作覆盖自然图像、遥感和医学病理三类 benchmark，其中遥感部分是光学/航空/卫星场景分类数据集，不属于雷达方向。

这篇适合放进“遥感基础模型与多模态理解”。原因是它没有只讨论单个遥感模型的预训练配方，而是讨论 VLM 生态已经多模型化以后，如何在没有目标域标签的情况下做部署决策。对于遥感场景，这个问题很现实：一个地区、一个传感器、一个类别体系下，通用 CLIP 与遥感专用 CLIP 谁更可靠，并不能只看模型名字或平均榜单。

背景

遥感 VLM 的数量正在变多。早期可以简单比较 CLIP、RemoteCLIP、GeoRSCLIP 这类模型的零样本准确率；现在更常见的情况是，研究者或工程系统手里有多个候选模型：通用视觉语言模型有更广泛的自然图像先验，遥感专用模型有更强的 overhead imagery 语义，地理街景模型可能带来地名和城市空间先验，不同模型在不同遥感数据集上的强弱会发生明显切换。

实际部署时，最缺的通常不是候选模型，而是目标地区标签。比如要在一个新城市、新国家或新数据源上做场景分类、土地利用识别或开放词表检索，类别名可能是已知的，但没有足够标注样本来判断哪个 VLM 最适合。直接选“论文里平均分最高”的模型不稳，因为遥感数据的分辨率、地物组合、拍摄季节、城市形态和类别定义会改变模型偏差。

更麻烦的是，模型选择、目标域适配和模型集成经常被分开做。先凭经验选一个 backbone，再做 test-time adaptation；或者把多个模型概率简单平均；或者用置信度、熵、交叉熵之类指标选模型。这些做法都隐含一个假设：模型自己的置信度能代表可靠性。但 VLM 在域外数据上很容易过度自信，尤其是遥感类别名和图像纹理不完全匹配时。

RSKT-Seg：开放词表遥感分割需要自己的 benchmark

Sun, 14 Jun 2026 13:00:02 +0800

RSKT-Seg：开放词表遥感分割需要自己的 benchmark

结论：这一轮最值得单独跟踪的是 RSKT-Seg: Remote Sensing Knowledge Transfer for Open-Vocabulary Semantic Segmentation。它的价值不只是提出一个开放词表遥感语义分割模型，而是把问题拆成了三件更基础的事：遥感类别名称太粗，通用视觉语言模型容易被自然图像语义带偏；遥感图像中的尺度、纹理和俯视视角会削弱 CLIP 类文本对齐；现有遥感分割数据集本来就不是为“见过类/未见类”泛化评测设计的。因此 RSKT-Seg 同时给出知识迁移方法和 OVRSISBench，把开放词表遥感分割从 demo 推向可比较 benchmark。

我按 2026-06-14 13:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线。本篇选择 2025-09-16 提交 arXiv、2026-06-10 更新 v2 的 RSKT-Seg。论文和 arXiv HTML 已公开；官方 GitHub 仓库标注为 AAAI 2026 Oral，并提供代码、预训练权重、OVRSISBench 数据集说明和训练/评测配置。该工作面向光学遥感语义分割和开放词表迁移，不属于雷达方向。

这篇适合放进“可提示分割、开放词表与密集预测”。原因是它不满足于让 SAM 或 CLIP 在遥感图上跑一个零样本例子，而是直面开放词表语义分割的评测协议：哪些类别是 base，哪些类别是 novel，文本类别名如何构造，遥感知识如何注入，最后如何在多个公开数据集上比较未见类 mIoU。

背景

开放词表分割在自然图像里已经形成一套常见路线：用 CLIP 或 VLM 建立图像区域和文本类别的对齐，再用 mask proposal、dense decoder 或 region-text matching 给未见类做分割。遥感看上去也适合这条路线，因为很多应用场景确实不可能为每个地区、每个地物类别都重新标注。

问题是，遥感的“词表”并不等于自然图像词表。building 在遥感里可能是密集居民区、高层楼顶、厂房、温室或临时建筑；road 可能是城市道路、乡村土路、桥面、机场跑道或停车场内部通道；bare land、impervious surface、low vegetation 这类标签在自然图像语料里本来就弱。直接把自然图像 CLIP 类别提示搬到遥感分割，模型很容易看见纹理但对不上遥感类别体系。

VLRS-Bench：遥感 VLM 不能只会认物体，还要会推理

Sat, 13 Jun 2026 07:00:02 +0800

VLRS-Bench：遥感 VLM 不能只会认物体，还要会推理

结论：这一轮最值得单独跟踪的是 VLRS-Bench。它的价值不在于又给遥感 VLM 增加一个问答分数，而是把评测问题从“图里有什么”推进到“为什么会这样、应该怎么做、接下来会发生什么”。这对遥感多模态模型很关键：真实地理任务通常不是识别一栋建筑或一片农田，而是要求模型结合空间结构、时间变化、DSM/NIR 等遥感先验和专家 mask，做出有约束的因果、决策和预测推理。

我按 2026-06-13 07:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线。本篇选择 VLRS-Bench: A Vision-Language Reasoning Benchmark for Remote Sensing。论文有 arXiv、官方 GitHub 和 Hugging Face 数据集；数据来源以公开光学/航空/多时相遥感数据、DSM、NIR 和专家标注为主，不走雷达主线。

这篇适合放进“遥感基础模型与多模态理解”。原因是它直接挑战当前遥感 VLM 的核心短板：很多模型已经会做 scene classification、caption、object counting、visual grounding，但在地理因果、规划决策和未来状态预测上仍然不稳。对后续做遥感 VLM、GeoAgent、变化理解、灾害评估和城市规划推理的人来说，VLRS-Bench 更像一个能力诊断器，而不是普通排行榜。

背景

遥感 VLM 过去两年的发展很快。GeoChat、VHM、SkySenseGPT、GeoPixel、GeoLLaVA、EarthDial 等模型把遥感图像接入了语言交互，很多 benchmark 也覆盖了视觉问答、grounding、caption、object counting、referring segmentation 和超高分辨率理解。这些工作很重要，但它们大多还是围绕“感知”展开：模型看见什么、数出几个、框在哪里、图像属于什么类别。

真实遥感应用往往更难。城市扩张不是只问“有建筑吗”，而是问“为什么这片区域更可能继续扩张”；灾害评估不是只问“哪里被破坏”，而是问“道路、坡度、建筑密度和水体关系会怎样影响救援路径”；农业监测不是只问“这是不是农田”，而是问“物候变化是否支持当前作物状态判断”。这些都需要模型把可见语义、空间关系、时间演化和遥感先验连起来。

VLRS-Bench 的问题意识就在这里。论文认为，现有遥感 benchmark 对复杂 reasoning 的覆盖不足，尤其缺少清晰的推理层级、真实的遥感先验和多时相约束。它把遥感 VLM 评测拆成三类：Cognition、Decision、Prediction。简单说，就是分别问“为什么”“怎么做”“会怎样”。这个拆分很适合指导后续研究，因为它不把所有错误都混成一个平均分，而是让我们看到模型到底是因果理解弱、行动规划弱，还是未来演化预测弱。

从 CV/ML 到遥感的迁移路径也清楚。通用 VLM 领域的 visual reasoning、chain-of-thought、tool-augmented reasoning、self-consistency、RLHF/RLAIF 和 verifier 都可以迁移过来；但遥感场景必须额外处理俯视视角、尺度变化、空间自相关、NIR/DSM/DEM 等非 RGB 先验、多时相变化、专家 mask 和地理约束。VLRS-Bench 的价值，是把这些遥感专有变量放进推理题的构造和评测里。

CAFOSat：农业设施 benchmark 暴露遥感 VLM 的落地短板

Sat, 13 Jun 2026 05:00:02 +0800

CAFOSat：农业设施 benchmark 暴露遥感 VLM 的落地短板

结论：这一轮最值得单独跟踪的是 CAFOSat。它不是又一个泛泛的遥感分类数据集，而是把一个真实应用里最难的几件事放到同一个 benchmark 中：公开清单里的点位不准、农业设施形态差异大、负样本很像正样本、跨州泛化困难、还要解释模型到底看到了 barn、manure pond 还是 grazing area。对遥感 AI 来说，这比单纯刷分类精度更有价值，因为它直接暴露了 VLM 和通用视觉基础模型进入高分辨率地理应用时的短板。

我按 2026-06-13 05:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 方向。本篇选择 CVPR 2026 EarthVision Workshop 论文 CAFOSat: A Strongly Annotated Dataset for Infrastructure-Aware CAFO Mapping Using High-Resolution Imagery。论文有 arXiv、CVF Open Access 页面、GitHub 仓库和 Hugging Face 数据集；数据基于 NAIP 高分辨率航空影像，不是雷达方向。

这篇适合放进“多源数据融合、效率部署与应用落地”。原因是它关心的不是单张遥感图像语义理解，而是把多州 CAFO 公开记录、NAIP 影像、土地覆盖约束、人工核验、弱监督定位、基础设施标注、合成增强和可复现实验拆分整合成一个可用 benchmark。它提醒我们：遥感大模型真正落地时，数据质量、空间对齐和 hard negative 往往比换一个更大的 backbone 更关键。

背景

CAFO 是 Concentrated Animal Feeding Operations，即集中式动物饲养设施。它们和农业生产、环境监管、公共健康、疾病监测和气候韧性规划都有关系。问题在于，CAFO 的空间清单往往并不干净：不同州的数据来源不一致，许可记录和实际设施位置可能偏移，点位可能只落在农场入口或行政记录中心，而不是影像里真正可见的 barn、manure lagoon 或放牧区域。

TerraBench：地球科学智能体不能只会调工具

Sat, 13 Jun 2026 03:00:02 +0800

TerraBench：地球科学智能体不能只会调工具

结论：这一轮最值得单独跟踪的是 TerraBench。它的价值不在于又给 LLM Agent 做了一个排行榜，而是把地球科学任务里的真实困难放进了评测：卫星影像、格网物理量、GIS 上下文、仿真器、外部文档和数值容差必须在同一个可执行流程里协同。结果也很直接：强模型并不是不会选工具，而是经常把参数、单位、空间范围、时间窗口和数值证据链做错。

我按 2026-06-13 03:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 方向。本篇选择 2026-06-11 提交的 TerraBench: Can Agents Reason Over Heterogeneous Earth-System Data?。论文有 arXiv、HTML 版本和 GitHub 仓库；它的主线是 Earth-system / geospatial agent benchmark，不是单一遥感视觉模型。

这篇适合放进“多源数据融合、效率部署与应用落地”。原因是它把遥感 AI 从“看懂一张图”推进到“能不能把图像、GIS、环境变量、仿真和文档组织成可审计计算”。对遥感大数据来说，这个方向比普通 VQA 更接近生产系统：用户真正需要的不是模型说一句“这里可能有洪水风险”，而是它能否调用正确数据、设定正确区域、运行正确工具、保留中间产物，并给出容差内的数值答案。

背景

过去一年地理智能体和遥感 VLM 的热度很高，但很多评测仍然偏窄。常见任务是图像问答、caption、单图 grounding、地图工具问答或简单 GIS 操作。它们能测模型是否会读图、会不会调用地图 API，却很难测真实地球科学工作流里最麻烦的部分：数据异构、单位不一致、空间投影、时间窗口、仿真参数、文档约束和结果可追溯性。

TerraBench 的问题意识很明确。天气和气候基础模型擅长预测物理场，但不擅长用自然语言交互式推理；LLM 擅长语言规划，但不能直接处理高维地球系统数据。真实分析往往处在两者之间：研究者要从遥感影像、栅格变量、矢量边界、模拟器输出和论文表格中重建一个可信结论。

这类任务对遥感 AI 很重要，因为遥感应用的终点通常不是单个 mask 或类别标签，而是一个带行动含义的决策：某个县未来几天水资源压力如何，某片作物在指定气候情景下是否减产，某段道路中断会造成多大通勤延误，某个城市热风险是否超过阈值。模型要回答这些问题，必须把视觉、地理和科学计算接起来。

从 CV/ML 到遥感的迁移路径也很清楚。通用 Agent 研究里的 ReAct、工具调用、代码执行、artifact 管理和过程评测，可以迁移到遥感大数据系统；但遥感场景必须额外处理坐标、尺度、时序、空间自相关、物理单位、数据来源和科学容差。TerraBench 正是在这些地方把普通 agent benchmark 拉回地球科学现实。

方法/框架

TerraBench 建在 TerraAgent 之上。TerraAgent 是一个 ReAct-style executable framework，也就是让 LLM 在推理过程中交替进行思考、工具调用和观测，再把环境检索、地理处理、仿真和 artifact-backed computation 连接起来。这里的关键不是“给模型更多工具”，而是把工具调用变成可检查的执行轨迹。

SpatialSky-Bench：把遥感 VLM 评测从看图问答推到空间导航

Sat, 13 Jun 2026 01:00:05 +0800

SpatialSky-Bench：把遥感 VLM 评测从看图问答推到空间导航

结论：这一轮最值得单独跟踪的是 SpatialSky-Bench / Sky-VLM。它的价值不在于又做了一个遥感问答榜，而是把 VLM 的问题从“能不能看懂一张遥感图”推进到“能不能在无人机视角里理解方向、距离、高度、障碍物和降落安全”。这对遥感 VLM 很关键，因为很多真实任务不是静态 caption 或分类，而是带空间约束、风险判断和行动后果的动态决策。

我按 2026-06-13 01:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 方向。本篇选择 CVPR 2026 论文 Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation。论文有 arXiv、CVF Open Access 页面和官方 GitHub；其场景基于无人机视觉导航，不走雷达主线。需要注意的是，关联 UAVScenes 数据集包含相机与 LiDAR 标注，本文只把它作为 UAV 场景几何与视觉 benchmark 背景，不把 LiDAR 或三维重建作为主推荐方向。

这篇适合放进“遥感基础模型与多模态理解”类目。它提醒我们：遥感 VLM 的下一步不应只追求更会描述图像，而要能处理空间关系、尺度、可通行性、目标相对位置和安全决策。对城市应急、低空巡检、灾害侦察、无人机测绘和地面-空中协同，这比普通 VQA 更接近应用需求。

背景

过去两年遥感 VLM 的评测大多围绕 caption、VQA、grounding、目标识别、场景分类和开放词表理解展开。这些任务很有必要，但它们通常仍是离线、静态、单图判断：模型看一张图，回答里面有什么、某个目标在哪里、图像属于什么类别。问题是，无人机和低空遥感场景里的“理解”往往不是静态语义，而是空间行动能力。

例如，一个巡检无人机需要判断前方是否可安全穿越，当前视角下目标在左前方还是右后方，障碍物高度是否构成风险，候选降落区域是否平整开阔，建筑、道路、树木和车辆之间的相对距离是否支持下一步动作。这类问题很难用普通图像描述衡量。一个 VLM 可以把图说得很流畅，却仍然无法稳定判断方向、距离和安全边界。

SpatialSky-Bench 把这个缺口显式化。它关注的是 UAV navigation 中的 spatial intelligence，也就是让模型在空中视角里完成环境感知和场景理解。CV-to-RS 的迁移路径很清楚：通用 VLM 里已有的视觉问答、空间推理和多模态指令能力，需要适配遥感/UAV 视角的尺度变化、俯视几何、遮挡、航迹连续性、地物类别和安全约束。

RS-50 Hierarchical Taxonomy Metrics for Remote Sensing

Sun, 07 Jun 2026 09:49:00 +0800

RS-50 Hierarchical Taxonomy Metrics for Remote Sensing

结论摘要

遥感分割和检测的类别体系天然不是平面的：impervious surface / road / runway / building、crop / rice / field、water / river / lake / flood water、tree / forest / shrubland 常常同时包含 land-cover、land-use、object、material、function 和 fine-grained species。标准 mIoU、h-mIoU、mAP 会把“预测到同一父类但粒度不对”和“完全不相关类别”同等惩罚；开放词表模型又会因为同义词、上下位词、地区命名差异产生额外歧义。

最有潜力的小课题不是再提出一个 OVSS 模型，而是提出一个 taxonomy-aware evaluation protocol：同时报告叶子类别精度、父类一致性、语义距离、层级混淆矩阵和开放词表别名鲁棒性。这个指标体系可以服务于 SegEarth-OV / RSKT-Seg / Pi-Seg / AerOSeg / HieraRS / GeoFM-VLM 等模型，也能用于审计 OpenEarthMap、Dynamic World、ESA WorldCover、NLCD、CORINE 等不同类别体系之间的映射误差。

问题由来

传统遥感数据集通常固定一个闭集标签表。OpenEarthMap 用 8 类高分辨率 land-cover 标签覆盖 44 个国家和 97 个区域，适合全球高分辨率制图，但类别较粗。OpenEarthMap project

RS-49 Weak Labels from OSM/Map Products

Sun, 07 Jun 2026 09:48:00 +0800

RS-49 Weak Labels from OSM/Map Products

1. 问题由来

遥感标注最贵的部分通常不是图像本身，而是“地理一致、时相一致、类别一致”的像素级或对象级标签。OSM、Microsoft/Google building footprints、ESA WorldCover、Dynamic World、FROM-GLC、GlobeLand30、HydroLAKES/Global Surface Water、各国地籍和道路数据看起来像天然标签源，但它们本质上是异构、异时相、异精度的地图产品。直接把它们当 ground truth 会把地图误差转成模型偏差。

这个方向在 2024-2026 变得更重要，原因有三点：

Foundation model 需要海量弱监督。OSM tag、道路/建筑矢量和土地覆盖产品可以提供全球尺度的预训练或伪标签信号。
SAM、GroundingDINO、VLM 可以半自动生成 mask/box/caption，但它们仍需要地图产品做类别约束、空间先验或质量校验。
真实部署更看重跨地区泛化。OSM 在欧美城市覆盖好，在农村、发展中地区、灾后区域常缺失或滞后；这会直接造成空间公平性问题。

核心研究问题不是“能不能用 OSM 做弱标签”，而是：如何估计每个弱标签的可靠性、如何处理时相和空间错位、如何在训练时避免模型学习地图产品的系统性偏差。

2. 代表论文与项目

类型	论文/项目	年份/来源	链接	与弱标签的关系
OSM 自监督	Rose: Register Assisted General Time Series Embedding for Multimodal and Sensor Agnostic Satellite Data	2024, Remote Sensing of Environment	ScienceDirect, code	使用 OSM register / 地图语义辅助多模态、多传感器时序表示学习，是“地图作为预训练信号”的代表。
地图弱标签分割	SAModified: A Foundation Model for Image Segmentation of Remote Sensing Data	2025, arXiv	arXiv	明确从已有地图产品/基础地理数据构造 prompt 和伪标签，用 SAM 系列能力做遥感分割。
地图产品纠偏	MapSR: Mapping with Super-Resolution	2024, arXiv	arXiv	研究用低分辨率/粗糙地图产品作为 supervision，恢复更高分辨率的空间边界，是“地图产品到高分制图”的典型问题。
大规模土地覆盖	LandSegmenter: Large-scale land cover mapping by segmentation models	2025, arXiv	arXiv	使用全球土地覆盖产品和大规模影像训练分割模型，体现 map product label noise 与类别体系问题。
OSM + RS 表示	Spatial Representation Learning Beyond Pixels	2026, arXiv	arXiv	将 raster data 与 vector semantics 统一，说明 OSM/矢量语义正从下游弱标签变成 foundation model 表示的一部分。
benchmark / 数据质量	PANGAEA benchmark	2024/2025	project, GitHub, arXiv	虽不是专门弱标签论文，但其跨任务/跨区域协议可作为地图弱标签方法的泛化评测框架。
真实偏移评测	EarthShift	2026, arXiv	project, arXiv	提供真实世界分布偏移评测思路，可检测地图弱标签模型是否只适配局部数据质量。
鲁棒性评测	REOBench	2025, arXiv	arXiv, GitHub	可用于评估弱标签训练模型在扰动、退化和 OOD 下的可靠性。
弱标签来源	Microsoft Global ML Building Footprints	持续更新	GitHub	全球建筑 footprint，可作为建筑分割/检测弱标签；存在地区覆盖、时间戳和几何误差问题。
弱标签来源	Google Open Buildings	持续更新	dataset	非洲、南亚、东南亚等区域建筑 footprint，适合研究区域覆盖差异和弱标签置信度。
弱标签来源	Dynamic World	持续更新	Google, Nature paper	10m near-real-time land cover 概率产品，适合做时序弱标签和置信度加权。
弱标签来源	ESA WorldCover	2020/2021 product, 仍常用	ESA	10m 全球土地覆盖标签源，适合弱监督 land-cover pretraining，但类别粗、时相固定。
弱标签来源	Field boundaries / FTW	2025 左右活跃	GitHub, project	地块边界弱标签和农业制图常用资源，可研究 parcel/field boundary 与作物标签错位。
质量规范	OpenStreetMap Import Guidelines	官方文档	OSM Wiki	不是论文，但说明 OSM 数据导入、许可证、质量审查和社区验证流程，是使用 OSM 标签时必须考虑的约束。

3. 弱标签噪声类型

3.1 时效误差

地图产品和遥感影像常不在同一天甚至同一年。建筑新增/拆除、道路施工、洪水季节性水体、农田轮作、城市扩张都会让标签与影像真实状态不一致。

RS-48 Active Learning with SAM/VLM Human-in-the-Loop

Sun, 07 Jun 2026 09:47:00 +0800

RS-48 Active Learning with SAM/VLM Human-in-the-Loop

1. 问题由来

遥感标注贵，贵在三个地方：大幅面影像要切片和定位，小目标/旋转目标/密集实例边界难修，类别语义还经常依赖地理上下文。传统主动学习只问“哪张图最不确定”，但 foundation model 时代的问题变了：SAM 能给 mask 但不懂类别，GroundingDINO/VLM 能给语义但受 prompt 和语言先验影响，人类标注者的主要成本也从“从零画 mask”变成“检查、修正、合并、改类别”。

因此，这个方向的核心研究问题不是再做一个主动学习打分函数，而是：

如何估计一张候选图像的“自动标注可修正性”：SAM/VLM 生成的伪标签是否值得交给人类改？
如何把选样目标从 uncertainty 扩展到地理覆盖、季节覆盖、长尾类别、小目标覆盖和纠错成本？
如何让人类纠错反过来更新 prompt、prototype、类别词表或轻量 adapter，而不是只把修正标签放进训练集？
如何用“单位人工分钟带来的 mIoU/AP 提升”评估方法，而不是只比较标注比例？

2. 2024-2026 代表论文/项目

论文/项目	年份/来源	链接	官方代码/数据	与本方向的关系
Active Learning Meets Foundation Models: Fast Remote Sensing Data Annotation	ICCV 2025	CVF PDF	GitHub: ICCV_AL4FM	最直接锚点：把主动学习和 SAM 半自动遥感目标检测标注结合，强调标注时间和冷启动。
FMARS: Annotating Remote Sensing Images for Disaster Monitoring with Foundation Models	2024 IGARSS / arXiv	arXiv	HF dataset, Papers with Code	使用 GroundingDINO + SAM 自动标注灾害相关 VHR 遥感图像，适合作为自动伪标签管线基线。
RemoteSAM / RemoteSAM-270K	2025 ACM MM oral / arXiv	arXiv	GitHub, HF dataset	构建 image-text-mask 三元组数据引擎，可作为 SAM/VLM 自动标注和 referring segmentation 基座。
Segment Anything, From Space?	WACV 2024	CVF PDF	论文评测多遥感数据	系统暴露 SAM 在 overhead imagery 上的失败模式，是设计人类纠错和 prompt refinement 的依据。
PointSAM	2024/2025 arXiv / TGRS 方向	arXiv	GitHub	点监督、负提示校准、伪标签自训练；可用于“少量点击 -> 更好 mask”的 HITL 单元。
OpenRSD: Towards Open-prompts for Object Detection in Remote Sensing Images	ICCV 2025	CVF, arXiv	论文页为主	开放提示遥感检测，适合作为 VLM/文本 prompt 生成候选框的比较对象。
VRSBench	NeurIPS 2024 Datasets & Benchmarks	arXiv, NeurIPS PDF	GitHub	高质量遥感视觉语言 benchmark，可借鉴人工验证、object reference 和 VQA 标注质量控制。
Grounded-SAM-2	2024-2025 official-style project	GitHub	GitHub	通用 GroundingDINO/SAM2 管线，可迁移为“文本/框 -> mask -> 人类修正”的工程基线。
SAM 2	2024 Meta	project, GitHub	GitHub/model weights	对多帧 memory 和交互式修正友好，可用于多时相遥感标注闭环。
GEOBench-VLM	ICCV 2025	CVF PDF	GitHub	可作为 VLM 语义质量和定位能力评估参考，避免把语言答案当作可靠标签。

3. 方法脉络

3.1 传统主动学习

典型做法是用 uncertainty、entropy、margin、BALD、core-set/diversity 或 query-by-committee 选择未标注样本。遥感中它的问题是：随机切片高度冗余，空间相邻样本相关性强，模型最不确定的样本可能只是云、阴影、配准错或异常纹理，并不一定值得人类标注。

RS-47 Benchmark Contamination and Deduplication

Sun, 07 Jun 2026 09:46:00 +0800

RS-47 Benchmark Contamination and Deduplication

细问题：专门研究遥感 benchmark contamination：预训练图像、下游测试、同一区域瓦片、增强副本、near-duplicate 如何去重；提出基于地理坐标、时间戳、图像哈希和 embedding 相似度的 dedup pipeline。
范围：光学/多光谱/高分辨率遥感优先；SAR-only 不作为主线。本文与 RS-02 GeoFM Benchmark Leakage Audit 和 RS-25 OOD Split Design 互补：RS-02 偏 GeoFM 评测泄漏审计，RS-25 偏 OOD split；本文件专门落在数据污染检测、近重复去重和可执行工具链。

1. 结论先行

遥感 benchmark contamination 不是一个抽象风险，而是已经被实证发现的硬问题。最直接的证据是 CVPR 2026 oral 论文 Data Leakage Detection and De-duplication in Large Scale Geospatial Image Datasets：作者审计 INRIA、SpaceNet 2 和 AICrowd Mapping Challenge 等建筑 footprint 数据集，发现 AICrowd 训练集中约 25 万张、接近 90% 图像是完全或增强重复；验证集中大量样本也出现在训练集中，并给出官方代码 Hash_and_search。

对 2024-2026 的 GeoFM/VLM 时代来说，问题更复杂：模型预训练数据往往来自全球 Sentinel-2、Landsat、NAIP、航空影像、Web caption、OSM/WorldCover/building footprint 等衍生产品；下游 benchmark 又可能使用相同区域、相同年份、相同 parent scene、相同标签产品或同源 caption/QA。只做 image-level random split 已经不够，必须做 provenance-aware dedup：同时用坐标、时间、传感器、parent scene、精确/感知哈希、embedding 近邻和标签来源审计。