数据集 - Tag - 堂堂一跑堂

FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座

Tue, 16 Jun 2026 13:00:02 +0800

FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座

结论：这一轮最值得补进雷达的是 FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models。它不是又一个只做 RGB caption/retrieval 的遥感 VLM 数据集，而是把 60 万组遥感 RGB 图像、翻译得到的 infrared-style 图像和文本描述组织成 RGB-IR-text triplets，并额外生成 49,068 条训练用 IR-aware captions 与 10,000 条测试用 IR-aware captions。论文用 FusionRS 训练 CLIP-style RGB-IR-text 对齐模型和生成式 VLM，显示 IR-aware captions 能显著增强红外图像描述、IR-cue QA 和红外-文本对齐。对遥感 AI 来说，它的价值不在于提供“真实热红外物理测量”，而在于提出一个很清晰的数据工程问题：如果遥感 VLM 要走向非 RGB、多模态、可解释描述，文本监督必须显式描述该模态的视觉证据，而不能只复用 RGB caption。

我按 2026-06-16 13:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是 RGB/infrared vision-language 数据集与模型训练论文，红外在这里是 visible/infrared 或 infrared-style 视觉模态，不是 SAR、InSAR、微波后向散射或雷达相干。同期本地文章已经覆盖 RATS、Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、CoastlineVLM、Stateful Visual Encoders、LG-SAM、VecLang、TerraBench、OSTB 等方向，因此这里不重复已有条目。

RS-50 Hierarchical Taxonomy Metrics for Remote Sensing

Sun, 07 Jun 2026 09:49:00 +0800

RS-50 Hierarchical Taxonomy Metrics for Remote Sensing

结论摘要

遥感分割和检测的类别体系天然不是平面的：impervious surface / road / runway / building、crop / rice / field、water / river / lake / flood water、tree / forest / shrubland 常常同时包含 land-cover、land-use、object、material、function 和 fine-grained species。标准 mIoU、h-mIoU、mAP 会把“预测到同一父类但粒度不对”和“完全不相关类别”同等惩罚；开放词表模型又会因为同义词、上下位词、地区命名差异产生额外歧义。

最有潜力的小课题不是再提出一个 OVSS 模型，而是提出一个 taxonomy-aware evaluation protocol：同时报告叶子类别精度、父类一致性、语义距离、层级混淆矩阵和开放词表别名鲁棒性。这个指标体系可以服务于 SegEarth-OV / RSKT-Seg / Pi-Seg / AerOSeg / HieraRS / GeoFM-VLM 等模型，也能用于审计 OpenEarthMap、Dynamic World、ESA WorldCover、NLCD、CORINE 等不同类别体系之间的映射误差。

问题由来

传统遥感数据集通常固定一个闭集标签表。OpenEarthMap 用 8 类高分辨率 land-cover 标签覆盖 44 个国家和 97 个区域，适合全球高分辨率制图，但类别较粗。OpenEarthMap project

RS-49 Weak Labels from OSM/Map Products

Sun, 07 Jun 2026 09:48:00 +0800

RS-49 Weak Labels from OSM/Map Products

1. 问题由来

遥感标注最贵的部分通常不是图像本身，而是“地理一致、时相一致、类别一致”的像素级或对象级标签。OSM、Microsoft/Google building footprints、ESA WorldCover、Dynamic World、FROM-GLC、GlobeLand30、HydroLAKES/Global Surface Water、各国地籍和道路数据看起来像天然标签源，但它们本质上是异构、异时相、异精度的地图产品。直接把它们当 ground truth 会把地图误差转成模型偏差。

这个方向在 2024-2026 变得更重要，原因有三点：

Foundation model 需要海量弱监督。OSM tag、道路/建筑矢量和土地覆盖产品可以提供全球尺度的预训练或伪标签信号。
SAM、GroundingDINO、VLM 可以半自动生成 mask/box/caption，但它们仍需要地图产品做类别约束、空间先验或质量校验。
真实部署更看重跨地区泛化。OSM 在欧美城市覆盖好，在农村、发展中地区、灾后区域常缺失或滞后；这会直接造成空间公平性问题。

核心研究问题不是“能不能用 OSM 做弱标签”，而是：如何估计每个弱标签的可靠性、如何处理时相和空间错位、如何在训练时避免模型学习地图产品的系统性偏差。

2. 代表论文与项目

类型	论文/项目	年份/来源	链接	与弱标签的关系
OSM 自监督	Rose: Register Assisted General Time Series Embedding for Multimodal and Sensor Agnostic Satellite Data	2024, Remote Sensing of Environment	ScienceDirect, code	使用 OSM register / 地图语义辅助多模态、多传感器时序表示学习，是“地图作为预训练信号”的代表。
地图弱标签分割	SAModified: A Foundation Model for Image Segmentation of Remote Sensing Data	2025, arXiv	arXiv	明确从已有地图产品/基础地理数据构造 prompt 和伪标签，用 SAM 系列能力做遥感分割。
地图产品纠偏	MapSR: Mapping with Super-Resolution	2024, arXiv	arXiv	研究用低分辨率/粗糙地图产品作为 supervision，恢复更高分辨率的空间边界，是“地图产品到高分制图”的典型问题。
大规模土地覆盖	LandSegmenter: Large-scale land cover mapping by segmentation models	2025, arXiv	arXiv	使用全球土地覆盖产品和大规模影像训练分割模型，体现 map product label noise 与类别体系问题。
OSM + RS 表示	Spatial Representation Learning Beyond Pixels	2026, arXiv	arXiv	将 raster data 与 vector semantics 统一，说明 OSM/矢量语义正从下游弱标签变成 foundation model 表示的一部分。
benchmark / 数据质量	PANGAEA benchmark	2024/2025	project, GitHub, arXiv	虽不是专门弱标签论文，但其跨任务/跨区域协议可作为地图弱标签方法的泛化评测框架。
真实偏移评测	EarthShift	2026, arXiv	project, arXiv	提供真实世界分布偏移评测思路，可检测地图弱标签模型是否只适配局部数据质量。
鲁棒性评测	REOBench	2025, arXiv	arXiv, GitHub	可用于评估弱标签训练模型在扰动、退化和 OOD 下的可靠性。
弱标签来源	Microsoft Global ML Building Footprints	持续更新	GitHub	全球建筑 footprint，可作为建筑分割/检测弱标签；存在地区覆盖、时间戳和几何误差问题。
弱标签来源	Google Open Buildings	持续更新	dataset	非洲、南亚、东南亚等区域建筑 footprint，适合研究区域覆盖差异和弱标签置信度。
弱标签来源	Dynamic World	持续更新	Google, Nature paper	10m near-real-time land cover 概率产品，适合做时序弱标签和置信度加权。
弱标签来源	ESA WorldCover	2020/2021 product, 仍常用	ESA	10m 全球土地覆盖标签源，适合弱监督 land-cover pretraining，但类别粗、时相固定。
弱标签来源	Field boundaries / FTW	2025 左右活跃	GitHub, project	地块边界弱标签和农业制图常用资源，可研究 parcel/field boundary 与作物标签错位。
质量规范	OpenStreetMap Import Guidelines	官方文档	OSM Wiki	不是论文，但说明 OSM 数据导入、许可证、质量审查和社区验证流程，是使用 OSM 标签时必须考虑的约束。

3. 弱标签噪声类型

3.1 时效误差

地图产品和遥感影像常不在同一天甚至同一年。建筑新增/拆除、道路施工、洪水季节性水体、农田轮作、城市扩张都会让标签与影像真实状态不一致。

RS-48 Active Learning with SAM/VLM Human-in-the-Loop

Sun, 07 Jun 2026 09:47:00 +0800

RS-48 Active Learning with SAM/VLM Human-in-the-Loop

1. 问题由来

遥感标注贵，贵在三个地方：大幅面影像要切片和定位，小目标/旋转目标/密集实例边界难修，类别语义还经常依赖地理上下文。传统主动学习只问“哪张图最不确定”，但 foundation model 时代的问题变了：SAM 能给 mask 但不懂类别，GroundingDINO/VLM 能给语义但受 prompt 和语言先验影响，人类标注者的主要成本也从“从零画 mask”变成“检查、修正、合并、改类别”。

因此，这个方向的核心研究问题不是再做一个主动学习打分函数，而是：

如何估计一张候选图像的“自动标注可修正性”：SAM/VLM 生成的伪标签是否值得交给人类改？
如何把选样目标从 uncertainty 扩展到地理覆盖、季节覆盖、长尾类别、小目标覆盖和纠错成本？
如何让人类纠错反过来更新 prompt、prototype、类别词表或轻量 adapter，而不是只把修正标签放进训练集？
如何用“单位人工分钟带来的 mIoU/AP 提升”评估方法，而不是只比较标注比例？

2. 2024-2026 代表论文/项目

论文/项目	年份/来源	链接	官方代码/数据	与本方向的关系
Active Learning Meets Foundation Models: Fast Remote Sensing Data Annotation	ICCV 2025	CVF PDF	GitHub: ICCV_AL4FM	最直接锚点：把主动学习和 SAM 半自动遥感目标检测标注结合，强调标注时间和冷启动。
FMARS: Annotating Remote Sensing Images for Disaster Monitoring with Foundation Models	2024 IGARSS / arXiv	arXiv	HF dataset, Papers with Code	使用 GroundingDINO + SAM 自动标注灾害相关 VHR 遥感图像，适合作为自动伪标签管线基线。
RemoteSAM / RemoteSAM-270K	2025 ACM MM oral / arXiv	arXiv	GitHub, HF dataset	构建 image-text-mask 三元组数据引擎，可作为 SAM/VLM 自动标注和 referring segmentation 基座。
Segment Anything, From Space?	WACV 2024	CVF PDF	论文评测多遥感数据	系统暴露 SAM 在 overhead imagery 上的失败模式，是设计人类纠错和 prompt refinement 的依据。
PointSAM	2024/2025 arXiv / TGRS 方向	arXiv	GitHub	点监督、负提示校准、伪标签自训练；可用于“少量点击 -> 更好 mask”的 HITL 单元。
OpenRSD: Towards Open-prompts for Object Detection in Remote Sensing Images	ICCV 2025	CVF, arXiv	论文页为主	开放提示遥感检测，适合作为 VLM/文本 prompt 生成候选框的比较对象。
VRSBench	NeurIPS 2024 Datasets & Benchmarks	arXiv, NeurIPS PDF	GitHub	高质量遥感视觉语言 benchmark，可借鉴人工验证、object reference 和 VQA 标注质量控制。
Grounded-SAM-2	2024-2025 official-style project	GitHub	GitHub	通用 GroundingDINO/SAM2 管线，可迁移为“文本/框 -> mask -> 人类修正”的工程基线。
SAM 2	2024 Meta	project, GitHub	GitHub/model weights	对多帧 memory 和交互式修正友好，可用于多时相遥感标注闭环。
GEOBench-VLM	ICCV 2025	CVF PDF	GitHub	可作为 VLM 语义质量和定位能力评估参考，避免把语言答案当作可靠标签。

3. 方法脉络

3.1 传统主动学习

典型做法是用 uncertainty、entropy、margin、BALD、core-set/diversity 或 query-by-committee 选择未标注样本。遥感中它的问题是：随机切片高度冗余，空间相邻样本相关性强，模型最不确定的样本可能只是云、阴影、配准错或异常纹理，并不一定值得人类标注。

RS-47 Benchmark Contamination and Deduplication

Sun, 07 Jun 2026 09:46:00 +0800

RS-47 Benchmark Contamination and Deduplication

细问题：专门研究遥感 benchmark contamination：预训练图像、下游测试、同一区域瓦片、增强副本、near-duplicate 如何去重；提出基于地理坐标、时间戳、图像哈希和 embedding 相似度的 dedup pipeline。
范围：光学/多光谱/高分辨率遥感优先；SAR-only 不作为主线。本文与 RS-02 GeoFM Benchmark Leakage Audit 和 RS-25 OOD Split Design 互补：RS-02 偏 GeoFM 评测泄漏审计，RS-25 偏 OOD split；本文件专门落在数据污染检测、近重复去重和可执行工具链。

1. 结论先行

遥感 benchmark contamination 不是一个抽象风险，而是已经被实证发现的硬问题。最直接的证据是 CVPR 2026 oral 论文 Data Leakage Detection and De-duplication in Large Scale Geospatial Image Datasets：作者审计 INRIA、SpaceNet 2 和 AICrowd Mapping Challenge 等建筑 footprint 数据集，发现 AICrowd 训练集中约 25 万张、接近 90% 图像是完全或增强重复；验证集中大量样本也出现在训练集中，并给出官方代码 Hash_and_search。

对 2024-2026 的 GeoFM/VLM 时代来说，问题更复杂：模型预训练数据往往来自全球 Sentinel-2、Landsat、NAIP、航空影像、Web caption、OSM/WorldCover/building footprint 等衍生产品；下游 benchmark 又可能使用相同区域、相同年份、相同 parent scene、相同标签产品或同源 caption/QA。只做 image-level random split 已经不够，必须做 provenance-aware dedup：同时用坐标、时间、传感器、parent scene、精确/感知哈希、embedding 近邻和标签来源审计。

RS-46 Synthetic Instruction Data Quality for RS-VLM

Sun, 07 Jun 2026 09:45:00 +0800

RS-46 Synthetic Instruction Data Quality for RS-VLM

细问题：遥感 VLM 的合成 instruction/caption 数据质量如何评估、过滤和人工抽检？

摘要

2024-2026 年遥感 VLM 的核心数据路线可以概括为三类：把已有 caption/VQA/检测/分割数据转成 instruction；用 GPT-4V/通用 VLM/LLM 生成多轮问答、细粒度 caption 或 scene graph；再用人工验证、负样本或 benchmark 协议约束模型幻觉。问题是，遥感图像有小目标、俯视视角、尺度/GSD、地理上下文和类别层级，通用 VLM 生成的数据很容易出现“看不见却说有”“模板句式过强”“类别先验替代图像证据”“地理常识编造”等伪细节。

本方向最值得做的小课题不是再堆一个更大的 instruction 数据集，而是提出一个可复现的 Synthetic RS-VLM Data Quality Protocol：对每条 image-instruction-answer 做来源追踪、视觉证据检查、地理/尺度一致性检查、负样本压力测试、人工分层抽检和训练收益验证。

问题由来

遥感 VLM 训练数据的难点来自两个冲突：

大规模 instruction 数据必须自动化生成，否则成本不可承受。
遥感场景又极其依赖证据，自动生成的一句 caption 或 QA 只要错一个小目标、方向、类别层级，就会把模型训练成“会说但不看图”。

2024 年的 RS-LLaVA、SkyEyeGPT、GeoChat、RS-GPT4V、SkySenseGPT、VHM 都在扩充 instruction 数据；2025-2026 年的 GEOBench-VLM、OmniEarth、RSHBench/RADAR 则开始反过来诊断这些数据和模型是否真的可靠。这个演化说明：数据质量本身已经成为遥感 VLM 的研究问题。

代表论文与资源

工作	年份/venue	数据构造方式	与数据质量相关的贡献	主要风险/可借鉴点	链接
RS-LLaVA	2024 Remote Sensing	将 caption 和 VQA 数据混合成 RS-instructions	早期 LLaVA-style RS caption+VQA 指令数据	多来自既有数据集，任务覆盖窄，容易继承原数据集偏差	paper, GitHub
SkyEyeGPT	2024 arXiv / 2025 ISPRS JPRS	构造 SkyEye-968k，单任务和多任务 instruction	统一多种 RS vision-language 任务	模板化和任务格式转换质量需要审计	arXiv, GitHub
GeoChat	2024 CVPR	构造 grounded RS instruction，包含 region dialogue / grounding	强调遥感 grounded conversation，开源代码、模型、数据和评测	grounding 数据能缓解纯语言幻觉，但 bbox/region 与答案一致性仍需检查	CVF, GitHub
VHM	2024 arXiv / 2025 AAAI	VersaD rich captions + HnstD honest/deceptive questions	引入详细 caption 和不存在目标的欺骗性问题，直接针对“诚实性”	很适合作为 RS-VLM 数据负样本构造模板	arXiv, GitHub
RS-GPT4V	2024 arXiv	用 GPT-4V 构造统一多模态 instruction-following 数据	代表 GPT-4V 生成遥感指令数据路线	需要系统验证 GPT-4V 生成细节是否有图像证据	arXiv, GitHub
SkySenseGPT / FIT-RS	2024 arXiv	FIT-RS，约 1.8M instruction，含关系推理、scene graph	关注复杂语义关系和细粒度理解	大规模合成/转换数据必须检查关系三元组是否可见	arXiv, GitHub
VRSBench	2024 NeurIPS Datasets & Benchmarks	高质量 RS vision-language benchmark，caption/object reference/VQA	将 benchmark 从简单问答扩展到多任务	可作为抽检协议和人工验证标准参考	paper, GitHub
RSUniVLM	2024 arXiv	图像级、区域级、像素级、多图输入统一	粒度 MoE 让 instruction 覆盖多粒度任务	需要检查不同粒度标签互相是否一致	arXiv, project
GeoGround	2024 arXiv	用 HBB/OBB/mask 支持遥感视觉 grounding	提供更细的视觉证据约束	可用于过滤“有答案但无定位证据”的样本	arXiv, GitHub
GEOBench-VLM	2025 ICCV	多任务 geospatial VLM benchmark，包含自动与人工验证标注	用 MCQ 降低 open-ended 评估偏差，覆盖计数、定位、时序、关系等	可借鉴其任务 taxonomy 和人工核验方式	CVF PDF, GitHub
OmniEarth	2026 arXiv	44,210 manually verified instructions，含 MCQ/open-ended、bbox/mask	blind test + semantic consistency，用于检验是否依赖视觉证据	很适合作为“数据质量目标函数”的 benchmark	arXiv, HF dataset
RSHBench/RADAR	2026 arXiv	细粒度诊断 RS-VQA 事实/逻辑幻觉	把幻觉归因到 grounding failure 和小目标误读	可直接用于合成数据负样本和失败模式分类	arXiv, GitHub
Cambrian-1	2024 NeurIPS	通用 MLLM 数据策展和分布平衡	强调高质量视觉指令数据、数据源平衡、视觉中心 benchmark	可迁移为 RS-VLM 数据混合比例和质量审计原则	NeurIPS, GitHub
What matters when building VLMs?	2024 NeurIPS	通用 VLM 构建消融	讨论训练混合、数据重复、合成 caption 对 VLM 的影响	可作为 RS 合成 caption 是否真正增益的消融模板	paper

数据构造路线对比

路线	典型做法	优点	质量风险	建议检查
既有数据集转 instruction	将 caption/VQA/detection/segmentation 标签包装为自然语言 QA	成本低、可复现	模板化强，问题答案分布单一，继承旧数据标签噪声	模板多样性、答案分布、同图多问一致性
GPT-4V/通用 VLM 生成	给图像生成 caption、多轮 QA、关系描述	规模大，语言自然	小目标、尺度、类别和空间关系幻觉	视觉证据核验、负样本、人工抽检
LLM 基于标签生成	用已有 bbox/mask/class 让 LLM 生成问答	语义可控，便于批量生成	答案可能只来自标签而不是图像；语言先验强	bbox/mask-answer 一致性、图像可见性
detector/SAM/VLM 联合自动标注	GroundingDINO/SAM/CLIP/VLM 产生区域和描述	有区域证据，适合 grounding	detector 漏检、SAM 类别无关、CLIP 类别混淆	多模型一致性、mask stability、类别置信度
人工验证 benchmark	人工校验 instruction、答案和证据	可信度高，适合评测	成本高，覆盖有限	分层抽样、双人标注、一致性统计
hard negative / deceptive QA	问不存在对象、相似类别、空间关系陷阱	直接抑制幻觉	构造不自然会让模型学到模板捷径	负样本自然度、与正样本配对、难度分层

质量问题分类

伪细节幻觉：caption 里出现图像中没有的飞机、船、道路、建筑损毁等。
小目标误读：把 tiny vehicle、storage tank、greenhouse、ship 等当成纹理或相似类别。
空间关系错误：left/right、near、inside、parallel、surrounded by 在俯视图中容易错。
尺度/GSD 错误：把球场、停车场、房屋屋顶等按自然图像尺度理解。
类别层级混乱：land cover 与 object label 混用，例如 impervious surface/road/runway/building。
模板偏置：模型靠问题句式猜答案，而不是看图。
答案分布偏置：yes/no、选项位置、常见类别过度集中。
地理常识编造：根据地区名、典型场景或语言先验推断不可见信息。
多粒度不一致：同一图像的 image-level caption、region QA、mask label 互相矛盾。
训练-测试污染：合成数据来自公开 benchmark 或同一区域瓦片，导致评测虚高。

可执行的数据过滤协议

Stage 0: 数据血缘记录

每条样本保存：