# RS-49 Weak Labels from OSM/Map Products


# RS-49 Weak Labels from OSM/Map Products

## 1. 问题由来

遥感标注最贵的部分通常不是图像本身，而是“地理一致、时相一致、类别一致”的像素级或对象级标签。OSM、Microsoft/Google building footprints、ESA WorldCover、Dynamic World、FROM-GLC、GlobeLand30、HydroLAKES/Global Surface Water、各国地籍和道路数据看起来像天然标签源，但它们本质上是异构、异时相、异精度的地图产品。直接把它们当 ground truth 会把地图误差转成模型偏差。

这个方向在 2024-2026 变得更重要，原因有三点：

1. Foundation model 需要海量弱监督。OSM tag、道路/建筑矢量和土地覆盖产品可以提供全球尺度的预训练或伪标签信号。
2. SAM、GroundingDINO、VLM 可以半自动生成 mask/box/caption，但它们仍需要地图产品做类别约束、空间先验或质量校验。
3. 真实部署更看重跨地区泛化。OSM 在欧美城市覆盖好，在农村、发展中地区、灾后区域常缺失或滞后；这会直接造成空间公平性问题。

核心研究问题不是“能不能用 OSM 做弱标签”，而是：如何估计每个弱标签的可靠性、如何处理时相和空间错位、如何在训练时避免模型学习地图产品的系统性偏差。

## 2. 代表论文与项目

| 类型 | 论文/项目 | 年份/来源 | 链接 | 与弱标签的关系 |
|---|---|---:|---|---|
| OSM 自监督 | Rose: Register Assisted General Time Series Embedding for Multimodal and Sensor Agnostic Satellite Data | 2024, Remote Sensing of Environment | [ScienceDirect](https://www.sciencedirect.com/science/article/pii/S0034425724005996), [code](https://github.com/antofuller/rose) | 使用 OSM register / 地图语义辅助多模态、多传感器时序表示学习，是“地图作为预训练信号”的代表。 |
| 地图弱标签分割 | SAModified: A Foundation Model for Image Segmentation of Remote Sensing Data | 2025, arXiv | [arXiv](https://arxiv.org/abs/2503.08101) | 明确从已有地图产品/基础地理数据构造 prompt 和伪标签，用 SAM 系列能力做遥感分割。 |
| 地图产品纠偏 | MapSR: Mapping with Super-Resolution | 2024, arXiv | [arXiv](https://arxiv.org/abs/2406.00891) | 研究用低分辨率/粗糙地图产品作为 supervision，恢复更高分辨率的空间边界，是“地图产品到高分制图”的典型问题。 |
| 大规模土地覆盖 | LandSegmenter: Large-scale land cover mapping by segmentation models | 2025, arXiv | [arXiv](https://arxiv.org/abs/2504.03451) | 使用全球土地覆盖产品和大规模影像训练分割模型，体现 map product label noise 与类别体系问题。 |
| OSM + RS 表示 | Spatial Representation Learning Beyond Pixels | 2026, arXiv | [arXiv](https://arxiv.org/abs/2606.02374) | 将 raster data 与 vector semantics 统一，说明 OSM/矢量语义正从下游弱标签变成 foundation model 表示的一部分。 |
| benchmark / 数据质量 | PANGAEA benchmark | 2024/2025 | [project](https://pangaea-bench.github.io/), [GitHub](https://github.com/yurujaja/pangaea-bench), [arXiv](https://arxiv.org/abs/2412.04204) | 虽不是专门弱标签论文，但其跨任务/跨区域协议可作为地图弱标签方法的泛化评测框架。 |
| 真实偏移评测 | EarthShift | 2026, arXiv | [project](https://earthshift.github.io/), [arXiv](https://arxiv.org/abs/2605.29330) | 提供真实世界分布偏移评测思路，可检测地图弱标签模型是否只适配局部数据质量。 |
| 鲁棒性评测 | REOBench | 2025, arXiv | [arXiv](https://arxiv.org/abs/2505.16793), [GitHub](https://github.com/lx709/reobench) | 可用于评估弱标签训练模型在扰动、退化和 OOD 下的可靠性。 |
| 弱标签来源 | Microsoft Global ML Building Footprints | 持续更新 | [GitHub](https://github.com/microsoft/GlobalMLBuildingFootprints) | 全球建筑 footprint，可作为建筑分割/检测弱标签；存在地区覆盖、时间戳和几何误差问题。 |
| 弱标签来源 | Google Open Buildings | 持续更新 | [dataset](https://sites.research.google/open-buildings/) | 非洲、南亚、东南亚等区域建筑 footprint，适合研究区域覆盖差异和弱标签置信度。 |
| 弱标签来源 | Dynamic World | 持续更新 | [Google](https://dynamicworld.app/), [Nature paper](https://www.nature.com/articles/s41597-022-01307-4) | 10m near-real-time land cover 概率产品，适合做时序弱标签和置信度加权。 |
| 弱标签来源 | ESA WorldCover | 2020/2021 product, 仍常用 | [ESA](https://esa-worldcover.org/) | 10m 全球土地覆盖标签源，适合弱监督 land-cover pretraining，但类别粗、时相固定。 |
| 弱标签来源 | Field boundaries / FTW | 2025 左右活跃 | [GitHub](https://github.com/fieldsoftheworld/ftw-baselines), [project](https://fieldsoftheworld.github.io/) | 地块边界弱标签和农业制图常用资源，可研究 parcel/field boundary 与作物标签错位。 |
| 质量规范 | OpenStreetMap Import Guidelines | 官方文档 | [OSM Wiki](https://wiki.openstreetmap.org/wiki/Import/Guidelines) | 不是论文，但说明 OSM 数据导入、许可证、质量审查和社区验证流程，是使用 OSM 标签时必须考虑的约束。 |

## 3. 弱标签噪声类型

### 3.1 时效误差

地图产品和遥感影像常不在同一天甚至同一年。建筑新增/拆除、道路施工、洪水季节性水体、农田轮作、城市扩张都会让标签与影像真实状态不一致。

可研究点：给每个弱标签加入 time gap 权重，训练时降低旧标签权重；或使用多时相影像判断标签是否仍有效。

### 3.2 空间错位

OSM 道路中心线、建筑 footprint、地块边界与影像可能有 1-20 米级偏移。10m Sentinel-2 上的建筑边界与 VHR 航空影像上的边界也不是同一个几何粒度。

可研究点：把弱标签从 hard mask 转为 soft distance transform / boundary uncertainty band；训练时允许边界附近 label relaxation。

### 3.3 类别体系不一致

地图产品里的 `residential`, `industrial`, `farmland`, `grassland` 与遥感视觉类别并不总一致。OSM tag 是人类语义和功能属性，遥感分类常是材料/覆盖类型。比如 `school` 是 POI 功能，影像上可能包含建筑、操场、树、道路。

可研究点：构建 taxonomy mapping graph，把 OSM function label 映射到可见地物 label，并用层级损失处理细粒度冲突。

### 3.4 覆盖缺失和空间公平性

OSM 在不同国家、城乡、收入地区覆盖差异巨大。模型可能把“没有 OSM 标注”误学成“没有对象”，导致发展中地区和农村区域漏检。

可研究点：把 missing label 当 unknown，而不是 negative；采样时加入 region coverage prior；评估时分区域报告 recall。

### 3.5 几何简化和尺度差异

土地覆盖产品通常是 10m/30m 栅格，建筑 footprint 是 polygon，道路是 line，遥感模型输出可能是 pixel mask、bbox 或 polygon。弱标签格式和目标输出格式不一致会制造伪边界。

可研究点：对象级、像素级和矢量级联合训练；不同标签源只监督它最可靠的属性，例如道路中心线监督 connectivity，建筑 footprint 监督 object extent。

## 4. 方法路线比较

| 路线 | 做法 | 优点 | 风险 | 适合任务 |
|---|---|---|---|---|
| 直接栅格化标签 | 将 OSM/footprint/land-cover rasterize 成 mask 训练 | 简单，可大规模 | 错位和缺失会变成 hard noise | 建筑、道路、水体、土地覆盖 |
| soft label / distance map | 对边界附近设置软标签或距离权重 | 缓解空间错位 | 需要调带宽，可能边界变糊 | 道路、建筑、地块 |
| confidence-weighted training | 用产品置信度、时间差、OSM completeness、模型一致性加权 | 可利用标签质量差异 | 质量估计本身可能偏 | Dynamic World、building footprints |
| positive-unlabeled learning | 有标签区域当正例，未标注区域当 unknown | 适合 OSM 缺失严重区域 | 负样本构造难 | 建筑、道路、POI 目标 |
| co-teaching / noise robust loss | 多模型互相筛低损失样本，或用 GCE/SCE/bootstrap loss | 对随机噪声有效 | 对系统性地图偏差不一定有效 | 土地覆盖、建筑 |
| teacher-student self-training | 用弱标签训练 teacher，再用影像一致性生成伪标签 | 可逐步纠偏 | confirmation bias | 大规模 land cover |
| SAM/VLM assisted correction | 用 SAM 细化边界，用 VLM/CLIP 检查类别 | 结合几何和语义 | VLM 幻觉、prompt 敏感 | 建筑、水体、开放词表分割 |
| multi-source label fusion | 融合 OSM、WorldCover、Dynamic World、footprints、历史影像 | 可降低单源偏差 | 冲突处理复杂 | 全球制图、预训练 |

## 5. 可复现实验矩阵

| 实验组 | 目标 | 数据 | 模型/基线 | 指标 |
|---|---|---|---|---|
| 建筑 footprint 弱标签 | 检验空间错位和缺失标签处理 | NAIP/Sentinel-2 + Microsoft/Google footprints；可选 SpaceNet/xBD 做人工验证 | U-Net/DeepLabV3+/SegFormer/SAM-assisted | mIoU, Boundary F1, object F1, PU recall |
| OSM 道路弱标签 | 研究 line-to-mask 和拓扑误差 | VHR imagery + OSM roads；可用 DeepGlobe Road 或 Massachusetts Roads 验证 | D-LinkNet/SegFormer/Topo loss baseline | IoU, APLS/connectivity, relaxed F1 |
| 土地覆盖产品弱标签 | 比较 WorldCover/Dynamic World/FROM-GLC 标签噪声 | Sentinel-2 多时相 + WorldCover/Dynamic World；人工测试集用 LoveDA/Chesapeake/GeoBench 子集 | SegFormer/Prithvi/Clay linear probe | mIoU, per-class F1, calibration, OOD drop |
| 地块/农田边界 | 研究 polygon 边界与作物类别错位 | Sentinel-2 time series + FTW/parcel data | temporal transformer + boundary head | boundary F1, parcel-level accuracy |
| 多源融合 | 验证弱标签质量估计 | 同一区域多源标签冲突样本 | label fusion, confidence weighting, co-teaching | noise detection AUC, downstream gain |

建议 split：

- spatial block split：避免相邻瓦片泄漏。
- leave-region-out：评估 OSM 覆盖差异。
- leave-year-out：评估时效误差。
- product-held-out：用一种地图产品训练，另一种或人工标签测试，检测产品偏差。

## 6. 一个可投稿的小课题方案

题目草案：Quality-Aware Weak Supervision from Map Products for Remote Sensing Segmentation

### 问题

现有方法常把 OSM/footprint/land-cover 产品直接当标签，但地图产品的时效、空间、类别和覆盖噪声会系统性影响模型。需要一个统一的弱标签质量估计和训练框架。

### 假设

如果把每个弱标签拆成四类质量因子：temporal freshness、spatial alignment、semantic compatibility、regional completeness，并在训练中分别建模，那么模型在跨区域和真实人工测试集上的泛化会优于直接训练和通用 noise-robust loss。

### 方法

1. Label quality encoder：输入标签源、产品年份、影像日期、OSM object density、边界距离、类别映射置信度，输出 per-pixel/per-object reliability。
2. Geometry relaxation：对道路/建筑/地块边界使用 distance-aware soft label，避免错位造成硬惩罚。
3. PU-aware negative sampling：未标注区域不直接当负例，根据区域覆盖度选择可靠负样本。
4. Cross-source consistency：对 WorldCover、Dynamic World、OSM、footprint 冲突区域做 consistency 或 disagreement mining。
5. Human audit subset：抽取高冲突、高不确定和长尾区域做小规模人工验证，用于质量估计校准。

### 数据与基线

数据：

- Sentinel-2 / NAIP / aerial RGB 影像。
- OSM roads/buildings/landuse。
- Microsoft Global ML Building Footprints / Google Open Buildings。
- ESA WorldCover / Dynamic World。
- 可选人工测试：DeepGlobe Road、SpaceNet、LoveDA、Chesapeake Land Cover、xBD。

基线：

- hard weak labels。
- label smoothing / boundary relaxation。
- GCE/SCE/bootstrap loss。
- co-teaching。
- teacher-student self-training。
- SAM-assisted pseudo mask refinement。

指标：

- mIoU / F1 / Boundary F1 / object F1。
- relaxed IoU for shifted labels。
- calibration ECE。
- cross-region OOD drop。
- label quality detection AUC。
- annotation cost vs performance curve。

### 最小可行实验

先做建筑 footprint 分割：选 3 个城市，分别构造 Microsoft/Google/OSM building labels；用一小部分人工或公开 benchmark 做测试；比较 hard label、boundary relaxation、PU-aware loss、quality-aware weighting。若质量估计能在人工测试集上提升 object F1 和 boundary F1，再扩展到道路和土地覆盖。

## 7. 未来研究方向

1. OSM completeness-aware learning：估计一个区域的 OSM 完整度，决定未标注区域能否当负例。
2. Temporal label validation：用多时相影像自动判断地图标签是否过期。
3. Map-product conflict mining：把多个地图产品冲突处当作最有价值的人工审核样本。
4. Foundation model label auditor：用 GeoFM/VLM/SAM 组合为弱标签打分，而不是只生成伪标签。
5. Weak label data cards：记录每个训练标签来自 OSM、footprint、WorldCover、Dynamic World、模型生成还是人工审核。
6. Fairness-aware weak supervision：按国家、城市规模、城乡、收入水平报告模型性能和标签覆盖。
7. Taxonomy-aware supervision：用类别层级图处理 map function label 与 remote-sensing visual label 的不一致。
8. Vector-native weak supervision：道路中心线和建筑 polygon 不必先 rasterize，可直接监督 topology 或 polygon decoder。

## 8. 下一步阅读清单

- Rose: [paper](https://www.sciencedirect.com/science/article/pii/S0034425724005996), [code](https://github.com/antofuller/rose)
- SAModified: [arXiv](https://arxiv.org/abs/2503.08101)
- MapSR: [arXiv](https://arxiv.org/abs/2406.00891)
- LandSegmenter: [arXiv](https://arxiv.org/abs/2504.03451)
- Spatial Representation Learning Beyond Pixels: [arXiv](https://arxiv.org/abs/2606.02374)
- PANGAEA: [project](https://pangaea-bench.github.io/), [GitHub](https://github.com/yurujaja/pangaea-bench)
- EarthShift: [project](https://earthshift.github.io/), [arXiv](https://arxiv.org/abs/2605.29330)
- Microsoft Global ML Building Footprints: [GitHub](https://github.com/microsoft/GlobalMLBuildingFootprints)
- Google Open Buildings: [dataset](https://sites.research.google/open-buildings/)
- Dynamic World: [project](https://dynamicworld.app/)
- ESA WorldCover: [project](https://esa-worldcover.org/)
- OSM Import Guidelines: [wiki](https://wiki.openstreetmap.org/wiki/Import/Guidelines)