RS-36 Raster-Vector Joint Encoder
RS-36 Raster-Vector Joint Encoder
范围:2024-2026,光学遥感/地理空间 AI 为主;不把 SAR 作为主线。
1. 问题定义
细问题:影像 patch、道路/建筑/地块 polygon、POI、行政区和 tabular covariates 如何进入同一个 encoder,并在不把矢量数据粗暴栅格化的情况下,共同学习可迁移的地理空间表示?
这个问题的价值在于:纯 raster foundation model 很擅长捕捉连续的光谱、纹理和空间形态,但它天然缺少显式对象、拓扑、地块边界、道路连通性、POI 功能语义和行政单元属性。矢量数据正好补这些信息,却又和影像 patch 的数据结构完全不同:点、线、面、标签表、拓扑关系、空间范围和时效性都不一致。
因此,2024-2026 的关键趋势是从“把 OSM/道路/建筑 rasterize 成额外通道”转向“把 raster patch 与 vector geoentity 直接对齐、交互和联合预训练”。
2. 代表论文与项目
| 论文/项目 | 年份/来源 | 链接 | 代码/资源 | 相关性 |
|---|---|---|---|---|
| Spatial Representation Learning Beyond Pixels | 2026 arXiv | arXiv | 暂未见代码 | 观点/路线图论文,明确提出 raster perception 与 vector reasoning 需要进入统一 embedding space。 |
| GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data | 2025 arXiv / NeurIPS 2025 repo 标注 | arXiv HTML, arXiv | GitHub | 目前最直接的 RS patch + OSM geoentity 融合范式:OSM 异构图编码器、image-OSM contrastive learning、object-patch cross-attention。 |
| NARA: Anchor-Conditioned Relation-Aware Contextualization of Heterogeneous Geoentities | 2026 arXiv | arXiv | 暂未见官方代码 | 专注 vector geoentities,统一点、线、面,并建模语义、几何、距离和拓扑关系;可作为 raster-vector 系统中的 vector encoder。 |
| GeoViSTA: Geospatial Vision-Tabular Transformer | 2026 arXiv | arXiv | 暂未见官方代码 | 将 co-registered imagery 与 tabular/census tract token 用 bilateral cross-attention 融合,适合扩展到行政区/社会经济属性。 |
| Geo2Vec: Shape- and Distance-Aware Neural Representation of Geospatial Entities | 2025 arXiv / AAAI 2026 页面线索 | arXiv | GitHub | 用 signed distance field 思路统一点、线、面几何表示,强调形状、位置、距离和拓扑关系。 |
| Poly2Vec: Polymorphic Fourier-Based Encoding of Geospatial Objects | 2025 ICML | arXiv | GitHub | 矢量对象统一编码框架,支持 OSM points/polylines/polygons,适合做 geometry encoder baseline。 |
| UrbanFusion: Stochastic Multimodal Fusion for Robust Spatial Representations | 2025 arXiv | arXiv | GitHub | 融合 remote sensing、street view、cartographic maps、POI 等城市多模态数据;适合作为多源融合训练目标参考。 |
| AETHER / Beyond AlphaEarth via POI-Guided Contrastive Learning | 2025 arXiv | arXiv | 需进一步确认官方代码 | 用 POI 语义对齐 AlphaEarth/EO embedding,使物理影像表示获得城市功能语义。 |
| GeoSynth | 2024 CVPR EarthVision | Project | 项目页含 arXiv/GitHub/模型入口 | 用 OSM layout 控制卫星图像生成,说明 vector layout 可作为生成式先验;更偏数据生成,但可迁移到对齐预训练。 |
| MapTracker | 2024 ECCV Oral | Project | 项目页含 paper/code | 自动驾驶 HD map 方向,使用 raster BEV latent 与 vector road-element latent;不是遥感,但 raster-vector latent tracking 很可迁移。 |
3. 方法脉络
3.1 旧路线:矢量转栅格或转标签
常见做法是把 OSM 道路、建筑、土地利用 polygon rasterize 成额外通道,或者直接作为弱标签训练 segmentation。优点是工程简单,能沿用 CNN/ViT;缺点是会损失拓扑关系、对象边界、标签表语义和多尺度结构。GeoLink 的论文把这类路线归纳为 data conversion / data derivation / knowledge graph 等间接融合方式,并指出它们往往任务特定、区域小、空间信息损失较大。
3.2 新路线:RS patch 与 OSM geoentity 直接融合
GeoLink 是最贴近 RS-36 的核心参考。它包含三个关键模块:
- RS image encoder:ViT 对遥感 patch 编码。
- OSM encoder:把 OSM 点、线、面构成异构图,节点带 tag semantics,边带空间/拓扑关系。
- object-patch fusion encoder:用 cross-attention 让影像 patch 与 OSM node/object 交互,得到 hybrid RS-OSM patch encoding 和 hybrid OSM-RS object encoding。
GeoLink 的预训练目标也很值得复用:
- image mask reconstruction:保留 MAE 风格 raster 表示学习。
- region-image contrastive alignment:同一地理范围内的 RS image 与 OSM graph 对齐。
- object-patch spatial consistency:让 OSM object 与附近 image patch 的融合具有空间一致性。
这比“OSM rasterize 后拼通道”更强,因为模型仍保留矢量对象粒度,并能在 patch-object 层面学习对应关系。
3.3 Vector-only encoder:点、线、面如何统一
NARA、Poly2Vec、Geo2Vec 是 raster-vector joint encoder 的关键组件候选。
- Poly2Vec:用 Fourier-style polymorphic encoding 统一点、线、面,适合快速得到 fixed-length vector geometry embedding。
- Geo2Vec:用 signed distance field 直接在原空间表达 geoentity,强调细粒度边界、距离和拓扑。
- NARA:进一步把 geoentity 放进上下文里,建模语义、几何、距离、拓扑和 anchor-conditioned relations。
对 RS-36 来说,一个合理路线是:先用 Geo2Vec/Poly2Vec 编码单个几何,再用 NARA/heterogeneous graph transformer 编码区域内对象关系,最后和 image patch 做 cross-attention。
3.4 Tabular/POI/行政区 token 融合
GeoViSTA 提醒我们,很多地理空间任务不是纯“影像 + OSM geometry”,还需要 census tract、人口、健康、火灾风险等 tabular covariates。它用 geography-aware attention 对齐连续 image patches 与 irregular tabular tokens。AETHER/POI-guided contrastive learning 则强调 POI 能给 EO embedding 注入人类活动和城市功能语义。
这说明 raster-vector joint encoder 不应该只看几何;POI tag、行政区属性、道路等级、建筑用途、地块类型都应成为 token semantics。
4. 当前问题
- 空间对齐不可靠:遥感影像、OSM、建筑 footprint、行政边界可能来自不同年份和不同坐标精度。直接 cross-attention 会把不存在或错位的对象对齐到 patch。
- 矢量数据噪声高:OSM tag 稀疏、自由标签体系不统一,建筑用途/道路等级/POI 语义随地区变化很大。
- 几何类型异构:点、线、面在尺度、拓扑和面积覆盖上差异很大,统一成 token 后容易丢掉形状和边界细节。
- 粒度不匹配:一个 image patch 可能覆盖多个小建筑,也可能只覆盖一个大 polygon 的一角;一个行政区 token 又覆盖大量 patch。
- 负迁移风险:矢量先验可能让模型在 OSM 完整地区很好,在 OSM 缺失或过时地区反而更差。
- 评测缺失:现有 benchmark 很少显式测试 raster-only、vector-only、raster+vector 在跨地区、矢量缺失、矢量错位下的差异。
5. 可投稿的小课题方案
题目草案
GeoPatch-Entity: Uncertainty-Aware Raster-Vector Joint Encoding for Remote Sensing Foundation Models
核心假设
如果把 OSM/建筑/道路/地块等 vector geoentities 作为带不确定性的对象 token,与遥感 image patch 进行空间约束 cross-attention,而不是简单 rasterize 成通道,就能在城市功能区、土地覆盖、建筑/道路分割和人口/碳排估计等任务上获得更强的跨区域泛化,并降低矢量错位带来的负迁移。
模型结构
- Raster branch:使用 Prithvi/Clay/SkySense/ViT-MAE/GeoLink image encoder 提取 patch tokens。
- Vector branch:点/线/面先用 Poly2Vec 或 Geo2Vec 得到 geometry embedding;tag-value 文本用 BERT/Sentence-BERT 编码;再进入 heterogeneous graph transformer。
- Spatial alignment module:根据 patch footprint 与 geoentity geometry 计算 overlap、distance、contains/intersects/adjacent 等关系,作为 attention bias。
- Uncertainty gate:为每个 vector token 估计可靠度,来源包括 OSM timestamp、tag completeness、geometry-image consistency、region OSM density。
- Fusion module:双向 cross-attention,输出 image-enhanced entity tokens 与 vector-enhanced patch tokens。
- Pretraining objectives:masked image reconstruction、masked tag reconstruction、region-level contrastive alignment、object-patch consistency、geometry relation prediction。
数据对齐方案
- 影像:Sentinel-2、NAIP、Bing/Google-style VHR 数据,或公开城市遥感数据集。
- 矢量:OpenStreetMap via Overpass/Geofabrik,Overture Maps,Microsoft building footprints,行政区/census tract。
- 单位:以 fixed geohash/H3 tile 或 image tile 为 region;每个 region 内保留 patch grid 和 vector objects。
- 坐标:统一 CRS,记录数据时间戳;所有 geometry 与 patch footprint 保存原始关系,不只保存 rasterized mask。
6. 实验矩阵
| 实验 | 数据 | Baseline | 指标 | 目的 |
|---|---|---|---|---|
| Land cover / scene classification | EuroSAT、MLRSNet、RESISC-45、城市 VHR | raster-only ViT/GeoFM、GeoLink unimodal、rasterized OSM channel | Acc、F1、cross-city Acc | 测 vector 信息是否提升语义判别 |
| Urban function zone segmentation | UFZ/城市功能区数据、OSM + VHR | U-Net/SegFormer、GeoLink、rasterized OSM | mIoU、macro-F1、rare-class F1 | 测 POI/道路/建筑 tag 对功能语义的贡献 |
| Building/road segmentation | SpaceNet、DeepGlobe Road、Vaihingen/Potsdam + OSM | SegFormer、SAM-assisted、topology postprocess | mIoU、Boundary F1、Connectivity、Topo-F1 | 测 geometry/topology 是否改善边界和连通性 |
| Population/carbon/health proxy | census tract + imagery + tabular | image-only AlphaEarth/Prithvi、GeoViSTA-style tabular fusion | RMSE、MAE、spatial CV | 测行政区/tabular token 与 image patch 的协同 |
| Robustness stress test | OSM missing/noisy/shifted variants | 同上 | performance drop、calibration ECE | 测矢量缺失、错位、过时带来的负迁移 |
7. Baseline 推荐
- Raster-only:MAE/ViT、Prithvi-EO-2.0、Clay、SkySense、AlphaEarth embeddings。
- Rasterized-vector:把 OSM roads/buildings/landuse rasterize 成额外通道或弱标签。
- Region contrastive:RS image embedding 与 OSM graph/POI aggregate 做 CLIP-style 对齐。
- GeoLink:最重要的 direct fusion baseline。
- Vector-only:Poly2Vec、Geo2Vec、NARA-style vector encoder。
- Tabular fusion:GeoViSTA-style bilateral cross-attention。
8. 失败模式与消融
必须做的消融:
- 无 vector、rasterized vector、direct vector token 三者比较。
- 只用 geometry、只用 tags、geometry+tags。
- 无 attention bias、distance bias、topology bias、overlap bias。
- OSM 完整、OSM 随机 drop、OSM 系统性缺失、OSM 平移错位。
- city-in-domain 与 leave-city-out。
- patch size 对小对象对齐的影响。
重点失败模式:
- 模型过度相信 OSM,导致影像中真实新增建筑/道路被忽略。
- POI 稠密地区性能好,POI 稀疏地区性能崩。
- 大 polygon 覆盖多个语义区域,给 patch 带来错误先验。
- 矢量 timestamp 旧,城市更新区域出现强负迁移。
9. 未来研究方向
- 时效性感知 vector token:把 OSM/建筑 footprint 的时间戳、不确定性和更新频率纳入 token reliability。
- 可微拓扑约束:不仅把拓扑作为 attention bias,还让模型预测 contains/intersects/adjacent 等关系。
- polygon-native decoder:从 fused patch/entity tokens 直接输出建筑/道路/地块 polygon,而不是先 raster mask 再矢量化。
- 缺失矢量鲁棒训练:训练时随机删除道路、建筑、POI 或行政区 token,让模型不依赖某一类先验。
- 多尺度 geoentity memory:地块、街区、行政区、城市四级 token 共同参与推理。
- 证据可解释 VLM 扩展:让遥感 VLM 回答问题时同时引用 image patch 和 vector entity 作为证据。
10. 最小可行实验
最小实验建议先做 OSM-assisted urban function zone segmentation:
- 取一个城市级 VHR/航空影像数据集,配套 OSM roads/buildings/POIs。
- 构建三种输入:image-only、image+rasterized OSM、image+vector tokens。
- Vector branch 先用简单 geometry features + tag text encoder + graph attention。
- Fusion 使用 patch-entity cross-attention,并加入 overlap/distance attention bias。
- 评估 mIoU、macro-F1、leave-district-out 泛化,以及 OSM drop/shift robustness。
如果这个最小实验显示 direct vector token 比 rasterized OSM 更稳,就可以扩展到 GeoFM 预训练或 foundation embedding adapter。
评论