RS-36 Raster-Vector Joint Encoder

Series - 2024-2026 遥感 AI 细分研究方向

RS-36 Raster-Vector Joint Encoder

范围:2024-2026,光学遥感/地理空间 AI 为主;不把 SAR 作为主线。

细问题:影像 patch、道路/建筑/地块 polygon、POI、行政区和 tabular covariates 如何进入同一个 encoder,并在不把矢量数据粗暴栅格化的情况下,共同学习可迁移的地理空间表示?

这个问题的价值在于:纯 raster foundation model 很擅长捕捉连续的光谱、纹理和空间形态,但它天然缺少显式对象、拓扑、地块边界、道路连通性、POI 功能语义和行政单元属性。矢量数据正好补这些信息,却又和影像 patch 的数据结构完全不同:点、线、面、标签表、拓扑关系、空间范围和时效性都不一致。

因此,2024-2026 的关键趋势是从“把 OSM/道路/建筑 rasterize 成额外通道”转向“把 raster patch 与 vector geoentity 直接对齐、交互和联合预训练”。

论文/项目年份/来源链接代码/资源相关性
Spatial Representation Learning Beyond Pixels2026 arXivarXiv暂未见代码观点/路线图论文,明确提出 raster perception 与 vector reasoning 需要进入统一 embedding space。
GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data2025 arXiv / NeurIPS 2025 repo 标注arXiv HTML, arXivGitHub目前最直接的 RS patch + OSM geoentity 融合范式:OSM 异构图编码器、image-OSM contrastive learning、object-patch cross-attention。
NARA: Anchor-Conditioned Relation-Aware Contextualization of Heterogeneous Geoentities2026 arXivarXiv暂未见官方代码专注 vector geoentities,统一点、线、面,并建模语义、几何、距离和拓扑关系;可作为 raster-vector 系统中的 vector encoder。
GeoViSTA: Geospatial Vision-Tabular Transformer2026 arXivarXiv暂未见官方代码将 co-registered imagery 与 tabular/census tract token 用 bilateral cross-attention 融合,适合扩展到行政区/社会经济属性。
Geo2Vec: Shape- and Distance-Aware Neural Representation of Geospatial Entities2025 arXiv / AAAI 2026 页面线索arXivGitHub用 signed distance field 思路统一点、线、面几何表示,强调形状、位置、距离和拓扑关系。
Poly2Vec: Polymorphic Fourier-Based Encoding of Geospatial Objects2025 ICMLarXivGitHub矢量对象统一编码框架,支持 OSM points/polylines/polygons,适合做 geometry encoder baseline。
UrbanFusion: Stochastic Multimodal Fusion for Robust Spatial Representations2025 arXivarXivGitHub融合 remote sensing、street view、cartographic maps、POI 等城市多模态数据;适合作为多源融合训练目标参考。
AETHER / Beyond AlphaEarth via POI-Guided Contrastive Learning2025 arXivarXiv需进一步确认官方代码用 POI 语义对齐 AlphaEarth/EO embedding,使物理影像表示获得城市功能语义。
GeoSynth2024 CVPR EarthVisionProject项目页含 arXiv/GitHub/模型入口用 OSM layout 控制卫星图像生成,说明 vector layout 可作为生成式先验;更偏数据生成,但可迁移到对齐预训练。
MapTracker2024 ECCV OralProject项目页含 paper/code自动驾驶 HD map 方向,使用 raster BEV latent 与 vector road-element latent;不是遥感,但 raster-vector latent tracking 很可迁移。

常见做法是把 OSM 道路、建筑、土地利用 polygon rasterize 成额外通道,或者直接作为弱标签训练 segmentation。优点是工程简单,能沿用 CNN/ViT;缺点是会损失拓扑关系、对象边界、标签表语义和多尺度结构。GeoLink 的论文把这类路线归纳为 data conversion / data derivation / knowledge graph 等间接融合方式,并指出它们往往任务特定、区域小、空间信息损失较大。

GeoLink 是最贴近 RS-36 的核心参考。它包含三个关键模块:

  • RS image encoder:ViT 对遥感 patch 编码。
  • OSM encoder:把 OSM 点、线、面构成异构图,节点带 tag semantics,边带空间/拓扑关系。
  • object-patch fusion encoder:用 cross-attention 让影像 patch 与 OSM node/object 交互,得到 hybrid RS-OSM patch encoding 和 hybrid OSM-RS object encoding。

GeoLink 的预训练目标也很值得复用:

  • image mask reconstruction:保留 MAE 风格 raster 表示学习。
  • region-image contrastive alignment:同一地理范围内的 RS image 与 OSM graph 对齐。
  • object-patch spatial consistency:让 OSM object 与附近 image patch 的融合具有空间一致性。

这比“OSM rasterize 后拼通道”更强,因为模型仍保留矢量对象粒度,并能在 patch-object 层面学习对应关系。

NARA、Poly2Vec、Geo2Vec 是 raster-vector joint encoder 的关键组件候选。

  • Poly2Vec:用 Fourier-style polymorphic encoding 统一点、线、面,适合快速得到 fixed-length vector geometry embedding。
  • Geo2Vec:用 signed distance field 直接在原空间表达 geoentity,强调细粒度边界、距离和拓扑。
  • NARA:进一步把 geoentity 放进上下文里,建模语义、几何、距离、拓扑和 anchor-conditioned relations。

对 RS-36 来说,一个合理路线是:先用 Geo2Vec/Poly2Vec 编码单个几何,再用 NARA/heterogeneous graph transformer 编码区域内对象关系,最后和 image patch 做 cross-attention。

GeoViSTA 提醒我们,很多地理空间任务不是纯“影像 + OSM geometry”,还需要 census tract、人口、健康、火灾风险等 tabular covariates。它用 geography-aware attention 对齐连续 image patches 与 irregular tabular tokens。AETHER/POI-guided contrastive learning 则强调 POI 能给 EO embedding 注入人类活动和城市功能语义。

这说明 raster-vector joint encoder 不应该只看几何;POI tag、行政区属性、道路等级、建筑用途、地块类型都应成为 token semantics。

  1. 空间对齐不可靠:遥感影像、OSM、建筑 footprint、行政边界可能来自不同年份和不同坐标精度。直接 cross-attention 会把不存在或错位的对象对齐到 patch。
  2. 矢量数据噪声高:OSM tag 稀疏、自由标签体系不统一,建筑用途/道路等级/POI 语义随地区变化很大。
  3. 几何类型异构:点、线、面在尺度、拓扑和面积覆盖上差异很大,统一成 token 后容易丢掉形状和边界细节。
  4. 粒度不匹配:一个 image patch 可能覆盖多个小建筑,也可能只覆盖一个大 polygon 的一角;一个行政区 token 又覆盖大量 patch。
  5. 负迁移风险:矢量先验可能让模型在 OSM 完整地区很好,在 OSM 缺失或过时地区反而更差。
  6. 评测缺失:现有 benchmark 很少显式测试 raster-only、vector-only、raster+vector 在跨地区、矢量缺失、矢量错位下的差异。

GeoPatch-Entity: Uncertainty-Aware Raster-Vector Joint Encoding for Remote Sensing Foundation Models

如果把 OSM/建筑/道路/地块等 vector geoentities 作为带不确定性的对象 token,与遥感 image patch 进行空间约束 cross-attention,而不是简单 rasterize 成通道,就能在城市功能区、土地覆盖、建筑/道路分割和人口/碳排估计等任务上获得更强的跨区域泛化,并降低矢量错位带来的负迁移。

  1. Raster branch:使用 Prithvi/Clay/SkySense/ViT-MAE/GeoLink image encoder 提取 patch tokens。
  2. Vector branch:点/线/面先用 Poly2Vec 或 Geo2Vec 得到 geometry embedding;tag-value 文本用 BERT/Sentence-BERT 编码;再进入 heterogeneous graph transformer。
  3. Spatial alignment module:根据 patch footprint 与 geoentity geometry 计算 overlap、distance、contains/intersects/adjacent 等关系,作为 attention bias。
  4. Uncertainty gate:为每个 vector token 估计可靠度,来源包括 OSM timestamp、tag completeness、geometry-image consistency、region OSM density。
  5. Fusion module:双向 cross-attention,输出 image-enhanced entity tokens 与 vector-enhanced patch tokens。
  6. Pretraining objectives:masked image reconstruction、masked tag reconstruction、region-level contrastive alignment、object-patch consistency、geometry relation prediction。
  • 影像:Sentinel-2、NAIP、Bing/Google-style VHR 数据,或公开城市遥感数据集。
  • 矢量:OpenStreetMap via Overpass/Geofabrik,Overture Maps,Microsoft building footprints,行政区/census tract。
  • 单位:以 fixed geohash/H3 tile 或 image tile 为 region;每个 region 内保留 patch grid 和 vector objects。
  • 坐标:统一 CRS,记录数据时间戳;所有 geometry 与 patch footprint 保存原始关系,不只保存 rasterized mask。
实验数据Baseline指标目的
Land cover / scene classificationEuroSAT、MLRSNet、RESISC-45、城市 VHRraster-only ViT/GeoFM、GeoLink unimodal、rasterized OSM channelAcc、F1、cross-city Acc测 vector 信息是否提升语义判别
Urban function zone segmentationUFZ/城市功能区数据、OSM + VHRU-Net/SegFormer、GeoLink、rasterized OSMmIoU、macro-F1、rare-class F1测 POI/道路/建筑 tag 对功能语义的贡献
Building/road segmentationSpaceNet、DeepGlobe Road、Vaihingen/Potsdam + OSMSegFormer、SAM-assisted、topology postprocessmIoU、Boundary F1、Connectivity、Topo-F1测 geometry/topology 是否改善边界和连通性
Population/carbon/health proxycensus tract + imagery + tabularimage-only AlphaEarth/Prithvi、GeoViSTA-style tabular fusionRMSE、MAE、spatial CV测行政区/tabular token 与 image patch 的协同
Robustness stress testOSM missing/noisy/shifted variants同上performance drop、calibration ECE测矢量缺失、错位、过时带来的负迁移
  • Raster-only:MAE/ViT、Prithvi-EO-2.0、Clay、SkySense、AlphaEarth embeddings。
  • Rasterized-vector:把 OSM roads/buildings/landuse rasterize 成额外通道或弱标签。
  • Region contrastive:RS image embedding 与 OSM graph/POI aggregate 做 CLIP-style 对齐。
  • GeoLink:最重要的 direct fusion baseline。
  • Vector-only:Poly2Vec、Geo2Vec、NARA-style vector encoder。
  • Tabular fusion:GeoViSTA-style bilateral cross-attention。

必须做的消融:

  • 无 vector、rasterized vector、direct vector token 三者比较。
  • 只用 geometry、只用 tags、geometry+tags。
  • 无 attention bias、distance bias、topology bias、overlap bias。
  • OSM 完整、OSM 随机 drop、OSM 系统性缺失、OSM 平移错位。
  • city-in-domain 与 leave-city-out。
  • patch size 对小对象对齐的影响。

重点失败模式:

  • 模型过度相信 OSM,导致影像中真实新增建筑/道路被忽略。
  • POI 稠密地区性能好,POI 稀疏地区性能崩。
  • 大 polygon 覆盖多个语义区域,给 patch 带来错误先验。
  • 矢量 timestamp 旧,城市更新区域出现强负迁移。
  1. 时效性感知 vector token:把 OSM/建筑 footprint 的时间戳、不确定性和更新频率纳入 token reliability。
  2. 可微拓扑约束:不仅把拓扑作为 attention bias,还让模型预测 contains/intersects/adjacent 等关系。
  3. polygon-native decoder:从 fused patch/entity tokens 直接输出建筑/道路/地块 polygon,而不是先 raster mask 再矢量化。
  4. 缺失矢量鲁棒训练:训练时随机删除道路、建筑、POI 或行政区 token,让模型不依赖某一类先验。
  5. 多尺度 geoentity memory:地块、街区、行政区、城市四级 token 共同参与推理。
  6. 证据可解释 VLM 扩展:让遥感 VLM 回答问题时同时引用 image patch 和 vector entity 作为证据。

最小实验建议先做 OSM-assisted urban function zone segmentation

  1. 取一个城市级 VHR/航空影像数据集,配套 OSM roads/buildings/POIs。
  2. 构建三种输入:image-only、image+rasterized OSM、image+vector tokens。
  3. Vector branch 先用简单 geometry features + tag text encoder + graph attention。
  4. Fusion 使用 patch-entity cross-attention,并加入 overlap/distance attention bias。
  5. 评估 mIoU、macro-F1、leave-district-out 泛化,以及 OSM drop/shift robustness。

如果这个最小实验显示 direct vector token 比 rasterized OSM 更稳,就可以扩展到 GeoFM 预训练或 foundation embedding adapter。

Related Content

评论