RS-36 Raster-Vector Joint Encoder

WangTong included in category and series 2024-2026 遥感 AI 细分研究方向

2026-06-07 09:35:00 2026-06-07 09:35:00 859 words 4 minutes

Series - 2024-2026 遥感 AI 细分研究方向

Contents

RS-36 Raster-Vector Joint Encoder

范围：2024-2026，光学遥感/地理空间 AI 为主；不把 SAR 作为主线。

1. 问题定义

细问题：影像 patch、道路/建筑/地块 polygon、POI、行政区和 tabular covariates 如何进入同一个 encoder，并在不把矢量数据粗暴栅格化的情况下，共同学习可迁移的地理空间表示？

这个问题的价值在于：纯 raster foundation model 很擅长捕捉连续的光谱、纹理和空间形态，但它天然缺少显式对象、拓扑、地块边界、道路连通性、POI 功能语义和行政单元属性。矢量数据正好补这些信息，却又和影像 patch 的数据结构完全不同：点、线、面、标签表、拓扑关系、空间范围和时效性都不一致。

因此，2024-2026 的关键趋势是从“把 OSM/道路/建筑 rasterize 成额外通道”转向“把 raster patch 与 vector geoentity 直接对齐、交互和联合预训练”。

2. 代表论文与项目

论文/项目	年份/来源	链接	代码/资源	相关性
Spatial Representation Learning Beyond Pixels	2026 arXiv	arXiv	暂未见代码	观点/路线图论文，明确提出 raster perception 与 vector reasoning 需要进入统一 embedding space。
GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data	2025 arXiv / NeurIPS 2025 repo 标注	arXiv HTML, arXiv	GitHub	目前最直接的 RS patch + OSM geoentity 融合范式：OSM 异构图编码器、image-OSM contrastive learning、object-patch cross-attention。
NARA: Anchor-Conditioned Relation-Aware Contextualization of Heterogeneous Geoentities	2026 arXiv	arXiv	暂未见官方代码	专注 vector geoentities，统一点、线、面，并建模语义、几何、距离和拓扑关系；可作为 raster-vector 系统中的 vector encoder。
GeoViSTA: Geospatial Vision-Tabular Transformer	2026 arXiv	arXiv	暂未见官方代码	将 co-registered imagery 与 tabular/census tract token 用 bilateral cross-attention 融合，适合扩展到行政区/社会经济属性。
Geo2Vec: Shape- and Distance-Aware Neural Representation of Geospatial Entities	2025 arXiv / AAAI 2026 页面线索	arXiv	GitHub	用 signed distance field 思路统一点、线、面几何表示，强调形状、位置、距离和拓扑关系。
Poly2Vec: Polymorphic Fourier-Based Encoding of Geospatial Objects	2025 ICML	arXiv	GitHub	矢量对象统一编码框架，支持 OSM points/polylines/polygons，适合做 geometry encoder baseline。
UrbanFusion: Stochastic Multimodal Fusion for Robust Spatial Representations	2025 arXiv	arXiv	GitHub	融合 remote sensing、street view、cartographic maps、POI 等城市多模态数据；适合作为多源融合训练目标参考。
AETHER / Beyond AlphaEarth via POI-Guided Contrastive Learning	2025 arXiv	arXiv	需进一步确认官方代码	用 POI 语义对齐 AlphaEarth/EO embedding，使物理影像表示获得城市功能语义。
GeoSynth	2024 CVPR EarthVision	Project	项目页含 arXiv/GitHub/模型入口	用 OSM layout 控制卫星图像生成，说明 vector layout 可作为生成式先验；更偏数据生成，但可迁移到对齐预训练。
MapTracker	2024 ECCV Oral	Project	项目页含 paper/code	自动驾驶 HD map 方向，使用 raster BEV latent 与 vector road-element latent；不是遥感，但 raster-vector latent tracking 很可迁移。

3. 方法脉络

3.1 旧路线：矢量转栅格或转标签

常见做法是把 OSM 道路、建筑、土地利用 polygon rasterize 成额外通道，或者直接作为弱标签训练 segmentation。优点是工程简单，能沿用 CNN/ViT；缺点是会损失拓扑关系、对象边界、标签表语义和多尺度结构。GeoLink 的论文把这类路线归纳为 data conversion / data derivation / knowledge graph 等间接融合方式，并指出它们往往任务特定、区域小、空间信息损失较大。

3.2 新路线：RS patch 与 OSM geoentity 直接融合

GeoLink 是最贴近 RS-36 的核心参考。它包含三个关键模块：

RS image encoder：ViT 对遥感 patch 编码。
OSM encoder：把 OSM 点、线、面构成异构图，节点带 tag semantics，边带空间/拓扑关系。
object-patch fusion encoder：用 cross-attention 让影像 patch 与 OSM node/object 交互，得到 hybrid RS-OSM patch encoding 和 hybrid OSM-RS object encoding。

GeoLink 的预训练目标也很值得复用：

image mask reconstruction：保留 MAE 风格 raster 表示学习。
region-image contrastive alignment：同一地理范围内的 RS image 与 OSM graph 对齐。
object-patch spatial consistency：让 OSM object 与附近 image patch 的融合具有空间一致性。

这比“OSM rasterize 后拼通道”更强，因为模型仍保留矢量对象粒度，并能在 patch-object 层面学习对应关系。

3.3 Vector-only encoder：点、线、面如何统一

NARA、Poly2Vec、Geo2Vec 是 raster-vector joint encoder 的关键组件候选。

Poly2Vec：用 Fourier-style polymorphic encoding 统一点、线、面，适合快速得到 fixed-length vector geometry embedding。
Geo2Vec：用 signed distance field 直接在原空间表达 geoentity，强调细粒度边界、距离和拓扑。
NARA：进一步把 geoentity 放进上下文里，建模语义、几何、距离、拓扑和 anchor-conditioned relations。

对 RS-36 来说，一个合理路线是：先用 Geo2Vec/Poly2Vec 编码单个几何，再用 NARA/heterogeneous graph transformer 编码区域内对象关系，最后和 image patch 做 cross-attention。

3.4 Tabular/POI/行政区 token 融合

GeoViSTA 提醒我们，很多地理空间任务不是纯“影像 + OSM geometry”，还需要 census tract、人口、健康、火灾风险等 tabular covariates。它用 geography-aware attention 对齐连续 image patches 与 irregular tabular tokens。AETHER/POI-guided contrastive learning 则强调 POI 能给 EO embedding 注入人类活动和城市功能语义。

这说明 raster-vector joint encoder 不应该只看几何；POI tag、行政区属性、道路等级、建筑用途、地块类型都应成为 token semantics。

4. 当前问题

空间对齐不可靠：遥感影像、OSM、建筑 footprint、行政边界可能来自不同年份和不同坐标精度。直接 cross-attention 会把不存在或错位的对象对齐到 patch。
矢量数据噪声高：OSM tag 稀疏、自由标签体系不统一，建筑用途/道路等级/POI 语义随地区变化很大。
几何类型异构：点、线、面在尺度、拓扑和面积覆盖上差异很大，统一成 token 后容易丢掉形状和边界细节。
粒度不匹配：一个 image patch 可能覆盖多个小建筑，也可能只覆盖一个大 polygon 的一角；一个行政区 token 又覆盖大量 patch。
负迁移风险：矢量先验可能让模型在 OSM 完整地区很好，在 OSM 缺失或过时地区反而更差。
评测缺失：现有 benchmark 很少显式测试 raster-only、vector-only、raster+vector 在跨地区、矢量缺失、矢量错位下的差异。

5. 可投稿的小课题方案

题目草案

GeoPatch-Entity: Uncertainty-Aware Raster-Vector Joint Encoding for Remote Sensing Foundation Models

核心假设

如果把 OSM/建筑/道路/地块等 vector geoentities 作为带不确定性的对象 token，与遥感 image patch 进行空间约束 cross-attention，而不是简单 rasterize 成通道，就能在城市功能区、土地覆盖、建筑/道路分割和人口/碳排估计等任务上获得更强的跨区域泛化，并降低矢量错位带来的负迁移。

模型结构

Raster branch：使用 Prithvi/Clay/SkySense/ViT-MAE/GeoLink image encoder 提取 patch tokens。
Vector branch：点/线/面先用 Poly2Vec 或 Geo2Vec 得到 geometry embedding；tag-value 文本用 BERT/Sentence-BERT 编码；再进入 heterogeneous graph transformer。
Spatial alignment module：根据 patch footprint 与 geoentity geometry 计算 overlap、distance、contains/intersects/adjacent 等关系，作为 attention bias。
Uncertainty gate：为每个 vector token 估计可靠度，来源包括 OSM timestamp、tag completeness、geometry-image consistency、region OSM density。
Fusion module：双向 cross-attention，输出 image-enhanced entity tokens 与 vector-enhanced patch tokens。
Pretraining objectives：masked image reconstruction、masked tag reconstruction、region-level contrastive alignment、object-patch consistency、geometry relation prediction。

数据对齐方案

影像：Sentinel-2、NAIP、Bing/Google-style VHR 数据，或公开城市遥感数据集。
矢量：OpenStreetMap via Overpass/Geofabrik，Overture Maps，Microsoft building footprints，行政区/census tract。
单位：以 fixed geohash/H3 tile 或 image tile 为 region；每个 region 内保留 patch grid 和 vector objects。
坐标：统一 CRS，记录数据时间戳；所有 geometry 与 patch footprint 保存原始关系，不只保存 rasterized mask。

6. 实验矩阵

实验	数据	Baseline	指标	目的
Land cover / scene classification	EuroSAT、MLRSNet、RESISC-45、城市 VHR	raster-only ViT/GeoFM、GeoLink unimodal、rasterized OSM channel	Acc、F1、cross-city Acc	测 vector 信息是否提升语义判别
Urban function zone segmentation	UFZ/城市功能区数据、OSM + VHR	U-Net/SegFormer、GeoLink、rasterized OSM	mIoU、macro-F1、rare-class F1	测 POI/道路/建筑 tag 对功能语义的贡献
Building/road segmentation	SpaceNet、DeepGlobe Road、Vaihingen/Potsdam + OSM	SegFormer、SAM-assisted、topology postprocess	mIoU、Boundary F1、Connectivity、Topo-F1	测 geometry/topology 是否改善边界和连通性
Population/carbon/health proxy	census tract + imagery + tabular	image-only AlphaEarth/Prithvi、GeoViSTA-style tabular fusion	RMSE、MAE、spatial CV	测行政区/tabular token 与 image patch 的协同
Robustness stress test	OSM missing/noisy/shifted variants	同上	performance drop、calibration ECE	测矢量缺失、错位、过时带来的负迁移

7. Baseline 推荐

Raster-only：MAE/ViT、Prithvi-EO-2.0、Clay、SkySense、AlphaEarth embeddings。
Rasterized-vector：把 OSM roads/buildings/landuse rasterize 成额外通道或弱标签。
Region contrastive：RS image embedding 与 OSM graph/POI aggregate 做 CLIP-style 对齐。
GeoLink：最重要的 direct fusion baseline。
Vector-only：Poly2Vec、Geo2Vec、NARA-style vector encoder。
Tabular fusion：GeoViSTA-style bilateral cross-attention。

8. 失败模式与消融

必须做的消融：

无 vector、rasterized vector、direct vector token 三者比较。
只用 geometry、只用 tags、geometry+tags。
无 attention bias、distance bias、topology bias、overlap bias。
OSM 完整、OSM 随机 drop、OSM 系统性缺失、OSM 平移错位。
city-in-domain 与 leave-city-out。
patch size 对小对象对齐的影响。

重点失败模式：

模型过度相信 OSM，导致影像中真实新增建筑/道路被忽略。
POI 稠密地区性能好，POI 稀疏地区性能崩。
大 polygon 覆盖多个语义区域，给 patch 带来错误先验。
矢量 timestamp 旧，城市更新区域出现强负迁移。

9. 未来研究方向

时效性感知 vector token：把 OSM/建筑 footprint 的时间戳、不确定性和更新频率纳入 token reliability。
可微拓扑约束：不仅把拓扑作为 attention bias，还让模型预测 contains/intersects/adjacent 等关系。
polygon-native decoder：从 fused patch/entity tokens 直接输出建筑/道路/地块 polygon，而不是先 raster mask 再矢量化。
缺失矢量鲁棒训练：训练时随机删除道路、建筑、POI 或行政区 token，让模型不依赖某一类先验。
多尺度 geoentity memory：地块、街区、行政区、城市四级 token 共同参与推理。
证据可解释 VLM 扩展：让遥感 VLM 回答问题时同时引用 image patch 和 vector entity 作为证据。

10. 最小可行实验

最小实验建议先做 OSM-assisted urban function zone segmentation：

取一个城市级 VHR/航空影像数据集，配套 OSM roads/buildings/POIs。
构建三种输入：image-only、image+rasterized OSM、image+vector tokens。
Vector branch 先用简单 geometry features + tag text encoder + graph attention。
Fusion 使用 patch-entity cross-attention，并加入 overlap/distance attention bias。
评估 mIoU、macro-F1、leave-district-out 泛化，以及 OSM drop/shift robustness。

如果这个最小实验显示 direct vector token 比 rasterized OSM 更稳，就可以扩展到 GeoFM 预训练或 foundation embedding adapter。

Contents

RS-36 Raster-Vector Joint Encoder

RS-36 Raster-Vector Joint Encoder

1. 问题定义

2. 代表论文与项目

3. 方法脉络

3.1 旧路线：矢量转栅格或转标签

3.2 新路线：RS patch 与 OSM geoentity 直接融合

3.3 Vector-only encoder：点、线、面如何统一

3.4 Tabular/POI/行政区 token 融合

4. 当前问题

5. 可投稿的小课题方案

题目草案

核心假设

模型结构

数据对齐方案

6. 实验矩阵

7. Baseline 推荐

8. 失败模式与消融

9. 未来研究方向

10. 最小可行实验

11. 参考链接

Related Content

评论

RS-36 Raster-Vector Joint Encoder

RS-36 Raster-Vector Joint Encoder

1. 问题定义

2. 代表论文与项目

3. 方法脉络

3.1 旧路线：矢量转栅格或转标签

3.2 新路线：RS patch 与 OSM geoentity 直接融合

3.3 Vector-only encoder：点、线、面如何统一

3.4 Tabular/POI/行政区 token 融合

4. 当前问题

5. 可投稿的小课题方案

题目草案

核心假设

模型结构

数据对齐方案

6. 实验矩阵

7. Baseline 推荐

8. 失败模式与消融

9. 未来研究方向

10. 最小可行实验

11. 参考链接

Related Content

VecLang：把遥感矢量地图写成可执行语言

RS-40 Polygon-Native Mask Decoder

RS-39 POI-Assisted Remote Sensing VLM Reasoning

RS-38 Parcel-Aware Crop Mapping

RS-37 Topology-Aware Road and Building Segmentation

评论