RS-40 Polygon-Native Mask Decoder

WangTong included in category and series 2024-2026 遥感 AI 细分研究方向

2026-06-07 09:39:00 2026-06-07 09:39:00 889 words 4 minutes

Series - 2024-2026 遥感 AI 细分研究方向

RS-40 Polygon-Native Mask Decoder

执行摘要

2024-2026 的矢量化遥感提取正在从“mask -> polygonize -> simplify/regularize”的工程管线，转向“模型原生输出 vertex / edge / ring graph / polygon token”。这个转变的原因很直接：GIS、城市建模、道路导航、地块管理最终需要的是可编辑、拓扑有效、顶点简洁的矢量对象，而 raster mask 的高 IoU 并不保证角点直、边界稳、道路连通、地块不自交。

最值得推进的小课题不是泛泛地“建筑物提取”，而是：用 SAM/GeoFM 的强视觉特征作为 encoder，同时设计 polygon-native decoder，直接输出多实例、多环、多类别的 GIS-ready 矢量对象，并用边界质量、顶点效率和拓扑有效性作为主指标。

问题由来

传统遥感分割把建筑、道路、农田边界当作像素分类问题，输出 raster mask。这个输出在 mIoU 上可能很好，但在 GIS 里常见四类问题：

建筑边界呈锯齿或圆角，直角、长直边、规则边界被破坏。
mask polygonize 后顶点数量过多，需要 Douglas-Peucker、正交化、拓扑修复等经验后处理。
后处理不可微，训练时不能直接优化“顶点少、角点准、拓扑合法”。
道路和地块更关心连通性、闭合性、相邻关系，像素级 IoU 不足以评价产品质量。

2024-2026 的新方法大致分三条路线：

SAM/基础模型增强的间接矢量化：先借助 SAM 或强 segmentation encoder 得到 mask、vertex、boundary，再连接成 polygon，例如 SAMPolyBuild。
显式 polygon / graph 序列预测：把角点坐标、边连接、ring graph 当作 token 或图结构直接预测，例如 Pix2Poly、GeoFormer、P2PFormer、VectorLLM。
面向道路/地块的拓扑矢量输出：道路输出图或道路 outline polygon，农田输出可扩展 field boundary polygon，例如 SAM-Road、LDPoly、FTW/PRUE。

代表工作

工作	年份/来源	对象	输出形式	代码/资源	关键贡献
SAMPolyBuild	2024 ISPRS JPRS	建筑	mask + vertex/boundary/offset -> polygon	paper, GitHub	适配 SAM 做 polygonal building extraction；额外预测 Gaussian vertex、offset、boundary map，并支持自动 bbox 和交互 prompt。
P2PFormer	2024 arXiv	建筑	geometric primitives + sequence	arXiv	先分割 vertex/line/corner 等几何 primitive，再预测连接顺序，构造规则建筑轮廓。
GeoFormer	2024 BMVC	多 polygon	auto-regressive multi-polygon	arXiv, GitHub	将自回归 transformer 用于遥感多 polygon 预测，是直接多边形生成路线的代表。
Pix2Poly	2025 WACV	建筑，也扩展到道路	ring graph vertex tokens + matching	CVF PDF, arXiv, GitHub	端到端 differentiable transformer，直接生成高质量 building footprint ring graph，用 optimal matching 学顶点连接。
SAM-Road	2024 CVPRW	道路网络	graph vertices + edges	arXiv, GitHub	将 SAM 适配到大范围道路图提取；SAM embedding 预测道路/交叉口 mask，再用轻量 graph transformer 估计边。
LDPoly	2025 arXiv	道路 outline	road mask + vertex heatmap -> polygon	arXiv	面向 polygonal road outline extraction，提出 dual-latent diffusion，同时生成 road masks 和 vertex heatmaps，并设计 polygon simplicity / boundary smoothness 指标。
VectorLLM	2025 arXiv	建筑轮廓，可泛化到其他目标	corner-by-corner regression	arXiv	用 MLLM 模拟人工标注员逐角点绘制建筑轮廓；报告在 WHU、WHU-Mix、CrowdAI 上超过前 SOTA，并有零样本对象潜力。
FTW / PRUE	2025-2026 benchmark + CVPR 2026	农田地块边界	segmentation -> polygons at scale	Fields of The World, PRUE arXiv, GitHub	提供全球 field boundary 生态，FTW 覆盖 2024/2025 的十亿级 polygons；PRUE 强调 scalable field boundary segmentation 和可部署管线。

方法谱系

1. Mask 后处理管线

典型流程是 segmentation mask -> connected components -> contour extraction -> simplify -> regularize -> topology repair。优点是工程成熟、容易接入 U-Net、DeepLab、SAM、GeoFM feature；缺点是不可微，后处理参数对区域、GSD 和建筑风格敏感。

适合当 baseline：SAM/UNet + marching squares + Douglas-Peucker + orthogonal regularization + Shapely validity repair。

2. SAM 增强的 polygon extraction

SAMPolyBuild 代表“基础模型强特征 + 额外几何头”的路线。它不是纯 polygon-native decoder，但很适合作为过渡：SAM 负责泛化性和 promptability，额外 vertex/boundary/offset 头弥补 SAM mask 不支持规则矢量轮廓的问题。论文页明确指出，SAM 本身不直接支持 regular vector contour extraction，因此需要 vertex prediction 辅助 polygon extraction。

研究机会：把 SAMPolyBuild 的 pixel-based vertex map 改成 set/sequence vertex decoder，减少 NMS 和连接规则；或把 box/point prompt 转成 polygon prompt，让模型输出 exterior ring 和 holes。

3. 显式 vertex/edge/ring graph decoder

Pix2Poly 是最贴近“polygon-native”的代表：用 transformer 预测 vertex coordinate token，再用 optimal matching network 学每个角点之间的连接关系，直接输出 ring graph。它的意义在于：训练目标不再绕回 raster mask，而是把角点和边作为一等公民。

GeoFormer 则把多 polygon 预测做成自回归问题，更接近“一个 image encoder + 一个 polygon language decoder”。VectorLLM 更进一步，尝试让 MLLM 按人工标注过程逐角点回归，这条线很适合和遥感 VLM、指令微调、坐标 token 结合。

主要瓶颈：坐标量化误差、长序列稳定性、实例顺序歧义、多建筑拥挤时的 ring assignment、holes 和 multi-part geometry 表示。

4. 道路/地块的 topology-first decoder

道路和农田地块不能简单照搬建筑 polygon：道路有分叉、交叉、连通性；地块有相邻边界、长边、弱纹理和季节变化。SAM-Road 把道路图拆成 vertex/edge 图学习；LDPoly 关注 road outline polygon，并引入 polygon simplicity 与 boundary smoothness；FTW/PRUE 则强调大规模 field boundary 的可部署可靠性。

研究机会：用统一 decoder 输出不同 vector primitive：building exterior ring、road centerline graph、road outline polygon、field parcel polygon，并用任务类型 token 控制几何约束。

当前问题

指标错位：mIoU 高不等于 polygon 好。实际 GIS 更关心 corner precision、边界直线度、顶点数量、拓扑合法性、是否自交、是否有 sliver polygons。
后处理不可复现：不同 polygonize/simplify/regularize 参数可能让结果差很多，论文间很难公平比较。
实例顺序和顶点顺序难监督：同一个 polygon 可以从任意顶点开始，顺时针/逆时针等价，多实例排列也等价。
复杂 geometry 表示不足：holes、multi-polygons、相邻地块共享边、道路分叉/环岛很难用简单 vertex sequence 表达。
跨区域泛化弱：建筑形态、屋顶材质、道路宽度、农田纹理随地区变化大，polygon decoder 容易学到局部几何偏置。
基础模型和矢量 decoder 尚未深度融合：SAM/GeoFM 特征强，但大多仍输出 mask；polygon decoder 强调结构，但常缺少 foundation model 的泛化。

推荐研究题：GeoPolySAM Decoder

假设

在遥感建筑/道路/地块提取中，使用 SAM/GeoFM encoder 提供强视觉特征，再用 polygon-native decoder 直接预测 vertex、edge 和 ring topology，可在相近 mask IoU 下显著提升 GIS-ready 质量：更少顶点、更高角点精度、更低自交率、更好道路/地块拓扑。

方法草图

Encoder：使用 SAM image encoder、Prithvi/Clay/SkySense feature 或 ConvNeXt/Swin baseline。输入支持 RGB/VHR，也预留多光谱 adapter。
Prompt / proposal branch：支持三种输入：无 prompt 自动提取、box/point prompt、已有 OSM/field boundary 弱先验。
Polygon query decoder：每个实例一个 query，输出 objectness、class、exterior ring token、optional holes token。
Vertex-edge joint head：顶点坐标用连续 regression 或高分辨率 coordinate token；边连接用 matching / pointer network；道路任务额外输出 graph edge probability。
Differentiable raster consistency：训练时把 polygon rasterize 为 soft mask，与 GT mask 做 Dice/Boundary loss，兼顾 mask coverage。
Geometry validity loss：加入 self-intersection penalty、angle regularity、edge straightness、vertex sparsity、shared-boundary consistency。
Task-conditioned constraints：建筑偏正交/闭合，路网偏连通，地块偏共享边界与少 sliver。

与现有工作的差别

相比 SAMPolyBuild：减少 pixel vertex heatmap + heuristic connection，改成显式 polygon token / graph matching。
相比 Pix2Poly：引入 SAM/GeoFM encoder 和 promptability，并扩展到建筑/道路/地块多任务。
相比 SAM-Road：不只输出道路 centerline graph，也输出 road outline polygon，并统一边界/拓扑指标。
相比 PRUE：不只做 scalable field boundary segmentation，而是把 field boundary 的 polygon validity 纳入训练目标。

实验设计

数据集

类别	数据集	用途
建筑	WHU Building, CrowdAI Mapping Challenge, INRIA Aerial, SpaceNet Buildings	建筑 polygon/ring graph 主实验和跨区域泛化
道路	City-Scale, SpaceNet Roads, Map2ImLas	道路 graph / road outline polygon
地块	Fields of The World, FTW PRUE release, Sentinel-2 field boundary subsets	农田地块 polygon、共享边界和大规模部署

Baselines

Mask 后处理：U-Net/Swin/SAM mask + contour + Douglas-Peucker + orthogonalization。
SAMPolyBuild：SAM-based building polygon extraction。
Pix2Poly：sequence / ring graph direct polygon baseline。
GeoFormer / P2PFormer：自回归或 primitive-to-polygon building contour baseline。
SAM-Road：道路图提取 baseline。
LDPoly：道路 outline polygon diffusion baseline。
PRUE：field boundary scalable segmentation baseline。

指标

像素覆盖

IoU / mIoU
Dice / F1
Boundary IoU
Boundary F1

矢量几何

Corner precision / recall / F1
Mean corner localization error
PoLiS distance
Hausdorff / Chamfer distance
Angle error / orthogonality error
Vertex count ratio / vertex efficiency
Polygon simplicity score
Boundary smoothness

拓扑与 GIS 可用性

Valid polygon rate
Self-intersection rate
Ring closure error
Sliver polygon rate
Hole correctness
Road connectivity / APLS / graph edit distance
Field shared-boundary consistency

泛化与效率

Leave-city-out / leave-country-out
Cross-GSD
Latency per km2
Post-processing time
Manual correction time

最小可行实验

先选建筑任务，使用 WHU + CrowdAI，比较 SAM mask + polygonize、SAMPolyBuild、Pix2Poly 和一个轻量 GeoPolySAM prototype。
只做 exterior ring，不处理 holes；坐标 token 先量化到 256 或 512 bins。
训练目标包括 vertex CE/L1、edge matching loss、soft raster Dice、self-intersection penalty。
主要报告：IoU、Corner F1、PoLiS、valid polygon rate、vertex count ratio。
扩展实验再加入道路 City-Scale/SpaceNet 和 FTW field boundary。

风险

Polygon decoder 训练不稳定，尤其多实例和长序列。
坐标 token 量化会伤害精细边界，连续回归又可能排序不稳。
不同数据集 polygon annotation 风格差异大，角点密度和简化程度不一致。
建筑规则性先验迁移到道路/地块时可能变成错误约束。
公开代码和 checkpoint 不完全一致，复现时需要明确记录版本。

未来研究方向

Promptable polygon decoder：用户给 box/point/coarse mask，模型直接输出可编辑 polygon。
Polygon-language model：把 polygon ring 表示为 token 序列，借鉴 VLM/LLM 的指令微调和偏好优化。
Shared-boundary field decoder：地块相邻边界共享，不能逐实例独立预测；可用 planar graph 表示。
Topology-aware SAM adapter：在 SAM mask decoder 后接 graph/polygon head，让基础模型保持 promptability。
GIS-product evaluation：把人工修图时间、拓扑修复次数、矢量文件大小纳入论文指标。
Cross-object vector extraction：同一 decoder 支持建筑、道路、水体、油罐、飞机、农田地块，测试 VectorLLM 提到的零样本潜力。

Contents

RS-40 Polygon-Native Mask Decoder

RS-40 Polygon-Native Mask Decoder

执行摘要

问题由来

代表工作

方法谱系

1. Mask 后处理管线

2. SAM 增强的 polygon extraction

3. 显式 vertex/edge/ring graph decoder

4. 道路/地块的 topology-first decoder

当前问题

推荐研究题：GeoPolySAM Decoder

假设

方法草图

与现有工作的差别

实验设计

数据集

Baselines

指标

最小可行实验

风险

未来研究方向

阅读队列

Related Content

评论

RS-40 Polygon-Native Mask Decoder

RS-40 Polygon-Native Mask Decoder

执行摘要

问题由来

代表工作

方法谱系

1. Mask 后处理管线

2. SAM 增强的 polygon extraction

3. 显式 vertex/edge/ring graph decoder

4. 道路/地块的 topology-first decoder

当前问题

推荐研究题：GeoPolySAM Decoder

假设

方法草图

与现有工作的差别

实验设计

数据集

Baselines

指标

最小可行实验

风险

未来研究方向

阅读队列

Related Content

VecLang：把遥感矢量地图写成可执行语言

RS-39 POI-Assisted Remote Sensing VLM Reasoning

RS-38 Parcel-Aware Crop Mapping

RS-37 Topology-Aware Road and Building Segmentation

RS-36 Raster-Vector Joint Encoder

评论