RS-40 Polygon-Native Mask Decoder

Series - 2024-2026 遥感 AI 细分研究方向

RS-40 Polygon-Native Mask Decoder

2024-2026 的矢量化遥感提取正在从“mask -> polygonize -> simplify/regularize”的工程管线,转向“模型原生输出 vertex / edge / ring graph / polygon token”。这个转变的原因很直接:GIS、城市建模、道路导航、地块管理最终需要的是可编辑、拓扑有效、顶点简洁的矢量对象,而 raster mask 的高 IoU 并不保证角点直、边界稳、道路连通、地块不自交。

最值得推进的小课题不是泛泛地“建筑物提取”,而是:用 SAM/GeoFM 的强视觉特征作为 encoder,同时设计 polygon-native decoder,直接输出多实例、多环、多类别的 GIS-ready 矢量对象,并用边界质量、顶点效率和拓扑有效性作为主指标。

传统遥感分割把建筑、道路、农田边界当作像素分类问题,输出 raster mask。这个输出在 mIoU 上可能很好,但在 GIS 里常见四类问题:

  1. 建筑边界呈锯齿或圆角,直角、长直边、规则边界被破坏。
  2. mask polygonize 后顶点数量过多,需要 Douglas-Peucker、正交化、拓扑修复等经验后处理。
  3. 后处理不可微,训练时不能直接优化“顶点少、角点准、拓扑合法”。
  4. 道路和地块更关心连通性、闭合性、相邻关系,像素级 IoU 不足以评价产品质量。

2024-2026 的新方法大致分三条路线:

  • SAM/基础模型增强的间接矢量化:先借助 SAM 或强 segmentation encoder 得到 mask、vertex、boundary,再连接成 polygon,例如 SAMPolyBuild。
  • 显式 polygon / graph 序列预测:把角点坐标、边连接、ring graph 当作 token 或图结构直接预测,例如 Pix2Poly、GeoFormer、P2PFormer、VectorLLM。
  • 面向道路/地块的拓扑矢量输出:道路输出图或道路 outline polygon,农田输出可扩展 field boundary polygon,例如 SAM-Road、LDPoly、FTW/PRUE。
工作年份/来源对象输出形式代码/资源关键贡献
SAMPolyBuild2024 ISPRS JPRS建筑mask + vertex/boundary/offset -> polygonpaper, GitHub适配 SAM 做 polygonal building extraction;额外预测 Gaussian vertex、offset、boundary map,并支持自动 bbox 和交互 prompt。
P2PFormer2024 arXiv建筑geometric primitives + sequencearXiv先分割 vertex/line/corner 等几何 primitive,再预测连接顺序,构造规则建筑轮廓。
GeoFormer2024 BMVC多 polygonauto-regressive multi-polygonarXiv, GitHub将自回归 transformer 用于遥感多 polygon 预测,是直接多边形生成路线的代表。
Pix2Poly2025 WACV建筑,也扩展到道路ring graph vertex tokens + matchingCVF PDF, arXiv, GitHub端到端 differentiable transformer,直接生成高质量 building footprint ring graph,用 optimal matching 学顶点连接。
SAM-Road2024 CVPRW道路网络graph vertices + edgesarXiv, GitHub将 SAM 适配到大范围道路图提取;SAM embedding 预测道路/交叉口 mask,再用轻量 graph transformer 估计边。
LDPoly2025 arXiv道路 outlineroad mask + vertex heatmap -> polygonarXiv面向 polygonal road outline extraction,提出 dual-latent diffusion,同时生成 road masks 和 vertex heatmaps,并设计 polygon simplicity / boundary smoothness 指标。
VectorLLM2025 arXiv建筑轮廓,可泛化到其他目标corner-by-corner regressionarXiv用 MLLM 模拟人工标注员逐角点绘制建筑轮廓;报告在 WHU、WHU-Mix、CrowdAI 上超过前 SOTA,并有零样本对象潜力。
FTW / PRUE2025-2026 benchmark + CVPR 2026农田地块边界segmentation -> polygons at scaleFields of The World, PRUE arXiv, GitHub提供全球 field boundary 生态,FTW 覆盖 2024/2025 的十亿级 polygons;PRUE 强调 scalable field boundary segmentation 和可部署管线。

典型流程是 segmentation mask -> connected components -> contour extraction -> simplify -> regularize -> topology repair。优点是工程成熟、容易接入 U-Net、DeepLab、SAM、GeoFM feature;缺点是不可微,后处理参数对区域、GSD 和建筑风格敏感。

适合当 baseline:SAM/UNet + marching squares + Douglas-Peucker + orthogonal regularization + Shapely validity repair。

SAMPolyBuild 代表“基础模型强特征 + 额外几何头”的路线。它不是纯 polygon-native decoder,但很适合作为过渡:SAM 负责泛化性和 promptability,额外 vertex/boundary/offset 头弥补 SAM mask 不支持规则矢量轮廓的问题。论文页明确指出,SAM 本身不直接支持 regular vector contour extraction,因此需要 vertex prediction 辅助 polygon extraction。

研究机会:把 SAMPolyBuild 的 pixel-based vertex map 改成 set/sequence vertex decoder,减少 NMS 和连接规则;或把 box/point prompt 转成 polygon prompt,让模型输出 exterior ring 和 holes。

Pix2Poly 是最贴近“polygon-native”的代表:用 transformer 预测 vertex coordinate token,再用 optimal matching network 学每个角点之间的连接关系,直接输出 ring graph。它的意义在于:训练目标不再绕回 raster mask,而是把角点和边作为一等公民。

GeoFormer 则把多 polygon 预测做成自回归问题,更接近“一个 image encoder + 一个 polygon language decoder”。VectorLLM 更进一步,尝试让 MLLM 按人工标注过程逐角点回归,这条线很适合和遥感 VLM、指令微调、坐标 token 结合。

主要瓶颈:坐标量化误差、长序列稳定性、实例顺序歧义、多建筑拥挤时的 ring assignment、holes 和 multi-part geometry 表示。

道路和农田地块不能简单照搬建筑 polygon:道路有分叉、交叉、连通性;地块有相邻边界、长边、弱纹理和季节变化。SAM-Road 把道路图拆成 vertex/edge 图学习;LDPoly 关注 road outline polygon,并引入 polygon simplicity 与 boundary smoothness;FTW/PRUE 则强调大规模 field boundary 的可部署可靠性。

研究机会:用统一 decoder 输出不同 vector primitive:building exterior ring、road centerline graph、road outline polygon、field parcel polygon,并用任务类型 token 控制几何约束。

  1. 指标错位:mIoU 高不等于 polygon 好。实际 GIS 更关心 corner precision、边界直线度、顶点数量、拓扑合法性、是否自交、是否有 sliver polygons。
  2. 后处理不可复现:不同 polygonize/simplify/regularize 参数可能让结果差很多,论文间很难公平比较。
  3. 实例顺序和顶点顺序难监督:同一个 polygon 可以从任意顶点开始,顺时针/逆时针等价,多实例排列也等价。
  4. 复杂 geometry 表示不足:holes、multi-polygons、相邻地块共享边、道路分叉/环岛很难用简单 vertex sequence 表达。
  5. 跨区域泛化弱:建筑形态、屋顶材质、道路宽度、农田纹理随地区变化大,polygon decoder 容易学到局部几何偏置。
  6. 基础模型和矢量 decoder 尚未深度融合:SAM/GeoFM 特征强,但大多仍输出 mask;polygon decoder 强调结构,但常缺少 foundation model 的泛化。

在遥感建筑/道路/地块提取中,使用 SAM/GeoFM encoder 提供强视觉特征,再用 polygon-native decoder 直接预测 vertex、edge 和 ring topology,可在相近 mask IoU 下显著提升 GIS-ready 质量:更少顶点、更高角点精度、更低自交率、更好道路/地块拓扑。

  1. Encoder:使用 SAM image encoder、Prithvi/Clay/SkySense feature 或 ConvNeXt/Swin baseline。输入支持 RGB/VHR,也预留多光谱 adapter。
  2. Prompt / proposal branch:支持三种输入:无 prompt 自动提取、box/point prompt、已有 OSM/field boundary 弱先验。
  3. Polygon query decoder:每个实例一个 query,输出 objectness、class、exterior ring token、optional holes token。
  4. Vertex-edge joint head:顶点坐标用连续 regression 或高分辨率 coordinate token;边连接用 matching / pointer network;道路任务额外输出 graph edge probability。
  5. Differentiable raster consistency:训练时把 polygon rasterize 为 soft mask,与 GT mask 做 Dice/Boundary loss,兼顾 mask coverage。
  6. Geometry validity loss:加入 self-intersection penalty、angle regularity、edge straightness、vertex sparsity、shared-boundary consistency。
  7. Task-conditioned constraints:建筑偏正交/闭合,路网偏连通,地块偏共享边界与少 sliver。
  • 相比 SAMPolyBuild:减少 pixel vertex heatmap + heuristic connection,改成显式 polygon token / graph matching。
  • 相比 Pix2Poly:引入 SAM/GeoFM encoder 和 promptability,并扩展到建筑/道路/地块多任务。
  • 相比 SAM-Road:不只输出道路 centerline graph,也输出 road outline polygon,并统一边界/拓扑指标。
  • 相比 PRUE:不只做 scalable field boundary segmentation,而是把 field boundary 的 polygon validity 纳入训练目标。
类别数据集用途
建筑WHU Building, CrowdAI Mapping Challenge, INRIA Aerial, SpaceNet Buildings建筑 polygon/ring graph 主实验和跨区域泛化
道路City-Scale, SpaceNet Roads, Map2ImLas道路 graph / road outline polygon
地块Fields of The World, FTW PRUE release, Sentinel-2 field boundary subsets农田地块 polygon、共享边界和大规模部署
  1. Mask 后处理:U-Net/Swin/SAM mask + contour + Douglas-Peucker + orthogonalization。
  2. SAMPolyBuild:SAM-based building polygon extraction。
  3. Pix2Poly:sequence / ring graph direct polygon baseline。
  4. GeoFormer / P2PFormer:自回归或 primitive-to-polygon building contour baseline。
  5. SAM-Road:道路图提取 baseline。
  6. LDPoly:道路 outline polygon diffusion baseline。
  7. PRUE:field boundary scalable segmentation baseline。

像素覆盖

  • IoU / mIoU
  • Dice / F1
  • Boundary IoU
  • Boundary F1

矢量几何

  • Corner precision / recall / F1
  • Mean corner localization error
  • PoLiS distance
  • Hausdorff / Chamfer distance
  • Angle error / orthogonality error
  • Vertex count ratio / vertex efficiency
  • Polygon simplicity score
  • Boundary smoothness

拓扑与 GIS 可用性

  • Valid polygon rate
  • Self-intersection rate
  • Ring closure error
  • Sliver polygon rate
  • Hole correctness
  • Road connectivity / APLS / graph edit distance
  • Field shared-boundary consistency

泛化与效率

  • Leave-city-out / leave-country-out
  • Cross-GSD
  • Latency per km2
  • Post-processing time
  • Manual correction time
  1. 先选建筑任务,使用 WHU + CrowdAI,比较 SAM mask + polygonize、SAMPolyBuild、Pix2Poly 和一个轻量 GeoPolySAM prototype。
  2. 只做 exterior ring,不处理 holes;坐标 token 先量化到 256 或 512 bins。
  3. 训练目标包括 vertex CE/L1、edge matching loss、soft raster Dice、self-intersection penalty。
  4. 主要报告:IoU、Corner F1、PoLiS、valid polygon rate、vertex count ratio。
  5. 扩展实验再加入道路 City-Scale/SpaceNet 和 FTW field boundary。
  • Polygon decoder 训练不稳定,尤其多实例和长序列。
  • 坐标 token 量化会伤害精细边界,连续回归又可能排序不稳。
  • 不同数据集 polygon annotation 风格差异大,角点密度和简化程度不一致。
  • 建筑规则性先验迁移到道路/地块时可能变成错误约束。
  • 公开代码和 checkpoint 不完全一致,复现时需要明确记录版本。
  1. Promptable polygon decoder:用户给 box/point/coarse mask,模型直接输出可编辑 polygon。
  2. Polygon-language model:把 polygon ring 表示为 token 序列,借鉴 VLM/LLM 的指令微调和偏好优化。
  3. Shared-boundary field decoder:地块相邻边界共享,不能逐实例独立预测;可用 planar graph 表示。
  4. Topology-aware SAM adapter:在 SAM mask decoder 后接 graph/polygon head,让基础模型保持 promptability。
  5. GIS-product evaluation:把人工修图时间、拓扑修复次数、矢量文件大小纳入论文指标。
  6. Cross-object vector extraction:同一 decoder 支持建筑、道路、水体、油罐、飞机、农田地块,测试 VectorLLM 提到的零样本潜力。
  1. SAMPolyBuild: Adapting the Segment Anything Model for polygonal building extraction
  2. SAMPolyBuild GitHub
  3. Pix2Poly: WACV 2025 paper
  4. Pix2Poly GitHub
  5. GeoFormer: A Multi-Polygon Segmentation Transformer
  6. GeoFormer GitHub
  7. P2PFormer
  8. SAM-Road
  9. SAM-Road GitHub
  10. LDPoly
  11. VectorLLM
  12. Fields of The World
  13. PRUE
  14. FTW PRUE GitHub

Related Content

评论