LPM：把遥感建筑轮廓提取改写成坐标语言建模

Sun, 14 Jun 2026 23:00:04 +0800

LPM：把遥感建筑轮廓提取改写成坐标语言建模

结论：这一轮最值得单独跟踪的是 Amazon Last Mile 的 Rethinking Language Models for Building Outline Extraction from Remote Sensing Imagery。它没有继续走“分割 mask -> 规则矢量化 -> 几何修正”的老路，而是把建筑轮廓直接序列化为坐标 token，让一个 decoder-only LLM 逐点生成多边形。论文在 INRIA、SpaceNet2、CrowdAI、WHU 四个公开建筑 benchmark 上验证，核心贡献不是把遥感图像拿去问答，而是把 LLM 的自回归序列建模能力迁移到结构化几何输出。对遥感 AI 来说，这比普通 VLM caption 更值得看：它指向“模型直接输出 GIS 可用矢量对象”的路线。

我按 2026-06-14 23:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是光学/航空遥感建筑轮廓提取，数据集包括 RGB 航空或卫星影像，不属于雷达方向。它和最近的 VLM 热点关系很直接，但重点不是自然语言问答，而是把视觉模型和语言模型改造成可生成 polygon 的几何模型。

这篇文章的现实意义在于：遥感业务最终常常需要的不是一张好看的分割图，而是能进 GIS、地图、规划、灾害评估、导航系统的建筑 footprint。传统深度学习模型通常先输出 raster mask，再靠 Douglas-Peucker、直线拟合、角点检测、拓扑修复等步骤变成多边形。每一步都可能引入误差，也很难端到端优化。LPM 的问题意识很清楚：既然代码、公式和结构化文本都能被语言模型建模，建筑多边形坐标序列是否也可以被当作一种“几何语言”来生成？

背景

建筑轮廓提取一直是高分辨率遥感里的核心任务。它服务城市更新、应急响应、人口估计、物流地址库、能源建模和制图生产。过去的主流路线大致有两类。

第一类是 mask-based 方法，例如 U-Net、Mask2Former、SAM/SAM2 适配模型、SAMPolyBuild 等。它们擅长像素覆盖，但输出的是栅格。业务侧真正需要的是闭合、多边形化、边界规整的矢量对象，于是还要做后处理。后处理通常不可微，且对阈值、屋顶阴影、树冠遮挡、密集建筑粘连很敏感。

第二类是 keypoint / graph 方法，例如 PolyWorld、P2PFormer、PolyBuilding、PolyR-CNN、Pix2Poly。它们尝试直接预测顶点或边，再把顶点连接成多边形。相比 mask 路线，它们更接近矢量输出，但往往仍拆成“顶点检测 + 连通关系推断 + 组装修复”几个子问题。密集城区里，如果相邻建筑靠得很近，连通关系很容易出错。

多边形生成 - Tag - 堂堂一跑堂

LPM：把遥感建筑轮廓提取改写成坐标语言建模

LPM：把遥感建筑轮廓提取改写成坐标语言建模

背景