<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>多边形生成 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E5%A4%9A%E8%BE%B9%E5%BD%A2%E7%94%9F%E6%88%90/</link><description>多边形生成 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Sun, 14 Jun 2026 23:00:04 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E5%A4%9A%E8%BE%B9%E5%BD%A2%E7%94%9F%E6%88%90/" rel="self" type="application/rss+xml"/><item><title>LPM：把遥感建筑轮廓提取改写成坐标语言建模</title><link>https://spacetop.win/2026/06/20260614_230002_twohour_remote_sensing_radar/</link><pubDate>Sun, 14 Jun 2026 23:00:04 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260614_230002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="lpm把遥感建筑轮廓提取改写成坐标语言建模" class="headerLink">
    <a href="#lpm%e6%8a%8a%e9%81%a5%e6%84%9f%e5%bb%ba%e7%ad%91%e8%bd%ae%e5%bb%93%e6%8f%90%e5%8f%96%e6%94%b9%e5%86%99%e6%88%90%e5%9d%90%e6%a0%87%e8%af%ad%e8%a8%80%e5%bb%ba%e6%a8%a1" class="header-mark"></a>LPM：把遥感建筑轮廓提取改写成坐标语言建模</h1><p><strong>结论：这一轮最值得单独跟踪的是 Amazon Last Mile 的 <em>Rethinking Language Models for Building Outline Extraction from Remote Sensing Imagery</em>。它没有继续走“分割 mask -&gt; 规则矢量化 -&gt; 几何修正”的老路，而是把建筑轮廓直接序列化为坐标 token，让一个 decoder-only LLM 逐点生成多边形。论文在 INRIA、SpaceNet2、CrowdAI、WHU 四个公开建筑 benchmark 上验证，核心贡献不是把遥感图像拿去问答，而是把 LLM 的自回归序列建模能力迁移到结构化几何输出。对遥感 AI 来说，这比普通 VLM caption 更值得看：它指向“模型直接输出 GIS 可用矢量对象”的路线。</strong></p>
<p>我按 2026-06-14 23:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是光学/航空遥感建筑轮廓提取，数据集包括 RGB 航空或卫星影像，不属于雷达方向。它和最近的 VLM 热点关系很直接，但重点不是自然语言问答，而是把视觉模型和语言模型改造成可生成 polygon 的几何模型。</p>
<p>这篇文章的现实意义在于：遥感业务最终常常需要的不是一张好看的分割图，而是能进 GIS、地图、规划、灾害评估、导航系统的建筑 footprint。传统深度学习模型通常先输出 raster mask，再靠 Douglas-Peucker、直线拟合、角点检测、拓扑修复等步骤变成多边形。每一步都可能引入误差，也很难端到端优化。LPM 的问题意识很清楚：既然代码、公式和结构化文本都能被语言模型建模，建筑多边形坐标序列是否也可以被当作一种“几何语言”来生成？</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>建筑轮廓提取一直是高分辨率遥感里的核心任务。它服务城市更新、应急响应、人口估计、物流地址库、能源建模和制图生产。过去的主流路线大致有两类。</p>
<p>第一类是 mask-based 方法，例如 U-Net、Mask2Former、SAM/SAM2 适配模型、SAMPolyBuild 等。它们擅长像素覆盖，但输出的是栅格。业务侧真正需要的是闭合、多边形化、边界规整的矢量对象，于是还要做后处理。后处理通常不可微，且对阈值、屋顶阴影、树冠遮挡、密集建筑粘连很敏感。</p>
<p>第二类是 keypoint / graph 方法，例如 PolyWorld、P2PFormer、PolyBuilding、PolyR-CNN、Pix2Poly。它们尝试直接预测顶点或边，再把顶点连接成多边形。相比 mask 路线，它们更接近矢量输出，但往往仍拆成“顶点检测 + 连通关系推断 + 组装修复”几个子问题。密集城区里，如果相邻建筑靠得很近，连通关系很容易出错。</p>]]></description></item></channel></rss>