LPM：把遥感建筑轮廓提取改写成坐标语言建模

Sun, 14 Jun 2026 23:00:04 +0800

LPM：把遥感建筑轮廓提取改写成坐标语言建模

结论：这一轮最值得单独跟踪的是 Amazon Last Mile 的 Rethinking Language Models for Building Outline Extraction from Remote Sensing Imagery。它没有继续走“分割 mask -> 规则矢量化 -> 几何修正”的老路，而是把建筑轮廓直接序列化为坐标 token，让一个 decoder-only LLM 逐点生成多边形。论文在 INRIA、SpaceNet2、CrowdAI、WHU 四个公开建筑 benchmark 上验证，核心贡献不是把遥感图像拿去问答，而是把 LLM 的自回归序列建模能力迁移到结构化几何输出。对遥感 AI 来说，这比普通 VLM caption 更值得看：它指向“模型直接输出 GIS 可用矢量对象”的路线。

我按 2026-06-14 23:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是光学/航空遥感建筑轮廓提取，数据集包括 RGB 航空或卫星影像，不属于雷达方向。它和最近的 VLM 热点关系很直接，但重点不是自然语言问答，而是把视觉模型和语言模型改造成可生成 polygon 的几何模型。

这篇文章的现实意义在于：遥感业务最终常常需要的不是一张好看的分割图，而是能进 GIS、地图、规划、灾害评估、导航系统的建筑 footprint。传统深度学习模型通常先输出 raster mask，再靠 Douglas-Peucker、直线拟合、角点检测、拓扑修复等步骤变成多边形。每一步都可能引入误差，也很难端到端优化。LPM 的问题意识很清楚：既然代码、公式和结构化文本都能被语言模型建模，建筑多边形坐标序列是否也可以被当作一种“几何语言”来生成？

背景

建筑轮廓提取一直是高分辨率遥感里的核心任务。它服务城市更新、应急响应、人口估计、物流地址库、能源建模和制图生产。过去的主流路线大致有两类。

第一类是 mask-based 方法，例如 U-Net、Mask2Former、SAM/SAM2 适配模型、SAMPolyBuild 等。它们擅长像素覆盖，但输出的是栅格。业务侧真正需要的是闭合、多边形化、边界规整的矢量对象，于是还要做后处理。后处理通常不可微，且对阈值、屋顶阴影、树冠遮挡、密集建筑粘连很敏感。

第二类是 keypoint / graph 方法，例如 PolyWorld、P2PFormer、PolyBuilding、PolyR-CNN、Pix2Poly。它们尝试直接预测顶点或边，再把顶点连接成多边形。相比 mask 路线，它们更接近矢量输出，但往往仍拆成“顶点检测 + 连通关系推断 + 组装修复”几个子问题。密集城区里，如果相邻建筑靠得很近，连通关系很容易出错。

ZODS-RS：DINOv3+SAM2 的零训练遥感检测与实例分割

Fri, 12 Jun 2026 15:00:03 +0800

ZODS-RS：DINOv3+SAM2 的零训练遥感检测与实例分割

结论：这一轮值得单独跟踪的是 ZODS-RS，不是因为它的绝对精度已经压过监督检测器，而是因为它把遥感检测/实例分割推向了一个更实用的基线问题：如果不给新地区、新平台、新目标重新标注和训练，冻结的 DINOv3 特征、SAM2 proposals 和一组闭式匹配规则，到底能做到什么程度。

我按 2026-06-12 15:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 项。ZODS-RS 的任务是航空/UAV/高分辨率光学遥感目标检测与实例分割，核心来源是 arXiv:2606.10769；截至本次检查，没有检索到官方 GitHub 仓库，因此本文把它作为“论文信号 + 待复现基线”处理，而不是已经可直接跑通的开源项目。

摘要

ZODS-RS 的全名是 Zero-training Oriented Detection & Segmentation for Remote Sensing，2026-06-09 提交 arXiv。论文提出一个 training-free、closed-form 的遥感/无人机影像流程，输出 horizontal bounding boxes（HBB）和 instance masks。它不训练新的检测器，而是把 DINOv3 dense features、SAM-style proposals、memory/prototype 机制串起来，再用 prototype purification、rotation-scale equivariant matching、uncertainty-aware pixelwise merging 做推理期匹配和合并。

这个工作最值得看的地方是问题设定。遥感检测长期依赖 DOTA、FAIR1M、xView 这类标注数据训练专用模型，但真实应用常常是“换一个地区、换一个平台、换一个类别，就没有足够标签”。ZODS-RS 问的是：能否用通用视觉基础模型的 frozen dense features，加上遥感几何约束，做一个不训练也能工作的 detection + segmentation baseline。它的分数不应和 fully supervised detector 直接硬比，而应和 Grounded-SAM、open-vocabulary detector、SAM proposal pipeline、DINO feature matching 这类低标注/零训练方案比较。

SAM2 - Tag - 堂堂一跑堂

LPM：把遥感建筑轮廓提取改写成坐标语言建模

LPM：把遥感建筑轮廓提取改写成坐标语言建模

背景

ZODS-RS：DINOv3+SAM2 的零训练遥感检测与实例分割

ZODS-RS：DINOv3+SAM2 的零训练遥感检测与实例分割

摘要