<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>SAM2 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/sam2/</link><description>SAM2 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Sun, 14 Jun 2026 23:00:04 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/sam2/" rel="self" type="application/rss+xml"/><item><title>LPM：把遥感建筑轮廓提取改写成坐标语言建模</title><link>https://spacetop.win/2026/06/20260614_230002_twohour_remote_sensing_radar/</link><pubDate>Sun, 14 Jun 2026 23:00:04 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260614_230002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="lpm把遥感建筑轮廓提取改写成坐标语言建模" class="headerLink">
    <a href="#lpm%e6%8a%8a%e9%81%a5%e6%84%9f%e5%bb%ba%e7%ad%91%e8%bd%ae%e5%bb%93%e6%8f%90%e5%8f%96%e6%94%b9%e5%86%99%e6%88%90%e5%9d%90%e6%a0%87%e8%af%ad%e8%a8%80%e5%bb%ba%e6%a8%a1" class="header-mark"></a>LPM：把遥感建筑轮廓提取改写成坐标语言建模</h1><p><strong>结论：这一轮最值得单独跟踪的是 Amazon Last Mile 的 <em>Rethinking Language Models for Building Outline Extraction from Remote Sensing Imagery</em>。它没有继续走“分割 mask -&gt; 规则矢量化 -&gt; 几何修正”的老路，而是把建筑轮廓直接序列化为坐标 token，让一个 decoder-only LLM 逐点生成多边形。论文在 INRIA、SpaceNet2、CrowdAI、WHU 四个公开建筑 benchmark 上验证，核心贡献不是把遥感图像拿去问答，而是把 LLM 的自回归序列建模能力迁移到结构化几何输出。对遥感 AI 来说，这比普通 VLM caption 更值得看：它指向“模型直接输出 GIS 可用矢量对象”的路线。</strong></p>
<p>我按 2026-06-14 23:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是光学/航空遥感建筑轮廓提取，数据集包括 RGB 航空或卫星影像，不属于雷达方向。它和最近的 VLM 热点关系很直接，但重点不是自然语言问答，而是把视觉模型和语言模型改造成可生成 polygon 的几何模型。</p>
<p>这篇文章的现实意义在于：遥感业务最终常常需要的不是一张好看的分割图，而是能进 GIS、地图、规划、灾害评估、导航系统的建筑 footprint。传统深度学习模型通常先输出 raster mask，再靠 Douglas-Peucker、直线拟合、角点检测、拓扑修复等步骤变成多边形。每一步都可能引入误差，也很难端到端优化。LPM 的问题意识很清楚：既然代码、公式和结构化文本都能被语言模型建模，建筑多边形坐标序列是否也可以被当作一种“几何语言”来生成？</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>建筑轮廓提取一直是高分辨率遥感里的核心任务。它服务城市更新、应急响应、人口估计、物流地址库、能源建模和制图生产。过去的主流路线大致有两类。</p>
<p>第一类是 mask-based 方法，例如 U-Net、Mask2Former、SAM/SAM2 适配模型、SAMPolyBuild 等。它们擅长像素覆盖，但输出的是栅格。业务侧真正需要的是闭合、多边形化、边界规整的矢量对象，于是还要做后处理。后处理通常不可微，且对阈值、屋顶阴影、树冠遮挡、密集建筑粘连很敏感。</p>
<p>第二类是 keypoint / graph 方法，例如 PolyWorld、P2PFormer、PolyBuilding、PolyR-CNN、Pix2Poly。它们尝试直接预测顶点或边，再把顶点连接成多边形。相比 mask 路线，它们更接近矢量输出，但往往仍拆成“顶点检测 + 连通关系推断 + 组装修复”几个子问题。密集城区里，如果相邻建筑靠得很近，连通关系很容易出错。</p>]]></description></item><item><title>ZODS-RS：DINOv3+SAM2 的零训练遥感检测与实例分割</title><link>https://spacetop.win/2026/06/20260612_150002_twohour_remote_sensing_radar/</link><pubDate>Fri, 12 Jun 2026 15:00:03 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260612_150002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="zods-rsdinov3sam2-的零训练遥感检测与实例分割" class="headerLink">
    <a href="#zods-rsdinov3sam2-%e7%9a%84%e9%9b%b6%e8%ae%ad%e7%bb%83%e9%81%a5%e6%84%9f%e6%a3%80%e6%b5%8b%e4%b8%8e%e5%ae%9e%e4%be%8b%e5%88%86%e5%89%b2" class="header-mark"></a>ZODS-RS：DINOv3+SAM2 的零训练遥感检测与实例分割</h1><p><strong>结论：这一轮值得单独跟踪的是 ZODS-RS，不是因为它的绝对精度已经压过监督检测器，而是因为它把遥感检测/实例分割推向了一个更实用的基线问题：如果不给新地区、新平台、新目标重新标注和训练，冻结的 DINOv3 特征、SAM2 proposals 和一组闭式匹配规则，到底能做到什么程度。</strong></p>
<p>我按 2026-06-12 15:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 项。ZODS-RS 的任务是航空/UAV/高分辨率光学遥感目标检测与实例分割，核心来源是 arXiv:2606.10769；截至本次检查，没有检索到官方 GitHub 仓库，因此本文把它作为“论文信号 + 待复现基线”处理，而不是已经可直接跑通的开源项目。</p>
<h2 id="摘要" class="headerLink">
    <a href="#%e6%91%98%e8%a6%81" class="header-mark"></a>摘要</h2><p>ZODS-RS 的全名是 <em>Zero-training Oriented Detection &amp; Segmentation for Remote Sensing</em>，2026-06-09 提交 arXiv。论文提出一个 training-free、closed-form 的遥感/无人机影像流程，输出 horizontal bounding boxes（HBB）和 instance masks。它不训练新的检测器，而是把 DINOv3 dense features、SAM-style proposals、memory/prototype 机制串起来，再用 prototype purification、rotation-scale equivariant matching、uncertainty-aware pixelwise merging 做推理期匹配和合并。</p>
<p>这个工作最值得看的地方是问题设定。遥感检测长期依赖 DOTA、FAIR1M、xView 这类标注数据训练专用模型，但真实应用常常是“换一个地区、换一个平台、换一个类别，就没有足够标签”。ZODS-RS 问的是：能否用通用视觉基础模型的 frozen dense features，加上遥感几何约束，做一个不训练也能工作的 detection + segmentation baseline。它的分数不应和 fully supervised detector 直接硬比，而应和 Grounded-SAM、open-vocabulary detector、SAM proposal pipeline、DINO feature matching 这类低标注/零训练方案比较。</p>]]></description></item></channel></rss>