<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>可提示分割、开放词表与密集预测 - Category - 堂堂一跑堂</title><link>https://spacetop.win/categories/%E5%8F%AF%E6%8F%90%E7%A4%BA%E5%88%86%E5%89%B2%E5%BC%80%E6%94%BE%E8%AF%8D%E8%A1%A8%E4%B8%8E%E5%AF%86%E9%9B%86%E9%A2%84%E6%B5%8B/</link><description>可提示分割、开放词表与密集预测 - Category - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Mon, 15 Jun 2026 19:00:02 +0800</lastBuildDate><atom:link href="https://spacetop.win/categories/%E5%8F%AF%E6%8F%90%E7%A4%BA%E5%88%86%E5%89%B2%E5%BC%80%E6%94%BE%E8%AF%8D%E8%A1%A8%E4%B8%8E%E5%AF%86%E9%9B%86%E9%A2%84%E6%B5%8B/" rel="self" type="application/rss+xml"/><item><title>TUE-CD：震后建筑变化检测真正难的是短时间隔下的侧视错位</title><link>https://spacetop.win/2026/06/20260615_190002_twohour_remote_sensing_radar/</link><pubDate>Mon, 15 Jun 2026 19:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260615_190002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="tue-cd震后建筑变化检测真正难的是短时间隔下的侧视错位" class="headerLink">
    <a href="#tue-cd%e9%9c%87%e5%90%8e%e5%bb%ba%e7%ad%91%e5%8f%98%e5%8c%96%e6%a3%80%e6%b5%8b%e7%9c%9f%e6%ad%a3%e9%9a%be%e7%9a%84%e6%98%af%e7%9f%ad%e6%97%b6%e9%97%b4%e9%9a%94%e4%b8%8b%e7%9a%84%e4%be%a7%e8%a7%86%e9%94%99%e4%bd%8d" class="header-mark"></a>TUE-CD：震后建筑变化检测真正难的是短时间隔下的侧视错位</h1><p><strong>结论：这一轮最值得补进雷达的是 2026-06-09 提交到 arXiv 的 <em>Building Change Detection in Earthquake: A Multi-Scale Interaction Network and A Change Detection Dataset</em>。它的重点不只是提出 MSI-Net，而是把震后应急变化检测里的一个真实难点摆到台面上：救援最需要的是震后几天内的影像，但越靠近灾害发生时刻，影像越可能存在视角、侧视、遮挡和几何错位问题。论文构建了 Turkey earthquake CD dataset（TUE-CD），用 WorldView-2/Maxar 公开影像整理 1656 对 256 x 256 双时相图像块，标注 2338 个毁坏建筑，并用多尺度 offset calibration 去缓解短时间隔影像的 side-looking mismatch。</strong></p>
<p>我按 2026-06-15 19:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是高分辨率光学震后建筑变化检测。同期候选中，Earth-OneVision 摘要显式覆盖 SAR，按本轮规则不作为主项；PolyBuild 与最近的 polygon/LPM 文章重合较大；SemDINO 侧重 DINOv3 语义变化检测，但没有新增应急数据集。因此本轮保留 TUE-CD/MSI-Net 这个更贴近灾害应急 benchmark 的方向。</p>
<p>需要先说明可复现性状态：论文、arXiv HTML 和 PDF 已公开；我没有确认到官方 GitHub 仓库，也没有确认 TUE-CD 数据集已单独开放下载。因此它目前更适合作为“问题定义 + 数据集线索 + 方法设计”的跟踪项，而不是马上可跑的工程项目。</p>]]></description></item><item><title>CSI-Net：变化检测里真正难的是压住伪变化</title><link>https://spacetop.win/2026/06/20260615_010002_twohour_remote_sensing_radar/</link><pubDate>Mon, 15 Jun 2026 01:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260615_010002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="csi-net变化检测里真正难的是压住伪变化" class="headerLink">
    <a href="#csi-net%e5%8f%98%e5%8c%96%e6%a3%80%e6%b5%8b%e9%87%8c%e7%9c%9f%e6%ad%a3%e9%9a%be%e7%9a%84%e6%98%af%e5%8e%8b%e4%bd%8f%e4%bc%aa%e5%8f%98%e5%8c%96" class="header-mark"></a>CSI-Net：变化检测里真正难的是压住伪变化</h1><p><strong>结论：这一轮最值得单独跟踪的是 2026-06-09 提交到 arXiv 的 <em>Content-Induced Spatial-Spectral Aggregation Network for Change Detection in Remote Sensing Images</em>。它的题眼不是“又一个双时相网络”，而是把变化检测里最常见的失败源说得比较准确：很多高分辨率光学影像里的强差异并不是目标变化，而是成像角度、阴影、光照、季节、背景纹理或局部配准带来的伪变化。CSI-Net 用空间推理、谱/通道差异统计和高层内容引导融合三件事，试图让模型在保留真实变化的同时压低未变化区域里的空间-光谱差异。</strong></p>
<p>我按 2026-06-15 01:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是高分辨率光学双时相变化检测，实验数据包括 LEVIR-CD、WHU-CD、CLCD 和 Sensetime change detection 数据，论文正文没有把 SAR 作为输入模态或实验对象。同期候选里，Earth-OneVision 明确统一了 optical、SAR、infrared、multispectral、temporal、video 等模态，按本轮规则不作为主项；NGram-MoSE 虽然有趣，但下游 Landslide4Sense benchmark 涉及 PALSAR 派生层，且主线是超分辨率；PolyBuild 与最近已经写过的 VecLang、LPM、polygon-native mask decoder 重合较大。因此本轮保留 CSI-Net 这个更聚焦“光学变化伪差异抑制”的方向。</p>
<p>这篇文章的现实意义在于：遥感变化检测并不缺模型结构，缺的是更可靠地区分“真实变化”和“看起来变了”。建筑新增、农田转用、湖泊边界变化、灾后损毁等任务都要求模型对双时相差异敏感；但如果模型只追逐像素差异，就会把阴影位移、楼体侧视角、树冠季节变化、道路纹理和传感器色彩差异当成变化。CSI-Net 不是一个基础模型论文，但它提醒我们，变化检测的关键瓶颈仍然是证据筛选和伪变化抑制。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>双时相变化检测的经典输入是同一区域两个时间点的遥感影像，输出变化 mask。看起来这是一个二分类分割问题，但实际比普通语义分割更难：模型不仅要理解每个时相里的对象，还要判断对象是否在两个时相之间发生了目标定义下的变化。</p>
<p>传统 CNN 方法擅长局部纹理和边界，但感受野有限，容易在密集建筑、大片农田或复杂背景里漏掉上下文。Transformer、non-local 和图卷积方法被引入后，全球关系建模有所加强，但又容易把所有强相关差异都放大。空间关系有用，谱/通道差异也有用，问题是二者不能简单相加。</p>
<p>论文指出的核心问题是：空间差异和谱差异既能帮助发现变化，也会在未变化区域制造噪声。比如两期影像里建筑没有变，但因为拍摄倾角不同，屋顶和侧墙位置发生偏移；或者农田没有发生土地利用变化，但季节和湿度造成 RGB 分布改变。这些差异如果没有被抑制，就会成为 false positive。</p>
<p>因此，CSI-Net 的目标不是单纯增强差异，而是做一种内容引导的空间-光谱融合：用空间模块捕获全局关系，用谱差异模块提取双时相特征统计，再用高层语义内容决定二者如何交互。这个思路比“把两个时相特征 concat 后交给 decoder”更接近真实变化检测的难点。</p>
<h2 id="方法" class="headerLink">
    <a href="#%e6%96%b9%e6%b3%95" class="header-mark"></a>方法</h2><p>CSI-Net 的主体是 Siamese encoder-decoder 框架，backbone 使用 ResNet-18。双时相影像分别经过共享编码器提取多层特征，再由三个关键模块处理差异信息：Spatial Reasoning、Spectral Difference 和 Content-Guided Integration。</p>]]></description></item><item><title>RSKT-Seg：开放词表遥感分割需要自己的 benchmark</title><link>https://spacetop.win/2026/06/20260614_130002_twohour_remote_sensing_radar/</link><pubDate>Sun, 14 Jun 2026 13:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260614_130002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="rskt-seg开放词表遥感分割需要自己的-benchmark" class="headerLink">
    <a href="#rskt-seg%e5%bc%80%e6%94%be%e8%af%8d%e8%a1%a8%e9%81%a5%e6%84%9f%e5%88%86%e5%89%b2%e9%9c%80%e8%a6%81%e8%87%aa%e5%b7%b1%e7%9a%84-benchmark" class="header-mark"></a>RSKT-Seg：开放词表遥感分割需要自己的 benchmark</h1><p><strong>结论：这一轮最值得单独跟踪的是 <em>RSKT-Seg: Remote Sensing Knowledge Transfer for Open-Vocabulary Semantic Segmentation</em>。它的价值不只是提出一个开放词表遥感语义分割模型，而是把问题拆成了三件更基础的事：遥感类别名称太粗，通用视觉语言模型容易被自然图像语义带偏；遥感图像中的尺度、纹理和俯视视角会削弱 CLIP 类文本对齐；现有遥感分割数据集本来就不是为“见过类/未见类”泛化评测设计的。因此 RSKT-Seg 同时给出知识迁移方法和 OVRSISBench，把开放词表遥感分割从 demo 推向可比较 benchmark。</strong></p>
<p>我按 2026-06-14 13:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线。本篇选择 2025-09-16 提交 arXiv、2026-06-10 更新 v2 的 RSKT-Seg。论文和 arXiv HTML 已公开；官方 GitHub 仓库标注为 AAAI 2026 Oral，并提供代码、预训练权重、OVRSISBench 数据集说明和训练/评测配置。该工作面向光学遥感语义分割和开放词表迁移，不属于雷达方向。</p>
<p>这篇适合放进“可提示分割、开放词表与密集预测”。原因是它不满足于让 SAM 或 CLIP 在遥感图上跑一个零样本例子，而是直面开放词表语义分割的评测协议：哪些类别是 base，哪些类别是 novel，文本类别名如何构造，遥感知识如何注入，最后如何在多个公开数据集上比较未见类 mIoU。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>开放词表分割在自然图像里已经形成一套常见路线：用 CLIP 或 VLM 建立图像区域和文本类别的对齐，再用 mask proposal、dense decoder 或 region-text matching 给未见类做分割。遥感看上去也适合这条路线，因为很多应用场景确实不可能为每个地区、每个地物类别都重新标注。</p>
<p>问题是，遥感的“词表”并不等于自然图像词表。<code>building</code> 在遥感里可能是密集居民区、高层楼顶、厂房、温室或临时建筑；<code>road</code> 可能是城市道路、乡村土路、桥面、机场跑道或停车场内部通道；<code>bare land</code>、<code>impervious surface</code>、<code>low vegetation</code> 这类标签在自然图像语料里本来就弱。直接把自然图像 CLIP 类别提示搬到遥感分割，模型很容易看见纹理但对不上遥感类别体系。</p>]]></description></item><item><title>Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM</title><link>https://spacetop.win/2026/06/20260614_090001_twohour_remote_sensing_radar/</link><pubDate>Sun, 14 Jun 2026 09:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260614_090001_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="training-free-text-based-rs-segmentation让-vlm-只负责选-mask-和点-sam" class="headerLink">
    <a href="#training-free-text-based-rs-segmentation%e8%ae%a9-vlm-%e5%8f%aa%e8%b4%9f%e8%b4%a3%e9%80%89-mask-%e5%92%8c%e7%82%b9-sam" class="header-mark"></a>Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM</h1><p><strong>结论：这一轮最值得单独跟踪的是 CVPR 2026 EarthVision 论文 <em>Enabling Training-Free Text-Based Remote Sensing Segmentation</em>。它没有再给遥感 VLM 接一个新的 mask decoder，也没有把重点放在更复杂的专用适配器上，而是把问题拆成两条很朴素的路线：短类别词用 CLIP 给 SAM 的候选 mask 做语义选择；长句、指代表达和推理问题则让生成式 VLM 输出点击点，再交给 SAM 出 mask。它的意义不只是“又一个开放词表分割方法”，而是把遥感文本分割重新拉回一个可复用的工程问题：VLM 不必直接生成像素，先学会给通用分割器提供可靠的空间提示。</strong></p>
<p>我按 2026-06-14 09:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线工作。本篇选择 Jose Sosa 等人在 CVPR 2026 EarthVision Workshop 的遥感文本分割论文。arXiv、CVF 页面和官方 GitHub 仓库均已公开；不过仓库目前只有 README 和 teaser，代码部分仍标注为 coming soon，因此本文把它视为“论文公开、代码仓库已建、可运行代码未确认”的条目。</p>
<p>这篇适合放进“可提示分割、开放词表与密集预测”。它正好连接了三条线：开放词表语义分割、SAM 可提示分割、遥感 VLM 推理分割。对后续做遥感 VLM 的人来说，最值得借鉴的不是某个模型名，而是它把“语言理解”和“mask 生成”解耦以后，很多训练负担可以被转成提示生成、mask 选择和评测协议设计。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>遥感文本分割的目标是：给一张遥感影像和一段文本，让模型输出对应区域的 mask。文本可以很短，例如 <code>building</code>、<code>road</code>、<code>water</code>；也可以是指代表达，例如“右上角那辆车”；还可以是推理问题，例如“如果要改善网球发球并参加双打，应选择体育综合体中的哪个位置”。这三种任务表面上都是分割，但它们对模型的要求完全不同。</p>]]></description></item><item><title>SST-CD：把无标签建筑变化检测从差异图变成自训练</title><link>https://spacetop.win/2026/06/20260612_170002_twohour_remote_sensing_radar/</link><pubDate>Fri, 12 Jun 2026 17:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260612_170002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="sst-cd把无标签建筑变化检测从差异图变成自训练" class="headerLink">
    <a href="#sst-cd%e6%8a%8a%e6%97%a0%e6%a0%87%e7%ad%be%e5%bb%ba%e7%ad%91%e5%8f%98%e5%8c%96%e6%a3%80%e6%b5%8b%e4%bb%8e%e5%b7%ae%e5%bc%82%e5%9b%be%e5%8f%98%e6%88%90%e8%87%aa%e8%ae%ad%e7%bb%83" class="header-mark"></a>SST-CD：把无标签建筑变化检测从差异图变成自训练</h1><p><strong>结论：这一轮值得单独跟踪的是 SST-CD，不是因为它又给变化检测堆了一个复杂网络，而是因为它把“无标签建筑变化检测”从差异图后处理，推进到一个更像论文问题的设定：没有人工变化标注时，能不能用带噪时相差异只监督可靠位置，训练出真正面向建筑变化的检测器。</strong></p>
<p>我按 2026-06-12 17:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 项。Earth-OneVision 这类多模态 RS-MLLM 虽然更新更近，但摘要显式覆盖 SAR，因此按本次规则不作为主项。ZODS-RS 和 VecLang 已在前两篇两小时雷达中写过。本篇选择 2026-06-09 提交、2026-06-10 修订的 <em>Spatially Selective Self-Training for Unsupervised Building Change Detection</em>，把它作为“光学双时相建筑变化、无标签自训练、公开 benchmark 可检验”的候选方向。</p>
<h2 id="摘要" class="headerLink">
    <a href="#%e6%91%98%e8%a6%81" class="header-mark"></a>摘要</h2><p>SST-CD 关注 unsupervised building change detection，输入是无标签双时相遥感影像，输出是建筑变化 mask。论文指出，许多 label-free 方法遵循 discrepancy-to-mask 范式：先用时相差异、冻结基础模型响应、prompt 输出或后处理得到候选变化图，再直接把它当最终结果。这类方法能避免标注，但没有真正学习一个建筑变化检测器，也容易把光照、季节、配准误差、非建筑变化误判为建筑变化。</p>
<p>SST-CD 的做法是把这些时相差异只当作 candidate pseudo labels，再用 spatially reliable pixels 训练端到端检测器。可靠性由局部一致性标准估计，不稳定区域不参与监督。为减轻噪声伪标签的影响，论文加入轻量 feature adapter 重新校准双时相特征，并用 prototype-based decoder 形成更紧凑的 change/no-change 表示。作者在 LEVIR-CD、WHU-CD、DSIFN-CD 上报告 F1 分别为 83.08%、91.69%、86.60%，超过已有 unsupervised 和 label-free baseline。</p>]]></description></item><item><title>ZODS-RS：DINOv3+SAM2 的零训练遥感检测与实例分割</title><link>https://spacetop.win/2026/06/20260612_150002_twohour_remote_sensing_radar/</link><pubDate>Fri, 12 Jun 2026 15:00:03 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260612_150002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="zods-rsdinov3sam2-的零训练遥感检测与实例分割" class="headerLink">
    <a href="#zods-rsdinov3sam2-%e7%9a%84%e9%9b%b6%e8%ae%ad%e7%bb%83%e9%81%a5%e6%84%9f%e6%a3%80%e6%b5%8b%e4%b8%8e%e5%ae%9e%e4%be%8b%e5%88%86%e5%89%b2" class="header-mark"></a>ZODS-RS：DINOv3+SAM2 的零训练遥感检测与实例分割</h1><p><strong>结论：这一轮值得单独跟踪的是 ZODS-RS，不是因为它的绝对精度已经压过监督检测器，而是因为它把遥感检测/实例分割推向了一个更实用的基线问题：如果不给新地区、新平台、新目标重新标注和训练，冻结的 DINOv3 特征、SAM2 proposals 和一组闭式匹配规则，到底能做到什么程度。</strong></p>
<p>我按 2026-06-12 15:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 项。ZODS-RS 的任务是航空/UAV/高分辨率光学遥感目标检测与实例分割，核心来源是 arXiv:2606.10769；截至本次检查，没有检索到官方 GitHub 仓库，因此本文把它作为“论文信号 + 待复现基线”处理，而不是已经可直接跑通的开源项目。</p>
<h2 id="摘要" class="headerLink">
    <a href="#%e6%91%98%e8%a6%81" class="header-mark"></a>摘要</h2><p>ZODS-RS 的全名是 <em>Zero-training Oriented Detection &amp; Segmentation for Remote Sensing</em>，2026-06-09 提交 arXiv。论文提出一个 training-free、closed-form 的遥感/无人机影像流程，输出 horizontal bounding boxes（HBB）和 instance masks。它不训练新的检测器，而是把 DINOv3 dense features、SAM-style proposals、memory/prototype 机制串起来，再用 prototype purification、rotation-scale equivariant matching、uncertainty-aware pixelwise merging 做推理期匹配和合并。</p>
<p>这个工作最值得看的地方是问题设定。遥感检测长期依赖 DOTA、FAIR1M、xView 这类标注数据训练专用模型，但真实应用常常是“换一个地区、换一个平台、换一个类别，就没有足够标签”。ZODS-RS 问的是：能否用通用视觉基础模型的 frozen dense features，加上遥感几何约束，做一个不训练也能工作的 detection + segmentation baseline。它的分数不应和 fully supervised detector 直接硬比，而应和 Grounded-SAM、open-vocabulary detector、SAM proposal pipeline、DINO feature matching 这类低标注/零训练方案比较。</p>]]></description></item><item><title>RS-40 Polygon-Native Mask Decoder</title><link>https://spacetop.win/2026/06/rs-40-polygon-native-mask-decoder/</link><pubDate>Sun, 07 Jun 2026 09:39:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/rs-40-polygon-native-mask-decoder/</guid><description><![CDATA[<h1 id="rs-40-polygon-native-mask-decoder" class="headerLink">
    <a href="#rs-40-polygon-native-mask-decoder" class="header-mark"></a>RS-40 Polygon-Native Mask Decoder</h1><h2 id="执行摘要" class="headerLink">
    <a href="#%e6%89%a7%e8%a1%8c%e6%91%98%e8%a6%81" class="header-mark"></a>执行摘要</h2><p>2024-2026 的矢量化遥感提取正在从“mask -&gt; polygonize -&gt; simplify/regularize”的工程管线，转向“模型原生输出 vertex / edge / ring graph / polygon token”。这个转变的原因很直接：GIS、城市建模、道路导航、地块管理最终需要的是可编辑、拓扑有效、顶点简洁的矢量对象，而 raster mask 的高 IoU 并不保证角点直、边界稳、道路连通、地块不自交。</p>
<p>最值得推进的小课题不是泛泛地“建筑物提取”，而是：<strong>用 SAM/GeoFM 的强视觉特征作为 encoder，同时设计 polygon-native decoder，直接输出多实例、多环、多类别的 GIS-ready 矢量对象，并用边界质量、顶点效率和拓扑有效性作为主指标。</strong></p>
<h2 id="问题由来" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e7%94%b1%e6%9d%a5" class="header-mark"></a>问题由来</h2><p>传统遥感分割把建筑、道路、农田边界当作像素分类问题，输出 raster mask。这个输出在 mIoU 上可能很好，但在 GIS 里常见四类问题：</p>
<ol>
<li>建筑边界呈锯齿或圆角，直角、长直边、规则边界被破坏。</li>
<li>mask polygonize 后顶点数量过多，需要 Douglas-Peucker、正交化、拓扑修复等经验后处理。</li>
<li>后处理不可微，训练时不能直接优化“顶点少、角点准、拓扑合法”。</li>
<li>道路和地块更关心连通性、闭合性、相邻关系，像素级 IoU 不足以评价产品质量。</li>
</ol>
<p>2024-2026 的新方法大致分三条路线：</p>
<ul>
<li><strong>SAM/基础模型增强的间接矢量化</strong>：先借助 SAM 或强 segmentation encoder 得到 mask、vertex、boundary，再连接成 polygon，例如 SAMPolyBuild。</li>
<li><strong>显式 polygon / graph 序列预测</strong>：把角点坐标、边连接、ring graph 当作 token 或图结构直接预测，例如 Pix2Poly、GeoFormer、P2PFormer、VectorLLM。</li>
<li><strong>面向道路/地块的拓扑矢量输出</strong>：道路输出图或道路 outline polygon，农田输出可扩展 field boundary polygon，例如 SAM-Road、LDPoly、FTW/PRUE。</li>
</ul>
<h2 id="代表工作" class="headerLink">
    <a href="#%e4%bb%a3%e8%a1%a8%e5%b7%a5%e4%bd%9c" class="header-mark"></a>代表工作</h2><table>
  <thead>
      <tr>
          <th>工作</th>
          <th style="text-align: right">年份/来源</th>
          <th>对象</th>
          <th>输出形式</th>
          <th>代码/资源</th>
          <th>关键贡献</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>SAMPolyBuild</td>
          <td style="text-align: right">2024 ISPRS JPRS</td>
          <td>建筑</td>
          <td>mask + vertex/boundary/offset -&gt; polygon</td>
          <td><a href="https://www.sciencedirect.com/science/article/pii/S0924271624003563" target="_blank" rel="noopener noreferrer">paper</a>, <a href="https://github.com/wchh-2000/SAMPolyBuild" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>适配 SAM 做 polygonal building extraction；额外预测 Gaussian vertex、offset、boundary map，并支持自动 bbox 和交互 prompt。</td>
      </tr>
      <tr>
          <td>P2PFormer</td>
          <td style="text-align: right">2024 arXiv</td>
          <td>建筑</td>
          <td>geometric primitives + sequence</td>
          <td><a href="https://arxiv.org/abs/2406.02930" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>先分割 vertex/line/corner 等几何 primitive，再预测连接顺序，构造规则建筑轮廓。</td>
      </tr>
      <tr>
          <td>GeoFormer</td>
          <td style="text-align: right">2024 BMVC</td>
          <td>多 polygon</td>
          <td>auto-regressive multi-polygon</td>
          <td><a href="https://arxiv.org/abs/2411.16616" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://github.com/pihalf/GeoFormer" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>将自回归 transformer 用于遥感多 polygon 预测，是直接多边形生成路线的代表。</td>
      </tr>
      <tr>
          <td>Pix2Poly</td>
          <td style="text-align: right">2025 WACV</td>
          <td>建筑，也扩展到道路</td>
          <td>ring graph vertex tokens + matching</td>
          <td><a href="https://openaccess.thecvf.com/content/WACV2025/papers/Adimoolam_Pix2Poly_A_Sequence_Prediction_Method_for_End-to-End_Polygonal_Building_Footprint_WACV_2025_paper.pdf" target="_blank" rel="noopener noreferrer">CVF PDF</a>, <a href="https://arxiv.org/abs/2412.07899" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://github.com/yeshwanth95/Pix2Poly" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>端到端 differentiable transformer，直接生成高质量 building footprint ring graph，用 optimal matching 学顶点连接。</td>
      </tr>
      <tr>
          <td>SAM-Road</td>
          <td style="text-align: right">2024 CVPRW</td>
          <td>道路网络</td>
          <td>graph vertices + edges</td>
          <td><a href="https://arxiv.org/abs/2403.16051" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://github.com/htcr/sam_road" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>将 SAM 适配到大范围道路图提取；SAM embedding 预测道路/交叉口 mask，再用轻量 graph transformer 估计边。</td>
      </tr>
      <tr>
          <td>LDPoly</td>
          <td style="text-align: right">2025 arXiv</td>
          <td>道路 outline</td>
          <td>road mask + vertex heatmap -&gt; polygon</td>
          <td><a href="https://arxiv.org/abs/2504.20645" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>面向 polygonal road outline extraction，提出 dual-latent diffusion，同时生成 road masks 和 vertex heatmaps，并设计 polygon simplicity / boundary smoothness 指标。</td>
      </tr>
      <tr>
          <td>VectorLLM</td>
          <td style="text-align: right">2025 arXiv</td>
          <td>建筑轮廓，可泛化到其他目标</td>
          <td>corner-by-corner regression</td>
          <td><a href="https://arxiv.org/abs/2507.04664" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>用 MLLM 模拟人工标注员逐角点绘制建筑轮廓；报告在 WHU、WHU-Mix、CrowdAI 上超过前 SOTA，并有零样本对象潜力。</td>
      </tr>
      <tr>
          <td>FTW / PRUE</td>
          <td style="text-align: right">2025-2026 benchmark + CVPR 2026</td>
          <td>农田地块边界</td>
          <td>segmentation -&gt; polygons at scale</td>
          <td><a href="https://fieldsofthe.world/" target="_blank" rel="noopener noreferrer">Fields of The World</a>, <a href="https://arxiv.org/abs/2603.27101" target="_blank" rel="noopener noreferrer">PRUE arXiv</a>, <a href="https://github.com/fieldsoftheworld/ftw-prue" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>提供全球 field boundary 生态，FTW 覆盖 2024/2025 的十亿级 polygons；PRUE 强调 scalable field boundary segmentation 和可部署管线。</td>
      </tr>
  </tbody>
</table>
<h2 id="方法谱系" class="headerLink">
    <a href="#%e6%96%b9%e6%b3%95%e8%b0%b1%e7%b3%bb" class="header-mark"></a>方法谱系</h2><h3 id="1-mask-后处理管线" class="headerLink">
    <a href="#1-mask-%e5%90%8e%e5%a4%84%e7%90%86%e7%ae%a1%e7%ba%bf" class="header-mark"></a>1. Mask 后处理管线</h3><p>典型流程是 <code>segmentation mask -&gt; connected components -&gt; contour extraction -&gt; simplify -&gt; regularize -&gt; topology repair</code>。优点是工程成熟、容易接入 U-Net、DeepLab、SAM、GeoFM feature；缺点是不可微，后处理参数对区域、GSD 和建筑风格敏感。</p>]]></description></item><item><title>RS-33 Hyperspectral Foundation Model Transfer</title><link>https://spacetop.win/2026/06/rs-33-hyperspectral-foundation-model-transfer/</link><pubDate>Sun, 07 Jun 2026 09:32:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/rs-33-hyperspectral-foundation-model-transfer/</guid><description><![CDATA[<h1 id="rs-33-hyperspectral-foundation-model-transfer" class="headerLink">
    <a href="#rs-33-hyperspectral-foundation-model-transfer" class="header-mark"></a>RS-33 Hyperspectral Foundation Model Transfer</h1><h2 id="1-核心判断" class="headerLink">
    <a href="#1-%e6%a0%b8%e5%bf%83%e5%88%a4%e6%96%ad" class="header-mark"></a>1. 核心判断</h2><p>高光谱 foundation model 的迁移问题，本质上不是“有没有预训练模型”，而是“预训练域、传感器谱段、空间分辨率、标注粒度和下游小样本协议是否一致”。2024-2026 的代表性工作已经从单数据集 HSI 分类，推进到 HyperGlobal-450K、SpectralEarth/EnMAP、HyperSeg、HyperFM250K 这类大规模预训练数据。但下游仍常落回 Indian Pines、Pavia University、Houston 2013、Salinas、WHU-Hi 等小数据集，导致两个矛盾：</p>
<ol>
<li>大模型有谱-空表示能力，但小数据全量微调很容易记住局部空间纹理和 train/test split。</li>
<li>大规模卫星 HSI 与经典机载 HSI 的光谱响应、空间分辨率和地物类别差异很大，简单 fine-tune 不一定是真的 transfer。</li>
</ol>
<p>最值得做的小论文切口：建立一个 <strong>HSI-FM transfer protocol</strong>，用统一 split、统一预算和统一参数量比较 linear probe、adapter、LoRA、prompt/tuning-free、full fine-tuning，并增加 leave-dataset-out / leave-sensor-out / few-shot 曲线和过拟合诊断。</p>
<h2 id="2-代表论文与资源" class="headerLink">
    <a href="#2-%e4%bb%a3%e8%a1%a8%e8%ae%ba%e6%96%87%e4%b8%8e%e8%b5%84%e6%ba%90" class="header-mark"></a>2. 代表论文与资源</h2><table>
  <thead>
      <tr>
          <th>论文/项目</th>
          <th style="text-align: right">年份/venue</th>
          <th>链接</th>
          <th>代码/数据</th>
          <th>和 RS-33 的关系</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>SpectralGPT: Spectral Remote Sensing Foundation Model</td>
          <td style="text-align: right">TPAMI 2024</td>
          <td><a href="https://github.com/danfenghong/IEEE_TPAMI_SpectralGPT" target="_blank" rel="noopener noreferrer">GitHub paper page</a></td>
          <td><a href="https://github.com/danfenghong/IEEE_TPAMI_SpectralGPT" target="_blank" rel="noopener noreferrer">GitHub</a>, <a href="https://zenodo.org/doi/10.5281/zenodo.10533809" target="_blank" rel="noopener noreferrer">Zenodo</a></td>
          <td>早期谱域 FM，使用 3D token 和多目标重建，适合做 full fine-tune 与 linear probe 基线。</td>
      </tr>
      <tr>
          <td>S2MAE: A Spatial-Spectral Pretraining Foundation Model for Spectral Remote Sensing Data</td>
          <td style="text-align: right">CVPR 2024</td>
          <td><a href="https://openaccess.thecvf.com/content/CVPR2024/papers/Li_S2MAE_A_Spatial-Spectral_Pretraining_Foundation_Model_for_Spectral_Remote_Sensing_CVPR_2024_paper.pdf" target="_blank" rel="noopener noreferrer">CVF PDF</a></td>
          <td>代码状态需再核验</td>
          <td>3D masked transformer + 高 mask ratio，适合研究少样本 HSI 分类迁移。</td>
      </tr>
      <tr>
          <td>HSIMAE: A Unified Masked Autoencoder with Large-scale Pretraining for Hyperspectral Image Classification</td>
          <td style="text-align: right">JSTARS 2024</td>
          <td><a href="https://github.com/Ryan21wy/HSIMAE" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td><a href="https://github.com/Ryan21wy/HSIMAE" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>官方结果覆盖 Salinas、Pavia University、Houston 2013、WHU-Hi-LongKou，并报告 5/10/15/20 samples per class。</td>
      </tr>
      <tr>
          <td>HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model</td>
          <td style="text-align: right">TPAMI 2025</td>
          <td><a href="https://arxiv.org/abs/2406.11519" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/WHU-Sigma/HyperSIGMA" target="_blank" rel="noopener noreferrer">GitHub</a>, HyperGlobal-450K</td>
          <td>十亿级 HSI FM，提供 spatial/spectral MAE 权重，覆盖多任务多数据集，是主要迁移基座。</td>
      </tr>
      <tr>
          <td>SpectralEarth: Training Hyperspectral Foundation Models at Scale</td>
          <td style="text-align: right">JSTARS 2025 / arXiv 2024</td>
          <td><a href="https://arxiv.org/abs/2408.08447" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/AABNassim/spectral_earth" target="_blank" rel="noopener noreferrer">GitHub</a>, <a href="https://c.geoservice.dlr.de/web/datasets/enmap_spectralearth" target="_blank" rel="noopener noreferrer">DLR dataset</a></td>
          <td>基于 EnMAP 的全球多时相 HSI 预训练集，带 land-cover、crop-type、tree-species 下游数据，适合研究卫星 HSI 到任务数据迁移。</td>
      </tr>
      <tr>
          <td>HyperFree: A Channel-adaptive and Tuning-free Foundation Model for HSI</td>
          <td style="text-align: right">CVPR 2025</td>
          <td><a href="https://openaccess.thecvf.com/content/CVPR2025/html/Li_HyperFree_A_Channel-adaptive_and_Tuning-free_Foundation_Model_for_Hyperspectral_Remote_CVPR_2025_paper.html" target="_blank" rel="noopener noreferrer">CVF</a></td>
          <td><a href="https://rsidea.whu.edu.cn/hyperfree.htm" target="_blank" rel="noopener noreferrer">Project</a>, <a href="https://huggingface.co/JingtaoLi/HyperFree" target="_blank" rel="noopener noreferrer">HF</a></td>
          <td>0.4-2.5 μm weight dictionary，强调 tuning-free 与变通道适配，是“少/免微调”强基线。</td>
      </tr>
      <tr>
          <td>SpecAware: Spectral-content Aware FM for Multi-sensor HSI Mapping</td>
          <td style="text-align: right">ISPRS JPRS 2026</td>
          <td><a href="https://www.sciencedirect.com/science/article/pii/S0924271626000754" target="_blank" rel="noopener noreferrer">ScienceDirect</a>, <a href="https://arxiv.org/abs/2510.27219" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>GitHub planned</td>
          <td>用 sensor meta-attributes + image semantic features 做统一 embedding，直接对应 cross-sensor transfer。</td>
      </tr>
      <tr>
          <td>Cross-Domain Transfer of Hyperspectral Foundation Models</td>
          <td style="text-align: right">ICPR 2026 / arXiv</td>
          <td><a href="https://arxiv.org/abs/2604.26478" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>未见官方代码</td>
          <td>明确比较 in-domain training、cross-modality transfer 和 cross-domain transfer；为“遥感 HSI FM 迁移到新域”提供研究框架。</td>
      </tr>
      <tr>
          <td>SpectralEarth-FM: Bringing Hyperspectral Imagery into Multimodal EO Pretraining</td>
          <td style="text-align: right">arXiv 2026</td>
          <td><a href="https://arxiv.org/abs/2605.21075" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>待核验</td>
          <td>将 EnMAP/EMIT/DESIS 与 Sentinel-2、Landsat 等共址，对跨模态/跨传感器迁移很关键。</td>
      </tr>
      <tr>
          <td>HyperFM: Efficient HSI FM with Spectral Grouping</td>
          <td style="text-align: right">CVPR 2026 Findings / arXiv</td>
          <td><a href="https://arxiv.org/abs/2604.21127" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>待核验</td>
          <td>面向 PACE-OCI 等长谱段 HSI，突出 spectral grouping 和高效 transfer。</td>
      </tr>
      <tr>
          <td>HyperspectralMAE: Fourier-Encoded Dual-Branch MAE</td>
          <td style="text-align: right">arXiv 2025</td>
          <td><a href="https://arxiv.org/abs/2505.05710" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>待核验</td>
          <td>在 Hyperion/EnMAP 预训练后迁移到 Indian Pines，适合放入“classic benchmark transfer”比较。</td>
      </tr>
  </tbody>
</table>
<h2 id="3-问题由来" class="headerLink">
    <a href="#3-%e9%97%ae%e9%a2%98%e7%94%b1%e6%9d%a5" class="header-mark"></a>3. 问题由来</h2><h3 id="31-经典-hsi-数据集太小容易高估迁移能力" class="headerLink">
    <a href="#31-%e7%bb%8f%e5%85%b8-hsi-%e6%95%b0%e6%8d%ae%e9%9b%86%e5%a4%aa%e5%b0%8f%e5%ae%b9%e6%98%93%e9%ab%98%e4%bc%b0%e8%bf%81%e7%a7%bb%e8%83%bd%e5%8a%9b" class="header-mark"></a>3.1 经典 HSI 数据集太小，容易高估迁移能力</h3><p>Indian Pines、Pavia University、Houston 2013、Salinas 等经典数据集常用于 HSI classification，但它们通常是单场景、单传感器、空间相邻样本强相关。随机抽样时，训练和测试像素可能来自同一地块或相邻区域，模型可以靠局部纹理和空间平滑拿高分。这会掩盖 foundation model 是否真的学到了可迁移谱-空表示。</p>]]></description></item><item><title>RS-28 Mamba/SSM Backbones for Dense Remote Sensing Prediction</title><link>https://spacetop.win/2026/06/rs-28-mamba-ssm-backbones-for-dense-remote-sensing-prediction/</link><pubDate>Sun, 07 Jun 2026 09:27:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/rs-28-mamba-ssm-backbones-for-dense-remote-sensing-prediction/</guid><description><![CDATA[<h1 id="rs-28-mambassm-backbones-for-dense-remote-sensing-prediction" class="headerLink">
    <a href="#rs-28-mambassm-backbones-for-dense-remote-sensing-prediction" class="header-mark"></a>RS-28 Mamba/SSM Backbones for Dense Remote Sensing Prediction</h1><p>范围：2024-2026 光学/航空/卫星遥感 dense prediction，重点是语义分割、二值/语义变化检测、大幅面高分辨率理解；不把 SAR-only 作为主线。</p>
<h2 id="1-方向概述" class="headerLink">
    <a href="#1-%e6%96%b9%e5%90%91%e6%a6%82%e8%bf%b0" class="header-mark"></a>1. 方向概述</h2><p>Mamba/SSM 在遥感 dense prediction 中兴起的直接原因，是高分辨率遥感图像同时需要“全局上下文”和“可承受的长序列计算”。CNN 的局部感受野不够，ViT/Transformer 的全局注意力又在万级像素或大 patch 序列上成本很高；遥感影像还存在俯视方向任意、目标尺度差异大、背景占比高、小目标稀疏等问题。2024 年 Vim 和 VMamba 把选择性状态空间模型迁移到视觉，随后 Samba、RS3Mamba、RS-Mamba、ChangeMamba 几乎在同一时间把 SSM 带进遥感分割和变化检测。</p>
<p>这个方向的研究重点已经从“把 Mamba 换进 backbone”逐步变成三个更细的问题：</p>
<ul>
<li>扫描方向：遥感目标没有固定上/下/左/右语义，2D/多方向/全向扫描是否真的必要，何时比普通 bidirectional scan 更好。</li>
<li>全局-局部平衡：Mamba 擅长长程建模，但 dense prediction 需要边界、纹理和小目标细节，很多新方法开始重新引入 CNN、多尺度金字塔、频域和局部卷积。</li>
<li>任务结构：语义分割是单时相 dense labeling，变化检测还要建模双时相/多时相交互，不能只把两张图分别编码后相减。</li>
</ul>
<h2 id="2-代表论文与代码" class="headerLink">
    <a href="#2-%e4%bb%a3%e8%a1%a8%e8%ae%ba%e6%96%87%e4%b8%8e%e4%bb%a3%e7%a0%81" class="header-mark"></a>2. 代表论文与代码</h2><table>
  <thead>
      <tr>
          <th>方向</th>
          <th>论文/项目</th>
          <th style="text-align: right">年份/来源</th>
          <th>链接</th>
          <th>代码/资源</th>
          <th>核心贡献</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>通用视觉 SSM</td>
          <td>Vision Mamba (Vim)</td>
          <td style="text-align: right">2024 arXiv/ICML 方向</td>
          <td><a href="https://arxiv.org/abs/2401.09417" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/hustvl/Vim" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>用 bidirectional Mamba blocks 处理图像序列，是遥感 Mamba 的重要通用基座。</td>
      </tr>
      <tr>
          <td>通用视觉 SSM</td>
          <td>VMamba: Visual State Space Model</td>
          <td style="text-align: right">2024 NeurIPS spotlight</td>
          <td><a href="https://arxiv.org/abs/2401.10166" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/MzeroMiko/VMamba" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>提出 SS2D，用四条扫描路线连接 1D selective scan 与 2D 图像结构，后续 ChangeMamba/M-CD 等直接基于它。</td>
      </tr>
      <tr>
          <td>RS 语义分割</td>
          <td>Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model</td>
          <td style="text-align: right">2024 arXiv / Heliyon</td>
          <td><a href="https://arxiv.org/abs/2404.01705" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/zhuqinfeng1999/Samba" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>Encoder-decoder + Samba blocks + UperNet，在 LoveDA、Vaihingen、Potsdam 上验证 SSM 做高分遥感分割。</td>
      </tr>
      <tr>
          <td>RS 语义分割</td>
          <td>RS3Mamba</td>
          <td style="text-align: right">2024 arXiv/GRSL</td>
          <td><a href="https://arxiv.org/abs/2404.02457" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/sstary/SSRS" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>双分支结构：CNN 主分支保局部细节，VSS 辅助分支补全局信息，CCM 融合两类特征。</td>
      </tr>
      <tr>
          <td>RS dense prediction</td>
          <td>RS-Mamba for Large Remote Sensing Image Dense Prediction</td>
          <td style="text-align: right">2024 arXiv/TGRS</td>
          <td><a href="https://arxiv.org/abs/2404.02668" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/NJU-LHRS/Official_Remote_Sensing_Mamba" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>面向大幅面 VHR 图像，提出 omnidirectional selective scan；同一框架覆盖语义分割和变化检测。</td>
      </tr>
      <tr>
          <td>RS 语义分割</td>
          <td>PyramidMamba</td>
          <td style="text-align: right">2024 arXiv</td>
          <td><a href="https://arxiv.org/abs/2406.10828" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/WangLibo1995/GeoSeg" target="_blank" rel="noopener noreferrer">GeoSeg</a></td>
          <td>用 selective state space model 重做金字塔特征融合，缓解多尺度特征语义冗余。</td>
      </tr>
      <tr>
          <td>RS 语义分割</td>
          <td>MF-Mamba</td>
          <td style="text-align: right">2025 TGRS</td>
          <td><a href="https://elib.dlr.de/215790/" target="_blank" rel="noopener noreferrer">DLR entry</a></td>
          <td><a href="https://github.com/Mango-Mars/MF-Mamba" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>CNN encoder + Mamba decoder，GLSS 八方向扫描 + 多核卷积，强调 global-local 和多尺度融合。</td>
      </tr>
      <tr>
          <td>RS 语义分割</td>
          <td>UrbanSSF</td>
          <td style="text-align: right">2025 ISPRS JPRS</td>
          <td><a href="https://www.sciencedirect.com/science/article/abs/pii/S0924271625000176" target="_blank" rel="noopener noreferrer">ScienceDirect</a></td>
          <td>未核验到官方代码</td>
          <td>FSI-Mamba 建模不同 feature state 的序列关系，面向 VHR 城市场景分割和应用落地。</td>
      </tr>
      <tr>
          <td>RS foundation model</td>
          <td>RoMA</td>
          <td style="text-align: right">2025 NeurIPS</td>
          <td><a href="https://arxiv.org/abs/2503.10392" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://openreview.net/forum?id=QwY1vk67T3" target="_blank" rel="noopener noreferrer">OpenReview</a></td>
          <td><a href="https://github.com/MiliLab/RoMA" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>系统验证 Mamba 在遥感预训练中的 data/parameter scaling law；覆盖分类、检测、分割。</td>
      </tr>
      <tr>
          <td>RS foundation model</td>
          <td>DynamicVis</td>
          <td style="text-align: right">2025 arXiv</td>
          <td><a href="https://arxiv.org/abs/2503.16426" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/KyanChen/DynamicVis" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>selective region-aware SSM + MIL meta-embedding，面向高分大图和跨任务 foundation model。</td>
      </tr>
      <tr>
          <td>变化检测</td>
          <td>ChangeMamba</td>
          <td style="text-align: right">2024 TGRS</td>
          <td><a href="https://arxiv.org/abs/2404.03425" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/ChenHongruixuan/ChangeMamba" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>基于 VMamba，分别给 BCD/SCD/BDA 设计 MambaBCD/MambaSCD/MambaBDA，重点是时空交互建模。</td>
      </tr>
      <tr>
          <td>变化检测</td>
          <td>CDMamba</td>
          <td style="text-align: right">2024/2025 arXiv</td>
          <td><a href="https://arxiv.org/abs/2406.04207" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/zmoka-zht/CDMamba" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>指出纯扫描改造忽略局部细节，提出 Scaled Residual ConvMamba 和双时相 global-local guided fusion。</td>
      </tr>
      <tr>
          <td>变化检测</td>
          <td>A Mamba-Based Siamese Network for Remote Sensing Change Detection</td>
          <td style="text-align: right">2025 WACV</td>
          <td><a href="https://openaccess.thecvf.com/content/WACV2025/papers/Paranjape_A_Mamba-Based_Siamese_Network_for_Remote_Sensing_Change_Detection_WACV_2025_paper.pdf" target="_blank" rel="noopener noreferrer">CVF PDF</a>, <a href="https://arxiv.org/abs/2407.06839" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/JayParanjape/M-CD" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>Siamese VMamba encoder + difference module + Mamba decoder，在 4 个变化检测数据集上验证。</td>
      </tr>
      <tr>
          <td>语义变化检测</td>
          <td>GSTM-SCD</td>
          <td style="text-align: right">2025 ISPRS JPRS</td>
          <td><a href="https://www.sciencedirect.com/science/article/pii/S0924271625003557" target="_blank" rel="noopener noreferrer">ScienceDirect</a></td>
          <td><a href="https://github.com/liuxuanguang/GSTM-SCD" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>Graph-enhanced spatio-temporal Mamba，支持 bi-temporal 和 time-series SCD，并加入时序拓扑一致性。</td>
      </tr>
      <tr>
          <td>语义变化检测</td>
          <td>Mamba-FCS</td>
          <td style="text-align: right">2025 arXiv / 2026 JSTARS 方向</td>
          <td><a href="https://arxiv.org/abs/2508.08232" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/Buddhi19/MambaFCS" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>将频域特征、change-guided attention 和 SeK-inspired loss 融入 Mamba SCD。</td>
      </tr>
  </tbody>
</table>
<h2 id="3-方法脉络比较" class="headerLink">
    <a href="#3-%e6%96%b9%e6%b3%95%e8%84%89%e7%bb%9c%e6%af%94%e8%be%83" class="header-mark"></a>3. 方法脉络比较</h2><h3 id="31-扫描策略" class="headerLink">
    <a href="#31-%e6%89%ab%e6%8f%8f%e7%ad%96%e7%95%a5" class="header-mark"></a>3.1 扫描策略</h3><ul>
<li>Vim：把图像 token 当序列，使用双向 Mamba；优点是简单、通用，缺点是 2D 空间结构依赖展开顺序。</li>
<li>VMamba：SS2D 四方向扫描，是多数遥感变化检测 Mamba 的通用底座。</li>
<li>RS-Mamba：针对遥感俯视方向任意，提出全向/多方向 selective scan，强调大幅面全局上下文。</li>
<li>MF-Mamba：进一步使用八方向扫描，并配合多核卷积补局部纹理。</li>
<li>GSTM-SCD：把扫描扩展到多时相语义变化，加入双向三维变化扫描和图关系。</li>
</ul>
<p>判断：扫描方向不是越多越好。多方向扫描提升上下文覆盖，但也带来实现复杂度、显存和重复语义。真正值得做的实验是“方向数量/方向选择是否与目标形态、场景结构、GSD 和任务类型相关”。</p>]]></description></item><item><title>RS-17 Latent Flow/Diffusion for Change Detection</title><link>https://spacetop.win/2026/06/rs-17-latent-flow-diffusion-for-change-detection/</link><pubDate>Sun, 07 Jun 2026 09:16:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/rs-17-latent-flow-diffusion-for-change-detection/</guid><description><![CDATA[<h1 id="rs-17-latent-flowdiffusion-for-change-detection" class="headerLink">
    <a href="#rs-17-latent-flowdiffusion-for-change-detection" class="header-mark"></a>RS-17 Latent Flow/Diffusion for Change Detection</h1><h2 id="结论先行" class="headerLink">
    <a href="#%e7%bb%93%e8%ae%ba%e5%85%88%e8%a1%8c" class="header-mark"></a>结论先行</h2><p>这个方向的核心不是“把扩散模型塞进变化检测”，而是把变化检测从逐像素二分类改写为“在潜空间中建模一个合理的变化区域/变化过程”。判别式模型通常学习 <code>pre/post -&gt; changed probability</code>，很擅长局部边界和快速推理；生成式/潜变量方法试图学习“什么样的变化 mask 或变化图像在全局上是合理的”，因此天然适合处理区域一致性、标签歧义、不确定性和低标注数据。</p>
<p>目前可分成四条路线：</p>
<ol>
<li><strong>扩散特征提取器</strong>：DDPM-CD 先在未标注遥感图像上预训练扩散模型，再用扩散中间特征训练轻量变化头。</li>
<li><strong>变化样本生成器</strong>：ChangeAnywhere、Changen2、DreamCD 生成双时相样本、语义变化标签或后时相图像，用来缓解变化标注昂贵的问题。</li>
<li><strong>latent difference guidance</strong>：LDGuid 显式学习“任务相关的变化潜向量”，再注入 U-Net、BIT、AERNet 等判别式 CD 模型。</li>
<li><strong>latent mask generation / rectified flow</strong>：ChangeFlow 直接在 latent space 中用 rectified flow 生成变化 mask，并用多次采样做 ensemble 和置信度估计。</li>
</ol>
<p>我的判断：2024-2026 最值得做的小问题是 <strong>“潜空间生成式变化先验如何在不牺牲边界精度的前提下，提升跨域鲁棒性和不确定性可信度”</strong>。这比单纯追一个 LEVIR-CD F1 更像一篇能站住的论文。</p>
<h2 id="问题由来" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e7%94%b1%e6%9d%a5" class="header-mark"></a>问题由来</h2><p>遥感变化检测的标注不是纯视觉差分。很多变化 mask 反映的是区域级语义约定：新建建筑算变化，阴影移动不算；作物季节纹理变化可能不算，土地利用类别变化算；配准误差导致的边缘错位通常不应算。这带来三个矛盾：</p>
<ul>
<li><strong>局部像素差异与语义变化不等价</strong>：亮度、阴影、云雾、季节、传感器响应、配准误差会造成明显差异，但不是目标变化。</li>
<li><strong>变化区域具有全局结构</strong>：建筑群、道路扩张、采矿区、水体扩张往往是连通区域或对象集合，而不是独立像素。</li>
<li><strong>变化标签存在歧义和不确定性</strong>：边界、细碎对象和半变化区域通常有多种合理标注。</li>
</ul>
<p>判别式模型把这些问题压成单次前向的 pixel classification；生成式 latent 方法则把变化当作一个分布、过程或潜语义差异来建模，这正是 ChangeFlow、LDGuid、Changen2 等工作的切入点。</p>
<h2 id="代表论文与代码" class="headerLink">
    <a href="#%e4%bb%a3%e8%a1%a8%e8%ae%ba%e6%96%87%e4%b8%8e%e4%bb%a3%e7%a0%81" class="header-mark"></a>代表论文与代码</h2><table>
  <thead>
      <tr>
          <th>论文/项目</th>
          <th style="text-align: right">年份/venue</th>
          <th>链接</th>
          <th>代码/数据</th>
          <th>方法定位</th>
          <th>与本课题关系</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>DDPM-CD: Denoising Diffusion Probabilistic Models as Feature Extractors for Remote Sensing Change Detection</td>
          <td style="text-align: right">WACV 2025，arXiv 2022 起</td>
          <td><a href="https://openaccess.thecvf.com/content/WACV2025/papers/Bandara_DDPM-CD_Denoising_Diffusion_Probabilistic_Models_as_Feature_Extractors_for_Remote_WACV_2025_paper.pdf" target="_blank" rel="noopener noreferrer">CVF</a>, <a href="https://arxiv.org/abs/2206.11892" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/wgcban/ddpm-cd" target="_blank" rel="noopener noreferrer">GitHub</a>, <a href="https://huggingface.co/BiliSakura/ddpm-cd" target="_blank" rel="noopener noreferrer">HF diffusers 实现</a></td>
          <td>扩散模型作为遥感特征提取器</td>
          <td>早期强基线，证明扩散预训练特征对 CD 有用，但不是直接生成变化 mask</td>
      </tr>
      <tr>
          <td>ChangeAnywhere: Sample Generation for Remote Sensing Change Detection via Semantic Latent Diffusion Model</td>
          <td style="text-align: right">arXiv 2024</td>
          <td><a href="https://arxiv.org/abs/2404.08892" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/tangkai-RS/ChangeAnywhere" target="_blank" rel="noopener noreferrer">GitHub</a>, ChangeAnywhere-100K</td>
          <td>用 semantic latent diffusion 从单时相语义数据生成双时相变化样本</td>
          <td>解决标注稀缺，适合研究合成变化数据对真实 CD 的迁移收益</td>
      </tr>
      <tr>
          <td>Changen2: Multi-Temporal Remote Sensing Generative Change Foundation Model</td>
          <td style="text-align: right">arXiv 2024, TPAMI 2025</td>
          <td><a href="https://arxiv.org/abs/2406.17998" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://colab.ws/articles/10.1109%2Ftpami.2024.3475824" target="_blank" rel="noopener noreferrer">DOI/TIPAMI 信息</a></td>
          <td>官方代码未在检索中稳定核验</td>
          <td>GPCM + resolution-scalable diffusion transformer，生成时序图像、语义和变化标签</td>
          <td>将“变化过程”显式建模为生成式 foundation model，是理论背景核心</td>
      </tr>
      <tr>
          <td>DreamCD: A change-label-free framework for change detection via a weakly conditional semantic diffusion model in optical VHR imagery</td>
          <td style="text-align: right">JAG 2026</td>
          <td><a href="https://www.sciencedirect.com/science/article/pii/S1569843226000415" target="_blank" rel="noopener noreferrer">ScienceDirect</a></td>
          <td><a href="https://github.com/tangkai-RS/DreamCD" target="_blank" rel="noopener noreferrer">GitHub</a>, LsSCD-Ex</td>
          <td>弱语义条件扩散，合成后时相图像与语义变化数据</td>
          <td>适合做无变化标签/弱标签场景，与 ChangeAnywhere/Changen2 对比</td>
      </tr>
      <tr>
          <td>ChangeFlow: Latent Rectified Flow for Change Detection in Remote Sensing</td>
          <td style="text-align: right">arXiv 2026</td>
          <td><a href="https://arxiv.org/abs/2605.15375" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://blaz-r.github.io/changeflow_cd/" target="_blank" rel="noopener noreferrer">Project</a></td>
          <td>项目页标注 code coming soon</td>
          <td>latent rectified flow 生成变化 mask；多次采样可做 ensemble/confidence</td>
          <td>本方向最直接 anchor：把 CD 改写为 latent mask generation</td>
      </tr>
      <tr>
          <td>LDGuid: A Framework for Robust Change Detection via Latent Difference Guidance</td>
          <td style="text-align: right">arXiv 2026</td>
          <td><a href="https://arxiv.org/abs/2605.15582" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>未见官方代码</td>
          <td>adversarial autoencoding + information bottleneck 学习 task-relevant difference embedding，再注入 CD 模型</td>
          <td>最适合与 ChangeFlow 对照：显式差异潜向量 vs 生成变化 mask</td>
      </tr>
      <tr>
          <td>BIT: Remote Sensing Image Change Detection with Transformers</td>
          <td style="text-align: right">TGRS 2021</td>
          <td><a href="https://github.com/justchenhao/BIT_CD" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>官方 PyTorch</td>
          <td>双时相 Transformer 变化检测经典基线</td>
          <td>LDGuid 报告集成到 BIT；实验必须保留</td>
      </tr>
      <tr>
          <td>ChangeFormer: A Transformer-Based Siamese Network for Change Detection</td>
          <td style="text-align: right">IGARSS 2022</td>
          <td><a href="https://arxiv.org/abs/2201.01293" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/wgcban/ChangeFormer" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>Siamese Transformer + MLP decoder</td>
          <td>判别式 Transformer 强基线，和 DDPM-CD 同作者生态衔接好</td>
      </tr>
      <tr>
          <td>Open-CD</td>
          <td style="text-align: right">ACM MM 2025 technical report/toolbox</td>
          <td><a href="https://github.com/likyoo/open-cd" target="_blank" rel="noopener noreferrer">GitHub</a>, <a href="https://arxiv.org/abs/2407.15317" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>支持 LEVIR-CD、WHU-CD、S2Looking、SVCD、DSIFN、SECOND 等</td>
          <td>OpenMMLab 风格 CD toolbox</td>
          <td>最适合作为公平实验底座，减少实现差异</td>
      </tr>
      <tr>
          <td>The Change You Want To Detect: Semantic Change Detection</td>
          <td style="text-align: right">CVPR 2025</td>
          <td><a href="https://openaccess.thecvf.com/content/CVPR2025/papers/Benidir_The_Change_You_Want_To_Detect_Semantic_Change_Detection_In_CVPR_2025_paper.pdf" target="_blank" rel="noopener noreferrer">CVF PDF</a></td>
          <td>需进一步核验代码</td>
          <td>语义变化检测问题重定义</td>
          <td>提供 semantic CD 对照：变化不只是 binary mask</td>
      </tr>
  </tbody>
</table>
<h2 id="方法比较" class="headerLink">
    <a href="#%e6%96%b9%e6%b3%95%e6%af%94%e8%be%83" class="header-mark"></a>方法比较</h2><h3 id="1-扩散特征提取器ddpm-cd" class="headerLink">
    <a href="#1-%e6%89%a9%e6%95%a3%e7%89%b9%e5%be%81%e6%8f%90%e5%8f%96%e5%99%a8ddpm-cd" class="header-mark"></a>1. 扩散特征提取器：DDPM-CD</h3><p>DDPM-CD 的关键想法是：扩散模型在去噪过程中学习到遥感图像的多尺度结构，变化检测不一定要让扩散模型生成图像，可以取其 encoder/denoising 中间特征，再训练轻量变化分类头。优点是能利用未标注遥感影像预训练；缺点是变化语义并未被显式建模，仍然依赖后续分类头把双时相特征差异解释为变化。</p>]]></description></item></channel></rss>