可提示分割、开放词表与密集预测 - Category - 堂堂一跑堂

TUE-CD：震后建筑变化检测真正难的是短时间隔下的侧视错位

Mon, 15 Jun 2026 19:00:02 +0800

TUE-CD：震后建筑变化检测真正难的是短时间隔下的侧视错位

结论：这一轮最值得补进雷达的是 2026-06-09 提交到 arXiv 的 Building Change Detection in Earthquake: A Multi-Scale Interaction Network and A Change Detection Dataset。它的重点不只是提出 MSI-Net，而是把震后应急变化检测里的一个真实难点摆到台面上：救援最需要的是震后几天内的影像，但越靠近灾害发生时刻，影像越可能存在视角、侧视、遮挡和几何错位问题。论文构建了 Turkey earthquake CD dataset（TUE-CD），用 WorldView-2/Maxar 公开影像整理 1656 对 256 x 256 双时相图像块，标注 2338 个毁坏建筑，并用多尺度 offset calibration 去缓解短时间隔影像的 side-looking mismatch。

我按 2026-06-15 19:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是高分辨率光学震后建筑变化检测。同期候选中，Earth-OneVision 摘要显式覆盖 SAR，按本轮规则不作为主项；PolyBuild 与最近的 polygon/LPM 文章重合较大；SemDINO 侧重 DINOv3 语义变化检测，但没有新增应急数据集。因此本轮保留 TUE-CD/MSI-Net 这个更贴近灾害应急 benchmark 的方向。

需要先说明可复现性状态：论文、arXiv HTML 和 PDF 已公开；我没有确认到官方 GitHub 仓库，也没有确认 TUE-CD 数据集已单独开放下载。因此它目前更适合作为“问题定义 + 数据集线索 + 方法设计”的跟踪项，而不是马上可跑的工程项目。

CSI-Net：变化检测里真正难的是压住伪变化

Mon, 15 Jun 2026 01:00:02 +0800

CSI-Net：变化检测里真正难的是压住伪变化

结论：这一轮最值得单独跟踪的是 2026-06-09 提交到 arXiv 的 Content-Induced Spatial-Spectral Aggregation Network for Change Detection in Remote Sensing Images。它的题眼不是“又一个双时相网络”，而是把变化检测里最常见的失败源说得比较准确：很多高分辨率光学影像里的强差异并不是目标变化，而是成像角度、阴影、光照、季节、背景纹理或局部配准带来的伪变化。CSI-Net 用空间推理、谱/通道差异统计和高层内容引导融合三件事，试图让模型在保留真实变化的同时压低未变化区域里的空间-光谱差异。

我按 2026-06-15 01:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是高分辨率光学双时相变化检测，实验数据包括 LEVIR-CD、WHU-CD、CLCD 和 Sensetime change detection 数据，论文正文没有把 SAR 作为输入模态或实验对象。同期候选里，Earth-OneVision 明确统一了 optical、SAR、infrared、multispectral、temporal、video 等模态，按本轮规则不作为主项；NGram-MoSE 虽然有趣，但下游 Landslide4Sense benchmark 涉及 PALSAR 派生层，且主线是超分辨率；PolyBuild 与最近已经写过的 VecLang、LPM、polygon-native mask decoder 重合较大。因此本轮保留 CSI-Net 这个更聚焦“光学变化伪差异抑制”的方向。

这篇文章的现实意义在于：遥感变化检测并不缺模型结构，缺的是更可靠地区分“真实变化”和“看起来变了”。建筑新增、农田转用、湖泊边界变化、灾后损毁等任务都要求模型对双时相差异敏感；但如果模型只追逐像素差异，就会把阴影位移、楼体侧视角、树冠季节变化、道路纹理和传感器色彩差异当成变化。CSI-Net 不是一个基础模型论文，但它提醒我们，变化检测的关键瓶颈仍然是证据筛选和伪变化抑制。

背景

双时相变化检测的经典输入是同一区域两个时间点的遥感影像，输出变化 mask。看起来这是一个二分类分割问题，但实际比普通语义分割更难：模型不仅要理解每个时相里的对象，还要判断对象是否在两个时相之间发生了目标定义下的变化。

传统 CNN 方法擅长局部纹理和边界，但感受野有限，容易在密集建筑、大片农田或复杂背景里漏掉上下文。Transformer、non-local 和图卷积方法被引入后，全球关系建模有所加强，但又容易把所有强相关差异都放大。空间关系有用，谱/通道差异也有用，问题是二者不能简单相加。

论文指出的核心问题是：空间差异和谱差异既能帮助发现变化，也会在未变化区域制造噪声。比如两期影像里建筑没有变，但因为拍摄倾角不同，屋顶和侧墙位置发生偏移；或者农田没有发生土地利用变化，但季节和湿度造成 RGB 分布改变。这些差异如果没有被抑制，就会成为 false positive。

因此，CSI-Net 的目标不是单纯增强差异，而是做一种内容引导的空间-光谱融合：用空间模块捕获全局关系，用谱差异模块提取双时相特征统计，再用高层语义内容决定二者如何交互。这个思路比“把两个时相特征 concat 后交给 decoder”更接近真实变化检测的难点。

方法

CSI-Net 的主体是 Siamese encoder-decoder 框架，backbone 使用 ResNet-18。双时相影像分别经过共享编码器提取多层特征，再由三个关键模块处理差异信息：Spatial Reasoning、Spectral Difference 和 Content-Guided Integration。

RSKT-Seg：开放词表遥感分割需要自己的 benchmark

Sun, 14 Jun 2026 13:00:02 +0800

RSKT-Seg：开放词表遥感分割需要自己的 benchmark

结论：这一轮最值得单独跟踪的是 RSKT-Seg: Remote Sensing Knowledge Transfer for Open-Vocabulary Semantic Segmentation。它的价值不只是提出一个开放词表遥感语义分割模型，而是把问题拆成了三件更基础的事：遥感类别名称太粗，通用视觉语言模型容易被自然图像语义带偏；遥感图像中的尺度、纹理和俯视视角会削弱 CLIP 类文本对齐；现有遥感分割数据集本来就不是为“见过类/未见类”泛化评测设计的。因此 RSKT-Seg 同时给出知识迁移方法和 OVRSISBench，把开放词表遥感分割从 demo 推向可比较 benchmark。

我按 2026-06-14 13:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线。本篇选择 2025-09-16 提交 arXiv、2026-06-10 更新 v2 的 RSKT-Seg。论文和 arXiv HTML 已公开；官方 GitHub 仓库标注为 AAAI 2026 Oral，并提供代码、预训练权重、OVRSISBench 数据集说明和训练/评测配置。该工作面向光学遥感语义分割和开放词表迁移，不属于雷达方向。

这篇适合放进“可提示分割、开放词表与密集预测”。原因是它不满足于让 SAM 或 CLIP 在遥感图上跑一个零样本例子，而是直面开放词表语义分割的评测协议：哪些类别是 base，哪些类别是 novel，文本类别名如何构造，遥感知识如何注入，最后如何在多个公开数据集上比较未见类 mIoU。

背景

开放词表分割在自然图像里已经形成一套常见路线：用 CLIP 或 VLM 建立图像区域和文本类别的对齐，再用 mask proposal、dense decoder 或 region-text matching 给未见类做分割。遥感看上去也适合这条路线，因为很多应用场景确实不可能为每个地区、每个地物类别都重新标注。

问题是，遥感的“词表”并不等于自然图像词表。building 在遥感里可能是密集居民区、高层楼顶、厂房、温室或临时建筑；road 可能是城市道路、乡村土路、桥面、机场跑道或停车场内部通道；bare land、impervious surface、low vegetation 这类标签在自然图像语料里本来就弱。直接把自然图像 CLIP 类别提示搬到遥感分割，模型很容易看见纹理但对不上遥感类别体系。

Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM

Sun, 14 Jun 2026 09:00:02 +0800

Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM

结论：这一轮最值得单独跟踪的是 CVPR 2026 EarthVision 论文 Enabling Training-Free Text-Based Remote Sensing Segmentation。它没有再给遥感 VLM 接一个新的 mask decoder，也没有把重点放在更复杂的专用适配器上，而是把问题拆成两条很朴素的路线：短类别词用 CLIP 给 SAM 的候选 mask 做语义选择；长句、指代表达和推理问题则让生成式 VLM 输出点击点，再交给 SAM 出 mask。它的意义不只是“又一个开放词表分割方法”，而是把遥感文本分割重新拉回一个可复用的工程问题：VLM 不必直接生成像素，先学会给通用分割器提供可靠的空间提示。

我按 2026-06-14 09:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线工作。本篇选择 Jose Sosa 等人在 CVPR 2026 EarthVision Workshop 的遥感文本分割论文。arXiv、CVF 页面和官方 GitHub 仓库均已公开；不过仓库目前只有 README 和 teaser，代码部分仍标注为 coming soon，因此本文把它视为“论文公开、代码仓库已建、可运行代码未确认”的条目。

这篇适合放进“可提示分割、开放词表与密集预测”。它正好连接了三条线：开放词表语义分割、SAM 可提示分割、遥感 VLM 推理分割。对后续做遥感 VLM 的人来说，最值得借鉴的不是某个模型名，而是它把“语言理解”和“mask 生成”解耦以后，很多训练负担可以被转成提示生成、mask 选择和评测协议设计。

背景

遥感文本分割的目标是：给一张遥感影像和一段文本，让模型输出对应区域的 mask。文本可以很短，例如 building、road、water；也可以是指代表达，例如“右上角那辆车”；还可以是推理问题，例如“如果要改善网球发球并参加双打，应选择体育综合体中的哪个位置”。这三种任务表面上都是分割，但它们对模型的要求完全不同。

SST-CD：把无标签建筑变化检测从差异图变成自训练

Fri, 12 Jun 2026 17:00:02 +0800

SST-CD：把无标签建筑变化检测从差异图变成自训练

结论：这一轮值得单独跟踪的是 SST-CD，不是因为它又给变化检测堆了一个复杂网络，而是因为它把“无标签建筑变化检测”从差异图后处理，推进到一个更像论文问题的设定：没有人工变化标注时，能不能用带噪时相差异只监督可靠位置，训练出真正面向建筑变化的检测器。

我按 2026-06-12 17:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 项。Earth-OneVision 这类多模态 RS-MLLM 虽然更新更近，但摘要显式覆盖 SAR，因此按本次规则不作为主项。ZODS-RS 和 VecLang 已在前两篇两小时雷达中写过。本篇选择 2026-06-09 提交、2026-06-10 修订的 Spatially Selective Self-Training for Unsupervised Building Change Detection，把它作为“光学双时相建筑变化、无标签自训练、公开 benchmark 可检验”的候选方向。

摘要

SST-CD 关注 unsupervised building change detection，输入是无标签双时相遥感影像，输出是建筑变化 mask。论文指出，许多 label-free 方法遵循 discrepancy-to-mask 范式：先用时相差异、冻结基础模型响应、prompt 输出或后处理得到候选变化图，再直接把它当最终结果。这类方法能避免标注，但没有真正学习一个建筑变化检测器，也容易把光照、季节、配准误差、非建筑变化误判为建筑变化。

SST-CD 的做法是把这些时相差异只当作 candidate pseudo labels，再用 spatially reliable pixels 训练端到端检测器。可靠性由局部一致性标准估计，不稳定区域不参与监督。为减轻噪声伪标签的影响，论文加入轻量 feature adapter 重新校准双时相特征，并用 prototype-based decoder 形成更紧凑的 change/no-change 表示。作者在 LEVIR-CD、WHU-CD、DSIFN-CD 上报告 F1 分别为 83.08%、91.69%、86.60%，超过已有 unsupervised 和 label-free baseline。

ZODS-RS：DINOv3+SAM2 的零训练遥感检测与实例分割

Fri, 12 Jun 2026 15:00:03 +0800

ZODS-RS：DINOv3+SAM2 的零训练遥感检测与实例分割

结论：这一轮值得单独跟踪的是 ZODS-RS，不是因为它的绝对精度已经压过监督检测器，而是因为它把遥感检测/实例分割推向了一个更实用的基线问题：如果不给新地区、新平台、新目标重新标注和训练，冻结的 DINOv3 特征、SAM2 proposals 和一组闭式匹配规则，到底能做到什么程度。

我按 2026-06-12 15:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 项。ZODS-RS 的任务是航空/UAV/高分辨率光学遥感目标检测与实例分割，核心来源是 arXiv:2606.10769；截至本次检查，没有检索到官方 GitHub 仓库，因此本文把它作为“论文信号 + 待复现基线”处理，而不是已经可直接跑通的开源项目。

摘要

ZODS-RS 的全名是 Zero-training Oriented Detection & Segmentation for Remote Sensing，2026-06-09 提交 arXiv。论文提出一个 training-free、closed-form 的遥感/无人机影像流程，输出 horizontal bounding boxes（HBB）和 instance masks。它不训练新的检测器，而是把 DINOv3 dense features、SAM-style proposals、memory/prototype 机制串起来，再用 prototype purification、rotation-scale equivariant matching、uncertainty-aware pixelwise merging 做推理期匹配和合并。

这个工作最值得看的地方是问题设定。遥感检测长期依赖 DOTA、FAIR1M、xView 这类标注数据训练专用模型，但真实应用常常是“换一个地区、换一个平台、换一个类别，就没有足够标签”。ZODS-RS 问的是：能否用通用视觉基础模型的 frozen dense features，加上遥感几何约束，做一个不训练也能工作的 detection + segmentation baseline。它的分数不应和 fully supervised detector 直接硬比，而应和 Grounded-SAM、open-vocabulary detector、SAM proposal pipeline、DINO feature matching 这类低标注/零训练方案比较。

RS-40 Polygon-Native Mask Decoder

Sun, 07 Jun 2026 09:39:00 +0800

RS-40 Polygon-Native Mask Decoder

执行摘要

2024-2026 的矢量化遥感提取正在从“mask -> polygonize -> simplify/regularize”的工程管线，转向“模型原生输出 vertex / edge / ring graph / polygon token”。这个转变的原因很直接：GIS、城市建模、道路导航、地块管理最终需要的是可编辑、拓扑有效、顶点简洁的矢量对象，而 raster mask 的高 IoU 并不保证角点直、边界稳、道路连通、地块不自交。

最值得推进的小课题不是泛泛地“建筑物提取”，而是：用 SAM/GeoFM 的强视觉特征作为 encoder，同时设计 polygon-native decoder，直接输出多实例、多环、多类别的 GIS-ready 矢量对象，并用边界质量、顶点效率和拓扑有效性作为主指标。

问题由来

传统遥感分割把建筑、道路、农田边界当作像素分类问题，输出 raster mask。这个输出在 mIoU 上可能很好，但在 GIS 里常见四类问题：

建筑边界呈锯齿或圆角，直角、长直边、规则边界被破坏。
mask polygonize 后顶点数量过多，需要 Douglas-Peucker、正交化、拓扑修复等经验后处理。
后处理不可微，训练时不能直接优化“顶点少、角点准、拓扑合法”。
道路和地块更关心连通性、闭合性、相邻关系，像素级 IoU 不足以评价产品质量。

2024-2026 的新方法大致分三条路线：

SAM/基础模型增强的间接矢量化：先借助 SAM 或强 segmentation encoder 得到 mask、vertex、boundary，再连接成 polygon，例如 SAMPolyBuild。
显式 polygon / graph 序列预测：把角点坐标、边连接、ring graph 当作 token 或图结构直接预测，例如 Pix2Poly、GeoFormer、P2PFormer、VectorLLM。
面向道路/地块的拓扑矢量输出：道路输出图或道路 outline polygon，农田输出可扩展 field boundary polygon，例如 SAM-Road、LDPoly、FTW/PRUE。

代表工作

工作	年份/来源	对象	输出形式	代码/资源	关键贡献
SAMPolyBuild	2024 ISPRS JPRS	建筑	mask + vertex/boundary/offset -> polygon	paper, GitHub	适配 SAM 做 polygonal building extraction；额外预测 Gaussian vertex、offset、boundary map，并支持自动 bbox 和交互 prompt。
P2PFormer	2024 arXiv	建筑	geometric primitives + sequence	arXiv	先分割 vertex/line/corner 等几何 primitive，再预测连接顺序，构造规则建筑轮廓。
GeoFormer	2024 BMVC	多 polygon	auto-regressive multi-polygon	arXiv, GitHub	将自回归 transformer 用于遥感多 polygon 预测，是直接多边形生成路线的代表。
Pix2Poly	2025 WACV	建筑，也扩展到道路	ring graph vertex tokens + matching	CVF PDF, arXiv, GitHub	端到端 differentiable transformer，直接生成高质量 building footprint ring graph，用 optimal matching 学顶点连接。
SAM-Road	2024 CVPRW	道路网络	graph vertices + edges	arXiv, GitHub	将 SAM 适配到大范围道路图提取；SAM embedding 预测道路/交叉口 mask，再用轻量 graph transformer 估计边。
LDPoly	2025 arXiv	道路 outline	road mask + vertex heatmap -> polygon	arXiv	面向 polygonal road outline extraction，提出 dual-latent diffusion，同时生成 road masks 和 vertex heatmaps，并设计 polygon simplicity / boundary smoothness 指标。
VectorLLM	2025 arXiv	建筑轮廓，可泛化到其他目标	corner-by-corner regression	arXiv	用 MLLM 模拟人工标注员逐角点绘制建筑轮廓；报告在 WHU、WHU-Mix、CrowdAI 上超过前 SOTA，并有零样本对象潜力。
FTW / PRUE	2025-2026 benchmark + CVPR 2026	农田地块边界	segmentation -> polygons at scale	Fields of The World, PRUE arXiv, GitHub	提供全球 field boundary 生态，FTW 覆盖 2024/2025 的十亿级 polygons；PRUE 强调 scalable field boundary segmentation 和可部署管线。

方法谱系

1. Mask 后处理管线

典型流程是 segmentation mask -> connected components -> contour extraction -> simplify -> regularize -> topology repair。优点是工程成熟、容易接入 U-Net、DeepLab、SAM、GeoFM feature；缺点是不可微，后处理参数对区域、GSD 和建筑风格敏感。

RS-33 Hyperspectral Foundation Model Transfer

Sun, 07 Jun 2026 09:32:00 +0800

RS-33 Hyperspectral Foundation Model Transfer

1. 核心判断

高光谱 foundation model 的迁移问题，本质上不是“有没有预训练模型”，而是“预训练域、传感器谱段、空间分辨率、标注粒度和下游小样本协议是否一致”。2024-2026 的代表性工作已经从单数据集 HSI 分类，推进到 HyperGlobal-450K、SpectralEarth/EnMAP、HyperSeg、HyperFM250K 这类大规模预训练数据。但下游仍常落回 Indian Pines、Pavia University、Houston 2013、Salinas、WHU-Hi 等小数据集，导致两个矛盾：

大模型有谱-空表示能力，但小数据全量微调很容易记住局部空间纹理和 train/test split。
大规模卫星 HSI 与经典机载 HSI 的光谱响应、空间分辨率和地物类别差异很大，简单 fine-tune 不一定是真的 transfer。

最值得做的小论文切口：建立一个 HSI-FM transfer protocol，用统一 split、统一预算和统一参数量比较 linear probe、adapter、LoRA、prompt/tuning-free、full fine-tuning，并增加 leave-dataset-out / leave-sensor-out / few-shot 曲线和过拟合诊断。

2. 代表论文与资源

论文/项目	年份/venue	链接	代码/数据	和 RS-33 的关系
SpectralGPT: Spectral Remote Sensing Foundation Model	TPAMI 2024	GitHub paper page	GitHub, Zenodo	早期谱域 FM，使用 3D token 和多目标重建，适合做 full fine-tune 与 linear probe 基线。
S2MAE: A Spatial-Spectral Pretraining Foundation Model for Spectral Remote Sensing Data	CVPR 2024	CVF PDF	代码状态需再核验	3D masked transformer + 高 mask ratio，适合研究少样本 HSI 分类迁移。
HSIMAE: A Unified Masked Autoencoder with Large-scale Pretraining for Hyperspectral Image Classification	JSTARS 2024	GitHub	GitHub	官方结果覆盖 Salinas、Pavia University、Houston 2013、WHU-Hi-LongKou，并报告 5/10/15/20 samples per class。
HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model	TPAMI 2025	arXiv	GitHub, HyperGlobal-450K	十亿级 HSI FM，提供 spatial/spectral MAE 权重，覆盖多任务多数据集，是主要迁移基座。
SpectralEarth: Training Hyperspectral Foundation Models at Scale	JSTARS 2025 / arXiv 2024	arXiv	GitHub, DLR dataset	基于 EnMAP 的全球多时相 HSI 预训练集，带 land-cover、crop-type、tree-species 下游数据，适合研究卫星 HSI 到任务数据迁移。
HyperFree: A Channel-adaptive and Tuning-free Foundation Model for HSI	CVPR 2025	CVF	Project, HF	0.4-2.5 μm weight dictionary，强调 tuning-free 与变通道适配，是“少/免微调”强基线。
SpecAware: Spectral-content Aware FM for Multi-sensor HSI Mapping	ISPRS JPRS 2026	ScienceDirect, arXiv	GitHub planned	用 sensor meta-attributes + image semantic features 做统一 embedding，直接对应 cross-sensor transfer。
Cross-Domain Transfer of Hyperspectral Foundation Models	ICPR 2026 / arXiv	arXiv	未见官方代码	明确比较 in-domain training、cross-modality transfer 和 cross-domain transfer；为“遥感 HSI FM 迁移到新域”提供研究框架。
SpectralEarth-FM: Bringing Hyperspectral Imagery into Multimodal EO Pretraining	arXiv 2026	arXiv	待核验	将 EnMAP/EMIT/DESIS 与 Sentinel-2、Landsat 等共址，对跨模态/跨传感器迁移很关键。
HyperFM: Efficient HSI FM with Spectral Grouping	CVPR 2026 Findings / arXiv	arXiv	待核验	面向 PACE-OCI 等长谱段 HSI，突出 spectral grouping 和高效 transfer。
HyperspectralMAE: Fourier-Encoded Dual-Branch MAE	arXiv 2025	arXiv	待核验	在 Hyperion/EnMAP 预训练后迁移到 Indian Pines，适合放入“classic benchmark transfer”比较。

3. 问题由来

3.1 经典 HSI 数据集太小，容易高估迁移能力

Indian Pines、Pavia University、Houston 2013、Salinas 等经典数据集常用于 HSI classification，但它们通常是单场景、单传感器、空间相邻样本强相关。随机抽样时，训练和测试像素可能来自同一地块或相邻区域，模型可以靠局部纹理和空间平滑拿高分。这会掩盖 foundation model 是否真的学到了可迁移谱-空表示。

RS-28 Mamba/SSM Backbones for Dense Remote Sensing Prediction

Sun, 07 Jun 2026 09:27:00 +0800

RS-28 Mamba/SSM Backbones for Dense Remote Sensing Prediction

范围：2024-2026 光学/航空/卫星遥感 dense prediction，重点是语义分割、二值/语义变化检测、大幅面高分辨率理解；不把 SAR-only 作为主线。

1. 方向概述

Mamba/SSM 在遥感 dense prediction 中兴起的直接原因，是高分辨率遥感图像同时需要“全局上下文”和“可承受的长序列计算”。CNN 的局部感受野不够，ViT/Transformer 的全局注意力又在万级像素或大 patch 序列上成本很高；遥感影像还存在俯视方向任意、目标尺度差异大、背景占比高、小目标稀疏等问题。2024 年 Vim 和 VMamba 把选择性状态空间模型迁移到视觉，随后 Samba、RS3Mamba、RS-Mamba、ChangeMamba 几乎在同一时间把 SSM 带进遥感分割和变化检测。

这个方向的研究重点已经从“把 Mamba 换进 backbone”逐步变成三个更细的问题：

扫描方向：遥感目标没有固定上/下/左/右语义，2D/多方向/全向扫描是否真的必要，何时比普通 bidirectional scan 更好。
全局-局部平衡：Mamba 擅长长程建模，但 dense prediction 需要边界、纹理和小目标细节，很多新方法开始重新引入 CNN、多尺度金字塔、频域和局部卷积。
任务结构：语义分割是单时相 dense labeling，变化检测还要建模双时相/多时相交互，不能只把两张图分别编码后相减。

2. 代表论文与代码

方向	论文/项目	年份/来源	链接	代码/资源	核心贡献
通用视觉 SSM	Vision Mamba (Vim)	2024 arXiv/ICML 方向	arXiv	GitHub	用 bidirectional Mamba blocks 处理图像序列，是遥感 Mamba 的重要通用基座。
通用视觉 SSM	VMamba: Visual State Space Model	2024 NeurIPS spotlight	arXiv	GitHub	提出 SS2D，用四条扫描路线连接 1D selective scan 与 2D 图像结构，后续 ChangeMamba/M-CD 等直接基于它。
RS 语义分割	Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model	2024 arXiv / Heliyon	arXiv	GitHub	Encoder-decoder + Samba blocks + UperNet，在 LoveDA、Vaihingen、Potsdam 上验证 SSM 做高分遥感分割。
RS 语义分割	RS3Mamba	2024 arXiv/GRSL	arXiv	GitHub	双分支结构：CNN 主分支保局部细节，VSS 辅助分支补全局信息，CCM 融合两类特征。
RS dense prediction	RS-Mamba for Large Remote Sensing Image Dense Prediction	2024 arXiv/TGRS	arXiv	GitHub	面向大幅面 VHR 图像，提出 omnidirectional selective scan；同一框架覆盖语义分割和变化检测。
RS 语义分割	PyramidMamba	2024 arXiv	arXiv	GeoSeg	用 selective state space model 重做金字塔特征融合，缓解多尺度特征语义冗余。
RS 语义分割	MF-Mamba	2025 TGRS	DLR entry	GitHub	CNN encoder + Mamba decoder，GLSS 八方向扫描 + 多核卷积，强调 global-local 和多尺度融合。
RS 语义分割	UrbanSSF	2025 ISPRS JPRS	ScienceDirect	未核验到官方代码	FSI-Mamba 建模不同 feature state 的序列关系，面向 VHR 城市场景分割和应用落地。
RS foundation model	RoMA	2025 NeurIPS	arXiv, OpenReview	GitHub	系统验证 Mamba 在遥感预训练中的 data/parameter scaling law；覆盖分类、检测、分割。
RS foundation model	DynamicVis	2025 arXiv	arXiv	GitHub	selective region-aware SSM + MIL meta-embedding，面向高分大图和跨任务 foundation model。
变化检测	ChangeMamba	2024 TGRS	arXiv	GitHub	基于 VMamba，分别给 BCD/SCD/BDA 设计 MambaBCD/MambaSCD/MambaBDA，重点是时空交互建模。
变化检测	CDMamba	2024/2025 arXiv	arXiv	GitHub	指出纯扫描改造忽略局部细节，提出 Scaled Residual ConvMamba 和双时相 global-local guided fusion。
变化检测	A Mamba-Based Siamese Network for Remote Sensing Change Detection	2025 WACV	CVF PDF, arXiv	GitHub	Siamese VMamba encoder + difference module + Mamba decoder，在 4 个变化检测数据集上验证。
语义变化检测	GSTM-SCD	2025 ISPRS JPRS	ScienceDirect	GitHub	Graph-enhanced spatio-temporal Mamba，支持 bi-temporal 和 time-series SCD，并加入时序拓扑一致性。
语义变化检测	Mamba-FCS	2025 arXiv / 2026 JSTARS 方向	arXiv	GitHub	将频域特征、change-guided attention 和 SeK-inspired loss 融入 Mamba SCD。

3. 方法脉络比较

3.1 扫描策略

Vim：把图像 token 当序列，使用双向 Mamba；优点是简单、通用，缺点是 2D 空间结构依赖展开顺序。
VMamba：SS2D 四方向扫描，是多数遥感变化检测 Mamba 的通用底座。
RS-Mamba：针对遥感俯视方向任意，提出全向/多方向 selective scan，强调大幅面全局上下文。
MF-Mamba：进一步使用八方向扫描，并配合多核卷积补局部纹理。
GSTM-SCD：把扫描扩展到多时相语义变化，加入双向三维变化扫描和图关系。

判断：扫描方向不是越多越好。多方向扫描提升上下文覆盖，但也带来实现复杂度、显存和重复语义。真正值得做的实验是“方向数量/方向选择是否与目标形态、场景结构、GSD 和任务类型相关”。

RS-17 Latent Flow/Diffusion for Change Detection

Sun, 07 Jun 2026 09:16:00 +0800

RS-17 Latent Flow/Diffusion for Change Detection

结论先行

这个方向的核心不是“把扩散模型塞进变化检测”，而是把变化检测从逐像素二分类改写为“在潜空间中建模一个合理的变化区域/变化过程”。判别式模型通常学习 pre/post -> changed probability，很擅长局部边界和快速推理；生成式/潜变量方法试图学习“什么样的变化 mask 或变化图像在全局上是合理的”，因此天然适合处理区域一致性、标签歧义、不确定性和低标注数据。

目前可分成四条路线：

扩散特征提取器：DDPM-CD 先在未标注遥感图像上预训练扩散模型，再用扩散中间特征训练轻量变化头。
变化样本生成器：ChangeAnywhere、Changen2、DreamCD 生成双时相样本、语义变化标签或后时相图像，用来缓解变化标注昂贵的问题。
latent difference guidance：LDGuid 显式学习“任务相关的变化潜向量”，再注入 U-Net、BIT、AERNet 等判别式 CD 模型。
latent mask generation / rectified flow：ChangeFlow 直接在 latent space 中用 rectified flow 生成变化 mask，并用多次采样做 ensemble 和置信度估计。

我的判断：2024-2026 最值得做的小问题是 “潜空间生成式变化先验如何在不牺牲边界精度的前提下，提升跨域鲁棒性和不确定性可信度”。这比单纯追一个 LEVIR-CD F1 更像一篇能站住的论文。

问题由来

遥感变化检测的标注不是纯视觉差分。很多变化 mask 反映的是区域级语义约定：新建建筑算变化，阴影移动不算；作物季节纹理变化可能不算，土地利用类别变化算；配准误差导致的边缘错位通常不应算。这带来三个矛盾：

局部像素差异与语义变化不等价：亮度、阴影、云雾、季节、传感器响应、配准误差会造成明显差异，但不是目标变化。
变化区域具有全局结构：建筑群、道路扩张、采矿区、水体扩张往往是连通区域或对象集合，而不是独立像素。
变化标签存在歧义和不确定性：边界、细碎对象和半变化区域通常有多种合理标注。

判别式模型把这些问题压成单次前向的 pixel classification；生成式 latent 方法则把变化当作一个分布、过程或潜语义差异来建模，这正是 ChangeFlow、LDGuid、Changen2 等工作的切入点。

代表论文与代码

论文/项目	年份/venue	链接	代码/数据	方法定位	与本课题关系
DDPM-CD: Denoising Diffusion Probabilistic Models as Feature Extractors for Remote Sensing Change Detection	WACV 2025，arXiv 2022 起	CVF, arXiv	GitHub, HF diffusers 实现	扩散模型作为遥感特征提取器	早期强基线，证明扩散预训练特征对 CD 有用，但不是直接生成变化 mask
ChangeAnywhere: Sample Generation for Remote Sensing Change Detection via Semantic Latent Diffusion Model	arXiv 2024	arXiv	GitHub, ChangeAnywhere-100K	用 semantic latent diffusion 从单时相语义数据生成双时相变化样本	解决标注稀缺，适合研究合成变化数据对真实 CD 的迁移收益
Changen2: Multi-Temporal Remote Sensing Generative Change Foundation Model	arXiv 2024, TPAMI 2025	arXiv, DOI/TIPAMI 信息	官方代码未在检索中稳定核验	GPCM + resolution-scalable diffusion transformer，生成时序图像、语义和变化标签	将“变化过程”显式建模为生成式 foundation model，是理论背景核心
DreamCD: A change-label-free framework for change detection via a weakly conditional semantic diffusion model in optical VHR imagery	JAG 2026	ScienceDirect	GitHub, LsSCD-Ex	弱语义条件扩散，合成后时相图像与语义变化数据	适合做无变化标签/弱标签场景，与 ChangeAnywhere/Changen2 对比
ChangeFlow: Latent Rectified Flow for Change Detection in Remote Sensing	arXiv 2026	arXiv, Project	项目页标注 code coming soon	latent rectified flow 生成变化 mask；多次采样可做 ensemble/confidence	本方向最直接 anchor：把 CD 改写为 latent mask generation
LDGuid: A Framework for Robust Change Detection via Latent Difference Guidance	arXiv 2026	arXiv	未见官方代码	adversarial autoencoding + information bottleneck 学习 task-relevant difference embedding，再注入 CD 模型	最适合与 ChangeFlow 对照：显式差异潜向量 vs 生成变化 mask
BIT: Remote Sensing Image Change Detection with Transformers	TGRS 2021	GitHub	官方 PyTorch	双时相 Transformer 变化检测经典基线	LDGuid 报告集成到 BIT；实验必须保留
ChangeFormer: A Transformer-Based Siamese Network for Change Detection	IGARSS 2022	arXiv	GitHub	Siamese Transformer + MLP decoder	判别式 Transformer 强基线，和 DDPM-CD 同作者生态衔接好
Open-CD	ACM MM 2025 technical report/toolbox	GitHub, arXiv	支持 LEVIR-CD、WHU-CD、S2Looking、SVCD、DSIFN、SECOND 等	OpenMMLab 风格 CD toolbox	最适合作为公平实验底座，减少实现差异
The Change You Want To Detect: Semantic Change Detection	CVPR 2025	CVF PDF	需进一步核验代码	语义变化检测问题重定义	提供 semantic CD 对照：变化不只是 binary mask

方法比较

1. 扩散特征提取器：DDPM-CD

DDPM-CD 的关键想法是：扩散模型在去噪过程中学习到遥感图像的多尺度结构，变化检测不一定要让扩散模型生成图像，可以取其 encoder/denoising 中间特征，再训练轻量变化分类头。优点是能利用未标注遥感影像预训练；缺点是变化语义并未被显式建模，仍然依赖后续分类头把双时相特征差异解释为变化。