RS-28 Mamba/SSM Backbones for Dense Remote Sensing Prediction

Series - 2024-2026 遥感 AI 细分研究方向

RS-28 Mamba/SSM Backbones for Dense Remote Sensing Prediction

范围:2024-2026 光学/航空/卫星遥感 dense prediction,重点是语义分割、二值/语义变化检测、大幅面高分辨率理解;不把 SAR-only 作为主线。

Mamba/SSM 在遥感 dense prediction 中兴起的直接原因,是高分辨率遥感图像同时需要“全局上下文”和“可承受的长序列计算”。CNN 的局部感受野不够,ViT/Transformer 的全局注意力又在万级像素或大 patch 序列上成本很高;遥感影像还存在俯视方向任意、目标尺度差异大、背景占比高、小目标稀疏等问题。2024 年 Vim 和 VMamba 把选择性状态空间模型迁移到视觉,随后 Samba、RS3Mamba、RS-Mamba、ChangeMamba 几乎在同一时间把 SSM 带进遥感分割和变化检测。

这个方向的研究重点已经从“把 Mamba 换进 backbone”逐步变成三个更细的问题:

  • 扫描方向:遥感目标没有固定上/下/左/右语义,2D/多方向/全向扫描是否真的必要,何时比普通 bidirectional scan 更好。
  • 全局-局部平衡:Mamba 擅长长程建模,但 dense prediction 需要边界、纹理和小目标细节,很多新方法开始重新引入 CNN、多尺度金字塔、频域和局部卷积。
  • 任务结构:语义分割是单时相 dense labeling,变化检测还要建模双时相/多时相交互,不能只把两张图分别编码后相减。
方向论文/项目年份/来源链接代码/资源核心贡献
通用视觉 SSMVision Mamba (Vim)2024 arXiv/ICML 方向arXivGitHub用 bidirectional Mamba blocks 处理图像序列,是遥感 Mamba 的重要通用基座。
通用视觉 SSMVMamba: Visual State Space Model2024 NeurIPS spotlightarXivGitHub提出 SS2D,用四条扫描路线连接 1D selective scan 与 2D 图像结构,后续 ChangeMamba/M-CD 等直接基于它。
RS 语义分割Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model2024 arXiv / HeliyonarXivGitHubEncoder-decoder + Samba blocks + UperNet,在 LoveDA、Vaihingen、Potsdam 上验证 SSM 做高分遥感分割。
RS 语义分割RS3Mamba2024 arXiv/GRSLarXivGitHub双分支结构:CNN 主分支保局部细节,VSS 辅助分支补全局信息,CCM 融合两类特征。
RS dense predictionRS-Mamba for Large Remote Sensing Image Dense Prediction2024 arXiv/TGRSarXivGitHub面向大幅面 VHR 图像,提出 omnidirectional selective scan;同一框架覆盖语义分割和变化检测。
RS 语义分割PyramidMamba2024 arXivarXivGeoSeg用 selective state space model 重做金字塔特征融合,缓解多尺度特征语义冗余。
RS 语义分割MF-Mamba2025 TGRSDLR entryGitHubCNN encoder + Mamba decoder,GLSS 八方向扫描 + 多核卷积,强调 global-local 和多尺度融合。
RS 语义分割UrbanSSF2025 ISPRS JPRSScienceDirect未核验到官方代码FSI-Mamba 建模不同 feature state 的序列关系,面向 VHR 城市场景分割和应用落地。
RS foundation modelRoMA2025 NeurIPSarXiv, OpenReviewGitHub系统验证 Mamba 在遥感预训练中的 data/parameter scaling law;覆盖分类、检测、分割。
RS foundation modelDynamicVis2025 arXivarXivGitHubselective region-aware SSM + MIL meta-embedding,面向高分大图和跨任务 foundation model。
变化检测ChangeMamba2024 TGRSarXivGitHub基于 VMamba,分别给 BCD/SCD/BDA 设计 MambaBCD/MambaSCD/MambaBDA,重点是时空交互建模。
变化检测CDMamba2024/2025 arXivarXivGitHub指出纯扫描改造忽略局部细节,提出 Scaled Residual ConvMamba 和双时相 global-local guided fusion。
变化检测A Mamba-Based Siamese Network for Remote Sensing Change Detection2025 WACVCVF PDF, arXivGitHubSiamese VMamba encoder + difference module + Mamba decoder,在 4 个变化检测数据集上验证。
语义变化检测GSTM-SCD2025 ISPRS JPRSScienceDirectGitHubGraph-enhanced spatio-temporal Mamba,支持 bi-temporal 和 time-series SCD,并加入时序拓扑一致性。
语义变化检测Mamba-FCS2025 arXiv / 2026 JSTARS 方向arXivGitHub将频域特征、change-guided attention 和 SeK-inspired loss 融入 Mamba SCD。
  • Vim:把图像 token 当序列,使用双向 Mamba;优点是简单、通用,缺点是 2D 空间结构依赖展开顺序。
  • VMamba:SS2D 四方向扫描,是多数遥感变化检测 Mamba 的通用底座。
  • RS-Mamba:针对遥感俯视方向任意,提出全向/多方向 selective scan,强调大幅面全局上下文。
  • MF-Mamba:进一步使用八方向扫描,并配合多核卷积补局部纹理。
  • GSTM-SCD:把扫描扩展到多时相语义变化,加入双向三维变化扫描和图关系。

判断:扫描方向不是越多越好。多方向扫描提升上下文覆盖,但也带来实现复杂度、显存和重复语义。真正值得做的实验是“方向数量/方向选择是否与目标形态、场景结构、GSD 和任务类型相关”。

  • Samba 更像“直接把 Mamba 作为高效 encoder”。
  • RS3Mamba 使用 CNN + VSS 双分支,明确承认 dense prediction 需要局部纹理。
  • CDMamba 用 ConvMamba 修复 Mamba 细节不足,是变化检测里很清晰的局部增强路线。
  • PyramidMamba/MF-Mamba/UrbanSSF 都在多尺度、局部卷积和 feature state interaction 上做文章。

判断:遥感 dense prediction 的边界和小目标通常不是纯全局上下文能解决的。Mamba 的论文创新点要避免只改 scan,最好把“局部细节在哪里丢失、如何可测量地补回来”讲清楚。

  • 单时相分割:重点是大图上下文、多尺度、边界、小目标。
  • BCD:重点是双时相局部差异和伪变化抑制。
  • SCD/MT-SCD:重点是语义类别转移、时序链一致性和类别不平衡。
  • Foundation model:重点是跨任务可迁移和 scaling law,不再只报告单数据集 mIoU。
  1. “Mamba 优势”常被过度归因。很多提升可能来自 decoder、多尺度 fusion、训练设置或数据增强,而不是 selective scan 本身。
  2. 扫描方向缺少可解释评测。遥感论文常报告四方向/八方向有效,但很少分析道路、建筑、水体、农田等不同形态是否需要不同扫描。
  3. 局部细节仍是短板。CDMamba、MF-Mamba 等都在补局部信息,说明纯 SSM 容易在边界、小目标和细碎地物上吃亏。
  4. 公平效率比较不够。许多论文只报 FLOPs/params,却不报真实吞吐、峰值显存、tile size、输入尺寸扩展曲线和 GPU/CPU/edge 设备延迟。
  5. 大图评测仍不充分。很多结果在 512 或 1024 patch 上完成,不能完全证明模型能处理真实正射影像或超大 VHR mosaics。
  6. 变化检测中的配准误差和季节差异处理不足。Mamba 建模长程依赖,不等于天然区分真实变化、几何错位和物候变化。
  7. 预训练路线刚开始。RoMA/DynamicVis 展示了 foundation model 化潜力,但下游 dense prediction 的 adapter、冻结策略和跨域泛化还没有定论。

核心问题:固定四/八方向扫描不能适配遥感地物形态。道路/河流是细长连通结构,建筑是块状边界结构,农田是大面状规则结构,小车/飞机是稀疏小目标。

方法草案:

  • 先用轻量形态估计头预测每个区域的 dominant orientation、elongation、objectness 和 scale。
  • 根据区域属性选择 scan route mixture,而不是全图统一四/八方向。
  • 对细长目标偏向沿 skeleton/主方向扫描,对块状目标偏向闭合边界扫描,对大面状地物降低方向冗余。
  • 加入 route sparsity loss 和 route diversity loss,避免所有区域退化为同一扫描。

最小验证:

  • 数据:LoveDA、Vaihingen、Potsdam、OpenEarthMap。
  • Baseline:Samba、RS3Mamba、RS-Mamba、PyramidMamba、SegFormer/Swin-UNet。
  • 指标:mIoU、Boundary F1、small-object IoU、class-wise IoU、FPS/peak memory。
  • 消融:固定四方向、固定八方向、随机方向、形态自适应方向。

核心问题:当前论文缺少专门评测 Mamba 是否丢局部细节的协议。

方法草案:

  • 构建局部细节 stress test:细道路、窄河道、小建筑、密集车辆、建筑边界、林地-草地细粒度边界。
  • 在不同输入尺寸和 patch overlap 下测试 CNN、Transformer、Mamba。
  • 指标不只 mIoU,还包括 Boundary F1、thin-structure IoU、connected-component correctness、small-object recall。

贡献形态:可以作为 TGRS/ISPRS 方法论文中的 benchmark + diagnostic module,也可以支撑一个新模型。

核心问题:ChangeMamba/CDMamba/M-CD 多数假设双时相较好配准,但真实遥感变化检测常有亚像素/多像素错位。

方法草案:

  • 在 Mamba temporal interaction 前加入 deformable alignment 或 correlation-based local matching。
  • 将 scan state 分成 stable state 和 change state,stable state 用于抑制错位伪变化,change state 用于增强真实变化。
  • 用 temporal consistency loss 与 edge-aware alignment loss 区分错位边缘和真实变化边界。

数据与指标:

  • LEVIR-CD、WHU-CD、CDD、S2Looking、SECOND/xBD。
  • 加入人工平移/旋转/尺度扰动测试。
  • 指标:F1、IoU、false alarm rate on unchanged boundaries、robustness curve。

核心问题:Mamba foundation model 的下游 dense prediction 适配方式还不清楚。

方法草案:

  • 比较 frozen backbone + linear head、LoRA、adapter、partial fine-tune、full fine-tune。
  • 对分割、检测、变化检测分别做 1%、5%、10%、100% 标注曲线。
  • 研究是否需要 task-specific scan route adapter。
目标数据集任务Baselines主要指标关键消融
单时相分割LoveDA, Vaihingen, Potsdam, OpenEarthMapsemantic segmentationDeepLabV3+, UperNet, SegFormer, Swin-UNet, Samba, RS3Mamba, RS-Mamba, PyramidMambamIoU, F1, Boundary F1, FPS, memoryscan direction, local conv, feature pyramid
大图扩展性WHDLD, large VHR tiles, OpenEarthMap large cropsdense segmentationRS-Mamba, DynamicVis, SegFormer, ViT/SwinmIoU vs input size, latency, peak memorytile size, overlap, global context
二值变化检测LEVIR-CD, WHU-CD, CDD, S2LookingBCDBIT, ChangeFormer, SNUNet, ChangeMamba, CDMamba, M-CDF1, IoU, precision/recalltemporal fusion, alignment, local detail
语义变化检测SECOND, Landsat-SCD, DynamicEarthNet, WUSUSCD/MT-SCDChangeMamba, GSTM-SCD, Mamba-FCS, ChangeFormer variantsSeK, mIoU, temporal consistencygraph module, 3D scan, class imbalance loss
少标注适配LoveDA, OpenEarthMap, xBDsegmentation/changeRoMA, DynamicVis, ViT/MAE, Prithvi/Clay where applicablelabel-efficiency curvefrozen vs LoRA vs adapter
  1. 先复现 Samba 或 RS3Mamba:安装和任务最接近单时相分割,适合作为代码基线。
  2. 再复现 RS-Mamba:同时覆盖 segmentation 和 change detection,可直接研究扫描方向。
  3. 变化检测侧复现 ChangeMamba 或 M-CD:一个是 TGRS 强基线,一个是 WACV CVF 版本,便于写 CV-to-RS 讨论。
  4. 如果算力允许,再看 RoMA/DynamicVis:它们更偏 foundation model,适合做低标注/跨任务适配,而不是短期 baseline。

题目候选:Shape-Adaptive State Space Scanning for Detail-Preserving Dense Prediction in Very-High-Resolution Remote Sensing Images

核心假设:遥感地物的形态和尺度决定了长程依赖的有效方向;固定四/八方向扫描会浪费计算并引入冗余,而形态自适应 scan mixture 能在同等或更低计算下提升细长结构、小目标和边界质量。

方法模块:

  • Morphology cue head:预测区域尺度、方向、细长程度和边界复杂度。
  • Adaptive scan router:为每个区域选择少量 scan routes 或 route weights。
  • Detail-preserving local branch:轻量 CNN/edge branch 保留局部边界。
  • Route regularization:约束 route 稀疏、多样和跨尺度一致。

预期贡献:

  • 不是再堆一个 Mamba variant,而是回答“遥感图像到底需要怎样扫描”。
  • 给出方向选择可解释性和局部细节 stress test。
  • 在 LoveDA/Vaihingen/Potsdam/OpenEarthMap 与变化检测扩展上验证。

主要风险:

  • 自适应 router 可能带来不稳定训练。
  • 提升可能集中在少数类别,整体 mIoU 不明显。
  • Mamba CUDA/依赖复现成本较高,Windows 环境可能不友好;建议 Linux + CUDA 环境复现。
  1. VMambaVision Mamba:理解视觉 SSM 基座。
  2. RS-Mamba官方代码:扫描方向与大图 dense prediction 主线。
  3. Samba代码:最直接的语义分割复现入口。
  4. ChangeMamba代码:双时相/语义变化检测强基线。
  5. CDMamba:理解为什么局部 clues 对 Mamba CD 必要。
  6. RoMA代码:Mamba foundation model scaling。
  7. DynamicVis代码:高效大图和跨任务 foundation model。
  8. GSTM-SCD:多时相语义变化检测与图增强时空 Mamba。

Related Content

评论