RS-28 Mamba/SSM Backbones for Dense Remote Sensing Prediction
RS-28 Mamba/SSM Backbones for Dense Remote Sensing Prediction
范围:2024-2026 光学/航空/卫星遥感 dense prediction,重点是语义分割、二值/语义变化检测、大幅面高分辨率理解;不把 SAR-only 作为主线。
1. 方向概述
Mamba/SSM 在遥感 dense prediction 中兴起的直接原因,是高分辨率遥感图像同时需要“全局上下文”和“可承受的长序列计算”。CNN 的局部感受野不够,ViT/Transformer 的全局注意力又在万级像素或大 patch 序列上成本很高;遥感影像还存在俯视方向任意、目标尺度差异大、背景占比高、小目标稀疏等问题。2024 年 Vim 和 VMamba 把选择性状态空间模型迁移到视觉,随后 Samba、RS3Mamba、RS-Mamba、ChangeMamba 几乎在同一时间把 SSM 带进遥感分割和变化检测。
这个方向的研究重点已经从“把 Mamba 换进 backbone”逐步变成三个更细的问题:
- 扫描方向:遥感目标没有固定上/下/左/右语义,2D/多方向/全向扫描是否真的必要,何时比普通 bidirectional scan 更好。
- 全局-局部平衡:Mamba 擅长长程建模,但 dense prediction 需要边界、纹理和小目标细节,很多新方法开始重新引入 CNN、多尺度金字塔、频域和局部卷积。
- 任务结构:语义分割是单时相 dense labeling,变化检测还要建模双时相/多时相交互,不能只把两张图分别编码后相减。
2. 代表论文与代码
| 方向 | 论文/项目 | 年份/来源 | 链接 | 代码/资源 | 核心贡献 |
|---|---|---|---|---|---|
| 通用视觉 SSM | Vision Mamba (Vim) | 2024 arXiv/ICML 方向 | arXiv | GitHub | 用 bidirectional Mamba blocks 处理图像序列,是遥感 Mamba 的重要通用基座。 |
| 通用视觉 SSM | VMamba: Visual State Space Model | 2024 NeurIPS spotlight | arXiv | GitHub | 提出 SS2D,用四条扫描路线连接 1D selective scan 与 2D 图像结构,后续 ChangeMamba/M-CD 等直接基于它。 |
| RS 语义分割 | Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model | 2024 arXiv / Heliyon | arXiv | GitHub | Encoder-decoder + Samba blocks + UperNet,在 LoveDA、Vaihingen、Potsdam 上验证 SSM 做高分遥感分割。 |
| RS 语义分割 | RS3Mamba | 2024 arXiv/GRSL | arXiv | GitHub | 双分支结构:CNN 主分支保局部细节,VSS 辅助分支补全局信息,CCM 融合两类特征。 |
| RS dense prediction | RS-Mamba for Large Remote Sensing Image Dense Prediction | 2024 arXiv/TGRS | arXiv | GitHub | 面向大幅面 VHR 图像,提出 omnidirectional selective scan;同一框架覆盖语义分割和变化检测。 |
| RS 语义分割 | PyramidMamba | 2024 arXiv | arXiv | GeoSeg | 用 selective state space model 重做金字塔特征融合,缓解多尺度特征语义冗余。 |
| RS 语义分割 | MF-Mamba | 2025 TGRS | DLR entry | GitHub | CNN encoder + Mamba decoder,GLSS 八方向扫描 + 多核卷积,强调 global-local 和多尺度融合。 |
| RS 语义分割 | UrbanSSF | 2025 ISPRS JPRS | ScienceDirect | 未核验到官方代码 | FSI-Mamba 建模不同 feature state 的序列关系,面向 VHR 城市场景分割和应用落地。 |
| RS foundation model | RoMA | 2025 NeurIPS | arXiv, OpenReview | GitHub | 系统验证 Mamba 在遥感预训练中的 data/parameter scaling law;覆盖分类、检测、分割。 |
| RS foundation model | DynamicVis | 2025 arXiv | arXiv | GitHub | selective region-aware SSM + MIL meta-embedding,面向高分大图和跨任务 foundation model。 |
| 变化检测 | ChangeMamba | 2024 TGRS | arXiv | GitHub | 基于 VMamba,分别给 BCD/SCD/BDA 设计 MambaBCD/MambaSCD/MambaBDA,重点是时空交互建模。 |
| 变化检测 | CDMamba | 2024/2025 arXiv | arXiv | GitHub | 指出纯扫描改造忽略局部细节,提出 Scaled Residual ConvMamba 和双时相 global-local guided fusion。 |
| 变化检测 | A Mamba-Based Siamese Network for Remote Sensing Change Detection | 2025 WACV | CVF PDF, arXiv | GitHub | Siamese VMamba encoder + difference module + Mamba decoder,在 4 个变化检测数据集上验证。 |
| 语义变化检测 | GSTM-SCD | 2025 ISPRS JPRS | ScienceDirect | GitHub | Graph-enhanced spatio-temporal Mamba,支持 bi-temporal 和 time-series SCD,并加入时序拓扑一致性。 |
| 语义变化检测 | Mamba-FCS | 2025 arXiv / 2026 JSTARS 方向 | arXiv | GitHub | 将频域特征、change-guided attention 和 SeK-inspired loss 融入 Mamba SCD。 |
3. 方法脉络比较
3.1 扫描策略
- Vim:把图像 token 当序列,使用双向 Mamba;优点是简单、通用,缺点是 2D 空间结构依赖展开顺序。
- VMamba:SS2D 四方向扫描,是多数遥感变化检测 Mamba 的通用底座。
- RS-Mamba:针对遥感俯视方向任意,提出全向/多方向 selective scan,强调大幅面全局上下文。
- MF-Mamba:进一步使用八方向扫描,并配合多核卷积补局部纹理。
- GSTM-SCD:把扫描扩展到多时相语义变化,加入双向三维变化扫描和图关系。
判断:扫描方向不是越多越好。多方向扫描提升上下文覆盖,但也带来实现复杂度、显存和重复语义。真正值得做的实验是“方向数量/方向选择是否与目标形态、场景结构、GSD 和任务类型相关”。
3.2 全局-局部融合
- Samba 更像“直接把 Mamba 作为高效 encoder”。
- RS3Mamba 使用 CNN + VSS 双分支,明确承认 dense prediction 需要局部纹理。
- CDMamba 用 ConvMamba 修复 Mamba 细节不足,是变化检测里很清晰的局部增强路线。
- PyramidMamba/MF-Mamba/UrbanSSF 都在多尺度、局部卷积和 feature state interaction 上做文章。
判断:遥感 dense prediction 的边界和小目标通常不是纯全局上下文能解决的。Mamba 的论文创新点要避免只改 scan,最好把“局部细节在哪里丢失、如何可测量地补回来”讲清楚。
3.3 任务结构
- 单时相分割:重点是大图上下文、多尺度、边界、小目标。
- BCD:重点是双时相局部差异和伪变化抑制。
- SCD/MT-SCD:重点是语义类别转移、时序链一致性和类别不平衡。
- Foundation model:重点是跨任务可迁移和 scaling law,不再只报告单数据集 mIoU。
4. 当前问题
- “Mamba 优势”常被过度归因。很多提升可能来自 decoder、多尺度 fusion、训练设置或数据增强,而不是 selective scan 本身。
- 扫描方向缺少可解释评测。遥感论文常报告四方向/八方向有效,但很少分析道路、建筑、水体、农田等不同形态是否需要不同扫描。
- 局部细节仍是短板。CDMamba、MF-Mamba 等都在补局部信息,说明纯 SSM 容易在边界、小目标和细碎地物上吃亏。
- 公平效率比较不够。许多论文只报 FLOPs/params,却不报真实吞吐、峰值显存、tile size、输入尺寸扩展曲线和 GPU/CPU/edge 设备延迟。
- 大图评测仍不充分。很多结果在 512 或 1024 patch 上完成,不能完全证明模型能处理真实正射影像或超大 VHR mosaics。
- 变化检测中的配准误差和季节差异处理不足。Mamba 建模长程依赖,不等于天然区分真实变化、几何错位和物候变化。
- 预训练路线刚开始。RoMA/DynamicVis 展示了 foundation model 化潜力,但下游 dense prediction 的 adapter、冻结策略和跨域泛化还没有定论。
5. 可投稿的小创新方向
方向 A:Shape-Adaptive Selective Scan for VHR Segmentation
核心问题:固定四/八方向扫描不能适配遥感地物形态。道路/河流是细长连通结构,建筑是块状边界结构,农田是大面状规则结构,小车/飞机是稀疏小目标。
方法草案:
- 先用轻量形态估计头预测每个区域的 dominant orientation、elongation、objectness 和 scale。
- 根据区域属性选择 scan route mixture,而不是全图统一四/八方向。
- 对细长目标偏向沿 skeleton/主方向扫描,对块状目标偏向闭合边界扫描,对大面状地物降低方向冗余。
- 加入 route sparsity loss 和 route diversity loss,避免所有区域退化为同一扫描。
最小验证:
- 数据:LoveDA、Vaihingen、Potsdam、OpenEarthMap。
- Baseline:Samba、RS3Mamba、RS-Mamba、PyramidMamba、SegFormer/Swin-UNet。
- 指标:mIoU、Boundary F1、small-object IoU、class-wise IoU、FPS/peak memory。
- 消融:固定四方向、固定八方向、随机方向、形态自适应方向。
方向 B:Local Detail Retention Benchmark for Mamba Dense Prediction
核心问题:当前论文缺少专门评测 Mamba 是否丢局部细节的协议。
方法草案:
- 构建局部细节 stress test:细道路、窄河道、小建筑、密集车辆、建筑边界、林地-草地细粒度边界。
- 在不同输入尺寸和 patch overlap 下测试 CNN、Transformer、Mamba。
- 指标不只 mIoU,还包括 Boundary F1、thin-structure IoU、connected-component correctness、small-object recall。
贡献形态:可以作为 TGRS/ISPRS 方法论文中的 benchmark + diagnostic module,也可以支撑一个新模型。
方向 C:Registration-Aware Spatio-Temporal Mamba for Change Detection
核心问题:ChangeMamba/CDMamba/M-CD 多数假设双时相较好配准,但真实遥感变化检测常有亚像素/多像素错位。
方法草案:
- 在 Mamba temporal interaction 前加入 deformable alignment 或 correlation-based local matching。
- 将 scan state 分成 stable state 和 change state,stable state 用于抑制错位伪变化,change state 用于增强真实变化。
- 用 temporal consistency loss 与 edge-aware alignment loss 区分错位边缘和真实变化边界。
数据与指标:
- LEVIR-CD、WHU-CD、CDD、S2Looking、SECOND/xBD。
- 加入人工平移/旋转/尺度扰动测试。
- 指标:F1、IoU、false alarm rate on unchanged boundaries、robustness curve。
方向 D:RoMA/DynamicVis Adapter for Dense Prediction Under Limited Labels
核心问题:Mamba foundation model 的下游 dense prediction 适配方式还不清楚。
方法草案:
- 比较 frozen backbone + linear head、LoRA、adapter、partial fine-tune、full fine-tune。
- 对分割、检测、变化检测分别做 1%、5%、10%、100% 标注曲线。
- 研究是否需要 task-specific scan route adapter。
6. 推荐实验矩阵
| 目标 | 数据集 | 任务 | Baselines | 主要指标 | 关键消融 |
|---|---|---|---|---|---|
| 单时相分割 | LoveDA, Vaihingen, Potsdam, OpenEarthMap | semantic segmentation | DeepLabV3+, UperNet, SegFormer, Swin-UNet, Samba, RS3Mamba, RS-Mamba, PyramidMamba | mIoU, F1, Boundary F1, FPS, memory | scan direction, local conv, feature pyramid |
| 大图扩展性 | WHDLD, large VHR tiles, OpenEarthMap large crops | dense segmentation | RS-Mamba, DynamicVis, SegFormer, ViT/Swin | mIoU vs input size, latency, peak memory | tile size, overlap, global context |
| 二值变化检测 | LEVIR-CD, WHU-CD, CDD, S2Looking | BCD | BIT, ChangeFormer, SNUNet, ChangeMamba, CDMamba, M-CD | F1, IoU, precision/recall | temporal fusion, alignment, local detail |
| 语义变化检测 | SECOND, Landsat-SCD, DynamicEarthNet, WUSU | SCD/MT-SCD | ChangeMamba, GSTM-SCD, Mamba-FCS, ChangeFormer variants | SeK, mIoU, temporal consistency | graph module, 3D scan, class imbalance loss |
| 少标注适配 | LoveDA, OpenEarthMap, xBD | segmentation/change | RoMA, DynamicVis, ViT/MAE, Prithvi/Clay where applicable | label-efficiency curve | frozen vs LoRA vs adapter |
7. 复现优先级
- 先复现 Samba 或 RS3Mamba:安装和任务最接近单时相分割,适合作为代码基线。
- 再复现 RS-Mamba:同时覆盖 segmentation 和 change detection,可直接研究扫描方向。
- 变化检测侧复现 ChangeMamba 或 M-CD:一个是 TGRS 强基线,一个是 WACV CVF 版本,便于写 CV-to-RS 讨论。
- 如果算力允许,再看 RoMA/DynamicVis:它们更偏 foundation model,适合做低标注/跨任务适配,而不是短期 baseline。
8. 论文 proposal 草案
题目候选:Shape-Adaptive State Space Scanning for Detail-Preserving Dense Prediction in Very-High-Resolution Remote Sensing Images
核心假设:遥感地物的形态和尺度决定了长程依赖的有效方向;固定四/八方向扫描会浪费计算并引入冗余,而形态自适应 scan mixture 能在同等或更低计算下提升细长结构、小目标和边界质量。
方法模块:
- Morphology cue head:预测区域尺度、方向、细长程度和边界复杂度。
- Adaptive scan router:为每个区域选择少量 scan routes 或 route weights。
- Detail-preserving local branch:轻量 CNN/edge branch 保留局部边界。
- Route regularization:约束 route 稀疏、多样和跨尺度一致。
预期贡献:
- 不是再堆一个 Mamba variant,而是回答“遥感图像到底需要怎样扫描”。
- 给出方向选择可解释性和局部细节 stress test。
- 在 LoveDA/Vaihingen/Potsdam/OpenEarthMap 与变化检测扩展上验证。
主要风险:
- 自适应 router 可能带来不稳定训练。
- 提升可能集中在少数类别,整体 mIoU 不明显。
- Mamba CUDA/依赖复现成本较高,Windows 环境可能不友好;建议 Linux + CUDA 环境复现。
9. 下一步阅读队列
- VMamba 和 Vision Mamba:理解视觉 SSM 基座。
- RS-Mamba 与 官方代码:扫描方向与大图 dense prediction 主线。
- Samba 与 代码:最直接的语义分割复现入口。
- ChangeMamba 与 代码:双时相/语义变化检测强基线。
- CDMamba:理解为什么局部 clues 对 Mamba CD 必要。
- RoMA 与 代码:Mamba foundation model scaling。
- DynamicVis 与 代码:高效大图和跨任务 foundation model。
- GSTM-SCD:多时相语义变化检测与图增强时空 Mamba。
评论