RoMA: 首个基于Mamba架构的遥感自监督预训练框架

RoMA: 首个基于Mamba架构的遥感自监督预训练框架

论文解读 | 发布时间: 2026-05-31 | 关键词: 遥感基础模型, Mamba, 自监督预训练, 旋转不变性, 多尺度预测


项目内容
论文标题RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing
发表会议NeurIPS 2025 (顶级会议)
arXiv链接https://arxiv.org/abs/2503.10392
代码仓库https://github.com/MiliLab/RoMA
研究团队国防科技大学、清华大学、武汉大学、北京邮电大学
研究方向遥感图像分割、基础模型、自监督学习

遥感图像与自然图像存在本质差异,这些差异给深度学习模型带来了独特的挑战:

  • 任意方向目标:遥感图像中的建筑物、车辆、飞机等目标可能以任意角度出现,不像自然图像中的目标通常具有"直立"的先验
  • 尺度差异巨大:同一场景中,小型车辆和大型建筑物的尺度可能相差数十倍
  • 数据标注成本高昂:遥感图像的标注需要专业知识,标注成本远高于自然图像

当前遥感基础模型主要面临两个核心问题:

  1. Transformer的计算瓶颈:基于ViT的预训练方法(如MAE)在处理高分辨率遥感图像时,自注意力机制的二次复杂度导致计算成本极高
  2. 缺乏旋转感知能力:传统预训练方法未充分考虑遥感目标的任意方向特性,导致预训练特征对旋转变化不够鲁棒

核心问题:如何设计一个既能高效处理高分辨率遥感图像、又能捕获旋转不变特征的自监督预训练框架?


RoMA的核心创新在于将Mamba架构引入遥感自监督预训练,并设计了两个关键机制来解决遥感图像的特殊挑战。

RoMA采用自回归预训练范式,不同于MAE的重建范式:

输入图像 → 图像分块 → 自适应旋转编码 → Mamba编码器 → 多尺度预测头 → 预测下一个token

这是RoMA最关键的创新点,解决遥感目标任意方向的问题:

设计动机:传统数据增强对图像进行随机旋转,但模型并不知道旋转了多少角度。RoMA通过引入角度嵌入,让模型显式感知旋转信息。

具体实现

  1. 高信息区域选择:使用LBP(局部二值模式)等传统特征计算每个patch的信息量,选择信息最丰富的区域
  2. 旋转增强:对选定区域进行随机旋转增强
  3. 角度嵌入注入:将旋转角度编码为嵌入向量,与视觉token拼接,使模型能感知并适应旋转变化
旋转后token = 视觉token ⊕ 角度嵌入(θ)

这种设计的精妙之处在于:模型不仅学会了识别目标,还学会了理解目标的方向,从而获得真正的旋转不变性。

设计动机:遥感图像中目标尺度差异巨大,单一尺度的预测目标难以捕获多尺度语义信息。

具体实现

  • 在自回归预测中,不仅预测下一个token,还同时预测多个未来尺度的token
  • 通过多尺度预测头,迫使模型在不同尺度上建立语义理解
  • 小尺度预测关注局部细节,大尺度预测关注全局结构
损失函数 = Σ(不同尺度的预测损失)

相比Transformer,Mamba在遥感场景中具有天然优势:

特性TransformerMamba
计算复杂度O(n²)O(n)
长序列处理受限于显存线性扩展
感受野需要多层堆叠天然长距离依赖

这使得RoMA能够高效处理高分辨率遥感图像(如2048×2048),而无需像ViT那样进行激进的下采样。


  • 预训练数据集:大规模遥感图像数据集
  • 下游任务:语义分割、变化检测、目标检测
  • 基线方法:MAE、SatMAE、Scale-MAE等遥感预训练方法

RoMA在多个下游任务上取得了SOTA性能:

语义分割任务

  • 在Potsdam、Vaihingen等数据集上,RoMA显著优于MAE-based方法
  • 相比SatMAE,mIoU提升约2-3%

关键发现

  1. 旋转编码的有效性:消融实验证明,自适应旋转编码带来约1.5%的性能提升
  2. 多尺度预测的增益:多尺度预测目标进一步提升约1%的分割精度
  3. 计算效率:相比ViT-based方法,RoMA在处理高分辨率图像时效率提升约40%

论文展示了RoMA学习到的特征可视化:

  • RoMA能更好地捕获任意方向的目标边界
  • 在复杂背景(如密集城区、植被覆盖区域)中表现更鲁棒
  • 多尺度特征融合使模型同时关注大目标和小目标

RoMA的成功在于精准识别问题本质

  1. 问题点:遥感目标的任意方向性被忽视
  2. 切入点:在预训练阶段注入旋转感知能力
  3. 扩展面:结合Mamba的效率优势,构建完整的预训练框架

这启示我们:好的研究往往源于对单一痛点的深刻理解,然后围绕这个点构建系统性解决方案。

RoMA的技术贡献可以分为三个层次:

  • 架构层:引入Mamba替代ViT,解决计算效率问题
  • 机制层:设计旋转编码和多尺度预测,解决遥感特性问题
  • 范式层:采用自回归预训练,提供更灵活的预训练目标
  1. Mamba在遥感中的潜力:RoMA证明了Mamba架构在遥感领域的巨大潜力,未来可能出现更多Mamba-based遥感模型
  2. 领域特异性设计:通用预训练方法(如MAE)需要针对遥感特性进行定制化改进
  3. 传统特征与深度学习的融合:LBP等传统特征在RoMA中发挥了重要作用,表明传统方法仍有价值

RoMA作为首个基于Mamba的遥感自监督预训练框架,通过自适应旋转编码和多尺度预测目标,有效解决了遥感图像的任意方向性和尺度多样性问题。该工作不仅在多个下游任务上取得了SOTA性能,更为遥感基础模型的发展提供了新的技术路线。

论文亮点

  • ✅ 首次将自回归预训练引入Mamba架构用于遥感
  • ✅ 创新的旋转感知机制,显式建模目标方向
  • ✅ 多尺度预测目标适应遥感尺度特性
  • ✅ 高效处理高分辨率遥感图像

代码开源:https://github.com/MiliLab/RoMA


  1. RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing. NeurIPS 2025.
  2. Gu, A., & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
  3. He, K., et al. (2022). Masked Autoencoders Are Scalable Vision Learners. CVPR 2022.