RoMA: 首个基于Mamba架构的遥感自监督预训练框架

WangTong included in category 遥感基础模型与多模态理解

2026-05-31 13:05:11 2026-05-31 13:05:11 194 words One minute

Contents

RoMA: 首个基于Mamba架构的遥感自监督预训练框架

论文解读 | 发布时间: 2026-05-31 | 关键词: 遥感基础模型, Mamba, 自监督预训练, 旋转不变性, 多尺度预测

一、论文基本信息

项目	内容
论文标题	RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing
发表会议	NeurIPS 2025 (顶级会议)
arXiv链接	https://arxiv.org/abs/2503.10392
代码仓库	https://github.com/MiliLab/RoMA
研究团队	国防科技大学、清华大学、武汉大学、北京邮电大学
研究方向	遥感图像分割、基础模型、自监督学习

二、研究问题：遥感基础模型的核心挑战

2.1 遥感图像的特殊性

遥感图像与自然图像存在本质差异，这些差异给深度学习模型带来了独特的挑战：

任意方向目标：遥感图像中的建筑物、车辆、飞机等目标可能以任意角度出现，不像自然图像中的目标通常具有"直立"的先验
尺度差异巨大：同一场景中，小型车辆和大型建筑物的尺度可能相差数十倍
数据标注成本高昂：遥感图像的标注需要专业知识，标注成本远高于自然图像

2.2 现有方法的局限

当前遥感基础模型主要面临两个核心问题：

Transformer的计算瓶颈：基于ViT的预训练方法（如MAE）在处理高分辨率遥感图像时，自注意力机制的二次复杂度导致计算成本极高
缺乏旋转感知能力：传统预训练方法未充分考虑遥感目标的任意方向特性，导致预训练特征对旋转变化不够鲁棒

核心问题：如何设计一个既能高效处理高分辨率遥感图像、又能捕获旋转不变特征的自监督预训练框架？

三、解决方案：RoMA框架详解

RoMA的核心创新在于将Mamba架构引入遥感自监督预训练，并设计了两个关键机制来解决遥感图像的特殊挑战。

3.1 整体架构

RoMA采用自回归预训练范式，不同于MAE的重建范式：

输入图像 → 图像分块 → 自适应旋转编码 → Mamba编码器 → 多尺度预测头 → 预测下一个token

3.2 核心创新一：自适应旋转编码（Adaptive Rotation Encoding）

这是RoMA最关键的创新点，解决遥感目标任意方向的问题：

设计动机：传统数据增强对图像进行随机旋转，但模型并不知道旋转了多少角度。RoMA通过引入角度嵌入，让模型显式感知旋转信息。

具体实现：

高信息区域选择：使用LBP（局部二值模式）等传统特征计算每个patch的信息量，选择信息最丰富的区域
旋转增强：对选定区域进行随机旋转增强
角度嵌入注入：将旋转角度编码为嵌入向量，与视觉token拼接，使模型能感知并适应旋转变化

旋转后token = 视觉token ⊕ 角度嵌入(θ)

这种设计的精妙之处在于：模型不仅学会了识别目标，还学会了理解目标的方向，从而获得真正的旋转不变性。

3.3 核心创新二：多尺度预测目标（Multi-scale Token Prediction）

设计动机：遥感图像中目标尺度差异巨大，单一尺度的预测目标难以捕获多尺度语义信息。

具体实现：

在自回归预测中，不仅预测下一个token，还同时预测多个未来尺度的token
通过多尺度预测头，迫使模型在不同尺度上建立语义理解
小尺度预测关注局部细节，大尺度预测关注全局结构

损失函数 = Σ(不同尺度的预测损失)

3.4 Mamba架构的优势

相比Transformer，Mamba在遥感场景中具有天然优势：

特性	Transformer	Mamba
计算复杂度	O(n²)	O(n)
长序列处理	受限于显存	线性扩展
感受野	需要多层堆叠	天然长距离依赖

这使得RoMA能够高效处理高分辨率遥感图像（如2048×2048），而无需像ViT那样进行激进的下采样。

四、实验评估

4.1 实验设置

预训练数据集：大规模遥感图像数据集
下游任务：语义分割、变化检测、目标检测
基线方法：MAE、SatMAE、Scale-MAE等遥感预训练方法

4.2 主要结果

RoMA在多个下游任务上取得了SOTA性能：

语义分割任务：

在Potsdam、Vaihingen等数据集上，RoMA显著优于MAE-based方法
相比SatMAE，mIoU提升约2-3%

关键发现：

旋转编码的有效性：消融实验证明，自适应旋转编码带来约1.5%的性能提升
多尺度预测的增益：多尺度预测目标进一步提升约1%的分割精度
计算效率：相比ViT-based方法，RoMA在处理高分辨率图像时效率提升约40%

4.3 可视化分析

论文展示了RoMA学习到的特征可视化：

RoMA能更好地捕获任意方向的目标边界
在复杂背景（如密集城区、植被覆盖区域）中表现更鲁棒
多尺度特征融合使模型同时关注大目标和小目标

五、核心洞察与启发

5.1 从"一个点"到"一篇文章"

RoMA的成功在于精准识别问题本质：

问题点：遥感目标的任意方向性被忽视
切入点：在预训练阶段注入旋转感知能力
扩展面：结合Mamba的效率优势，构建完整的预训练框架

这启示我们：好的研究往往源于对单一痛点的深刻理解，然后围绕这个点构建系统性解决方案。

5.2 技术创新的层次

RoMA的技术贡献可以分为三个层次：

架构层：引入Mamba替代ViT，解决计算效率问题
机制层：设计旋转编码和多尺度预测，解决遥感特性问题
范式层：采用自回归预训练，提供更灵活的预训练目标

5.3 对后续研究的启示

Mamba在遥感中的潜力：RoMA证明了Mamba架构在遥感领域的巨大潜力，未来可能出现更多Mamba-based遥感模型
领域特异性设计：通用预训练方法（如MAE）需要针对遥感特性进行定制化改进
传统特征与深度学习的融合：LBP等传统特征在RoMA中发挥了重要作用，表明传统方法仍有价值

六、总结

RoMA作为首个基于Mamba的遥感自监督预训练框架，通过自适应旋转编码和多尺度预测目标，有效解决了遥感图像的任意方向性和尺度多样性问题。该工作不仅在多个下游任务上取得了SOTA性能，更为遥感基础模型的发展提供了新的技术路线。

论文亮点：

✅ 首次将自回归预训练引入Mamba架构用于遥感
✅ 创新的旋转感知机制，显式建模目标方向
✅ 多尺度预测目标适应遥感尺度特性
✅ 高效处理高分辨率遥感图像

代码开源：https://github.com/MiliLab/RoMA

参考文献

RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing. NeurIPS 2025.
Gu, A., & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
He, K., et al. (2022). Masked Autoencoders Are Scalable Vision Learners. CVPR 2022.

RoMA: 首个基于Mamba架构的遥感自监督预训练框架

RoMA: 首个基于Mamba架构的遥感自监督预训练框架

一、论文基本信息

二、研究问题：遥感基础模型的核心挑战

2.1 遥感图像的特殊性

2.2 现有方法的局限

三、解决方案：RoMA框架详解

3.1 整体架构

3.2 核心创新一：自适应旋转编码（Adaptive Rotation Encoding）

3.3 核心创新二：多尺度预测目标（Multi-scale Token Prediction）

3.4 Mamba架构的优势

四、实验评估

4.1 实验设置

4.2 主要结果

4.3 可视化分析

五、核心洞察与启发

5.1 从"一个点"到"一篇文章"

5.2 技术创新的层次

5.3 对后续研究的启示

六、总结

参考文献

评论