Galileo:一个模型搞定遥感多模态多尺度,ICML 2025 通用基础模型新突破

Galileo:一个模型搞定遥感多模态多尺度,ICML 2025 通用基础模型新突破

论文解读 | ICML 2025 | 2026-06-01

项目内容
标题Galileo: Learning Global & Local Features of Many Remote Sensing Modalities
作者Gabriel Tseng, Anthony Fuller, Marlena Reil, Henry Herzog, Patrick Beukema, Favyen Bastani, James R. Green, Evan Shelhamer, Hannah Kerner, David Rolnick
会议ICML 2025 (Proceedings of the 42nd International Conference on Machine Learning)
arXivhttps://arxiv.org/abs/2502.09356
GitHubhttps://github.com/nasaharvest/galileo (⭐ 177)
关键词遥感基础模型, 多模态融合, 自监督学习, 多尺度特征, 掩码建模, 通用模型

遥感数据具有两大独特挑战,使得直接套用计算机视觉方法变得困难:

  1. 模态多样性:遥感数据来源极其丰富——多光谱光学(Sentinel-2)、合成孔径雷达SAR(Sentinel-1)、高程数据(DEM)、天气数据(ERA5)、土地覆盖伪标签等。这些数据在物理意义上完全不同,如何在一个模型中统一处理?

  2. 尺度极端性:遥感目标的尺度差异巨大——从1-2像素的快速移动小船,到覆盖数千像素的缓慢变化冰川。如何让模型同时捕捉"细粒度局部特征"和"粗粒度全局语义"?

方法类型局限性
图像专用模型(SatMAE、CROMA)只能处理单时相图像,无法利用时序和多模态信息
像素时间序列专用模型(Presto)专注于时间序列,图像任务表现不佳
通用模型(AnySat)虽然支持多模态,但性能远低于专用模型
传统对比学习只学习单一尺度特征,要么擅长分类(全局),要么擅长分割(局部)

如何设计一个"既灵活又强大"的遥感基础模型,能够统一处理多种模态、多种尺度的遥感数据,并在分类和分割任务上都达到SOTA?

设计动机:传统自监督学习方法只能学习单一尺度的特征。全局对比损失(如DINO)擅长学习分类所需的粗粒度语义,但忽略局部细节;局部对比损失(如MAE)擅长学习分割所需的细粒度特征,但缺乏全局理解。

具体实现:Galileo提出双重损失交替训练策略:

┌─────────────────────────────────────────────────────────┐
│                    Galileo 预训练框架                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│   输入: 多模态遥感数据 (光学+SAR+高程+天气+...)           │
│              ↓                                          │
│   ┌─────────────────────────────────────────────┐       │
│   │         Vision Transformer (ViT)            │       │
│   │    - 可变patch size (4, 8, 16)              │       │
│   │    - 灵活处理不同模态和分辨率                 │       │
│   └─────────────────────────────────────────────┘       │
│              ↓                                          │
│   ┌───────────────────┐    ┌───────────────────┐       │
│   │   全局损失 (L_global)│    │   局部损失 (L_local)│       │
│   │                   │    │                   │       │
│   │  目标: 深层表示     │    │  目标: 浅层像素投影  │       │
│   │  掩码: 结构化       │    │  掩码: 随机         │       │
│   │  功能: 学习语义     │    │  功能: 学习细节     │       │
│   └───────────────────┘    └───────────────────┘       │
│              ↓                      ↓                   │
│         交替训练,共享编码器参数                           │
│              ↓                                          │
│   输出: 同时具备全局语义和局部细节的表示                   │
└─────────────────────────────────────────────────────────┘

关键细节

  • 全局损失 (AllDisc):预测深层特征表示,使用结构化掩码(按空间和时间维度组织),学习粗粒度语义
  • 局部损失 (PatchDisc):预测浅层像素投影,使用随机掩码,学习细粒度细节
  • 交替训练:每个训练步骤交替使用两种损失,共享编码器参数

设计动机:不同遥感模态的维度、分辨率、时间步数都不同,传统方法需要为每种模态设计专用编码器。

具体实现

输入模态处理:
┌─────────────────────────────────────────────────────────┐
│  多光谱光学 (Sentinel-2): 13波段, 10m分辨率             │
│  SAR数据 (Sentinel-1): 2波段, 10m分辨率                 │
│  高程数据 (SRTM DEM): 单波段, 30m分辨率                 │
│  天气数据 (ERA5): 多变量, 0.25°分辨率                   │
│  土地覆盖 (Dynamic World): 9类, 10m分辨率               │
│  人口密度 (LandScan): 单波段, 1km分辨率                  │
│  ...更多模态...                                         │
└─────────────────────────────────────────────────────────┘
         ↓ 统一处理
┌─────────────────────────────────────────────────────────┐
│  灵活的Patch Embedding                                  │
│  - 可变patch size (4, 8, 16像素)                        │
│  - 自动适应不同分辨率                                    │
│  - 支持任意时间步数                                      │
└─────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────┐
│  Vision Transformer (ViT)                               │
│  - 三种规模: Nano (10.9M), Tiny, Base                   │
│  - 统一处理所有模态                                      │
└─────────────────────────────────────────────────────────┘

设计动机:现有预训练数据集要么规模小,要么模态单一。

具体实现

  • 全球范围采样,覆盖多种地理区域
  • 包含6+种遥感模态,时空对齐
  • 专门为多任务学习设计,而非单一任务

数据集覆盖

任务类型数据集模态
图像分类EuroSat, METER-ML, So2Sat, …光学
图像分割MADOS, Sen1Floods11, …光学, SAR
时间序列分类CropHarvest, Breizhcrops光学+SAR+天气+地形
时间序列分割PASTIS光学时间序列

对比方法:16个SOTA预训练遥感模型,包括SatMAE、CROMA、AnySat、Presto等

综合排名(Table 1)

模型图像任务排名时间序列排名总体排名支持模态数
SatMAE5.2-5.21
CROMA4.8-4.82
Presto-2.02.01
AnySat7.53.05.3多种
Galileo-Base2.51.01.0多种

关键发现

  1. Galileo-Base在图像任务和时间序列任务上都排名第一
  2. 轻量级Galileo-Nano(10.9M参数)也优于许多更大的专用模型
  3. Galileo在11个基准测试中全面超越SOTA

全局特征学习消融(Table 7)

掩码策略目标空间损失函数EuroSat (%)CropHarvest (%)
随机-AllDisc17.4082.12
结构化空间+时间AllDisc89.5088.72
结构化空间+时间MSE87.2086.02

局部特征学习消融(Table 8)

  • PatchDisc(预测像素空间)在分割任务上显著优于AllDisc(预测深层特征)

组合策略消融(Table 9)

全局损失局部损失解码器MADOS mIoUEuroSat OA
AllDiscPatchDisc67.8889.30
AllDiscAllDisc63.5489.30
MSEMSE全部62.3688.70

Galileo学习到的特征具有以下特点:

  • 全局分支:捕捉场景级语义(如"这是农田"、“这是城市”)
  • 局部分支:保留像素级细节(如田块边界、道路边缘)
  • 多尺度融合:在不同层同时保留粗粒度和细粒度信息
  1. “一个模型统治所有"的可行性:Galileo证明了单一通用模型可以在多种遥感任务上超越专用模型,打破了"通用vs专用"的传统权衡

  2. 多尺度特征学习的关键性:遥感数据的尺度极端性要求模型必须同时学习全局语义和局部细节,单一尺度的学习策略必然失败

  3. 模态统一的实用价值:支持多种模态不仅是学术追求,更是实际应用的刚需——遥感从业者通常有多种数据源可用

层次贡献影响
算法层双重全局-局部对比损失解决多尺度特征学习问题
架构层灵活的多模态ViT统一处理异构遥感数据
数据层大规模多模态预训练数据为通用模型提供训练基础
系统层完整的模型家族满足不同计算预算需求
  1. 真正的通用性:不是"能处理多种数据但性能一般”,而是"能处理多种数据且性能最优"
  2. 实用的灵活性:可变patch size、多种模型规模、支持任意时间步数,满足实际部署需求
  3. 扎实的实验:16个基线模型、11个基准测试、数百次实验,结论可靠
  1. 计算成本:虽然有轻量级版本,但Base模型的预训练仍需大量计算资源
  2. 数据依赖:需要大规模、多模态、时空对齐的预训练数据,数据获取成本高
  3. 模态限制:虽然支持多种模态,但对超高光谱、激光雷达等模态的支持尚未验证
  1. 更多模态扩展:将框架扩展到激光雷达、超高光谱、视频等模态
  2. 下游任务适配:探索更高效的微调策略,降低应用门槛
  3. 可解释性增强:理解模型如何融合不同模态和尺度的信息
  4. 实时部署优化:针对边缘设备进行模型压缩和加速

Galileo代表了遥感基础模型发展的重要里程碑。它不仅在技术上实现了多模态、多尺度特征学习的统一,更在实践上证明了"一个模型解决多种任务"的可行性。

核心贡献在于三个方面:(1)提出双重全局-局部自监督学习算法,巧妙解决了遥感数据的多尺度特性;(2)设计灵活的多模态架构,统一处理异构遥感数据;(3)构建大规模预训练数据集,为通用模型奠定基础。

实际意义在于,Galileo为遥感从业者提供了一个"开箱即用"的强大工具——无需为每个任务训练专用模型,一个Galileo就能处理从作物分类到洪水检测的多种应用。这种通用性对于资源有限的发展中国家尤其重要,因为它们可能无法为每个任务都训练专用模型。

学术价值在于,Galileo的双重损失设计为自监督学习提供了新思路——不同粒度的特征需要不同的学习策略,而不是"一刀切"的方法。这一洞察可能启发其他领域的多尺度表示学习研究。

@inproceedings{pmlr-v267-tseng25a,
 title = {Galileo: Learning Global & Local Features of Many Remote Sensing Modalities},
 author = {Tseng, Gabriel and Fuller, Anthony and Reil, Marlena and Herzog, Henry and Beukema, Patrick and Bastani, Favyen and Green, James R and Shelhamer, Evan and Kerner, Hannah and Rolnick, David},
 booktitle = {Proceedings of the 42nd International Conference on Machine Learning},
 pages = {60280--60300},
 year = {2025},
 volume = {267},
 series = {Proceedings of Machine Research},
 publisher = {PMLR}
}

Related Content