Galileo:一个模型搞定遥感多模态多尺度,ICML 2025 通用基础模型新突破
Galileo:一个模型搞定遥感多模态多尺度,ICML 2025 通用基础模型新突破
论文解读 | ICML 2025 | 2026-06-01
📄 论文信息
| 项目 | 内容 |
|---|---|
| 标题 | Galileo: Learning Global & Local Features of Many Remote Sensing Modalities |
| 作者 | Gabriel Tseng, Anthony Fuller, Marlena Reil, Henry Herzog, Patrick Beukema, Favyen Bastani, James R. Green, Evan Shelhamer, Hannah Kerner, David Rolnick |
| 会议 | ICML 2025 (Proceedings of the 42nd International Conference on Machine Learning) |
| arXiv | https://arxiv.org/abs/2502.09356 |
| GitHub | https://github.com/nasaharvest/galileo (⭐ 177) |
| 关键词 | 遥感基础模型, 多模态融合, 自监督学习, 多尺度特征, 掩码建模, 通用模型 |
🎯 解决的核心问题
问题背景
遥感数据具有两大独特挑战,使得直接套用计算机视觉方法变得困难:
模态多样性:遥感数据来源极其丰富——多光谱光学(Sentinel-2)、合成孔径雷达SAR(Sentinel-1)、高程数据(DEM)、天气数据(ERA5)、土地覆盖伪标签等。这些数据在物理意义上完全不同,如何在一个模型中统一处理?
尺度极端性:遥感目标的尺度差异巨大——从1-2像素的快速移动小船,到覆盖数千像素的缓慢变化冰川。如何让模型同时捕捉"细粒度局部特征"和"粗粒度全局语义"?
现有方法的局限
| 方法类型 | 局限性 |
|---|---|
| 图像专用模型(SatMAE、CROMA) | 只能处理单时相图像,无法利用时序和多模态信息 |
| 像素时间序列专用模型(Presto) | 专注于时间序列,图像任务表现不佳 |
| 通用模型(AnySat) | 虽然支持多模态,但性能远低于专用模型 |
| 传统对比学习 | 只学习单一尺度特征,要么擅长分类(全局),要么擅长分割(局部) |
核心问题提炼
如何设计一个"既灵活又强大"的遥感基础模型,能够统一处理多种模态、多种尺度的遥感数据,并在分类和分割任务上都达到SOTA?
💡 解决方案
核心创新点1:双重全局-局部自监督学习算法
设计动机:传统自监督学习方法只能学习单一尺度的特征。全局对比损失(如DINO)擅长学习分类所需的粗粒度语义,但忽略局部细节;局部对比损失(如MAE)擅长学习分割所需的细粒度特征,但缺乏全局理解。
具体实现:Galileo提出双重损失交替训练策略:
┌─────────────────────────────────────────────────────────┐
│ Galileo 预训练框架 │
├─────────────────────────────────────────────────────────┤
│ │
│ 输入: 多模态遥感数据 (光学+SAR+高程+天气+...) │
│ ↓ │
│ ┌─────────────────────────────────────────────┐ │
│ │ Vision Transformer (ViT) │ │
│ │ - 可变patch size (4, 8, 16) │ │
│ │ - 灵活处理不同模态和分辨率 │ │
│ └─────────────────────────────────────────────┘ │
│ ↓ │
│ ┌───────────────────┐ ┌───────────────────┐ │
│ │ 全局损失 (L_global)│ │ 局部损失 (L_local)│ │
│ │ │ │ │ │
│ │ 目标: 深层表示 │ │ 目标: 浅层像素投影 │ │
│ │ 掩码: 结构化 │ │ 掩码: 随机 │ │
│ │ 功能: 学习语义 │ │ 功能: 学习细节 │ │
│ └───────────────────┘ └───────────────────┘ │
│ ↓ ↓ │
│ 交替训练,共享编码器参数 │
│ ↓ │
│ 输出: 同时具备全局语义和局部细节的表示 │
└─────────────────────────────────────────────────────────┘关键细节:
- 全局损失 (AllDisc):预测深层特征表示,使用结构化掩码(按空间和时间维度组织),学习粗粒度语义
- 局部损失 (PatchDisc):预测浅层像素投影,使用随机掩码,学习细粒度细节
- 交替训练:每个训练步骤交替使用两种损失,共享编码器参数
核心创新点2:高度灵活的多模态架构
设计动机:不同遥感模态的维度、分辨率、时间步数都不同,传统方法需要为每种模态设计专用编码器。
具体实现:
输入模态处理:
┌─────────────────────────────────────────────────────────┐
│ 多光谱光学 (Sentinel-2): 13波段, 10m分辨率 │
│ SAR数据 (Sentinel-1): 2波段, 10m分辨率 │
│ 高程数据 (SRTM DEM): 单波段, 30m分辨率 │
│ 天气数据 (ERA5): 多变量, 0.25°分辨率 │
│ 土地覆盖 (Dynamic World): 9类, 10m分辨率 │
│ 人口密度 (LandScan): 单波段, 1km分辨率 │
│ ...更多模态... │
└─────────────────────────────────────────────────────────┘
↓ 统一处理
┌─────────────────────────────────────────────────────────┐
│ 灵活的Patch Embedding │
│ - 可变patch size (4, 8, 16像素) │
│ - 自动适应不同分辨率 │
│ - 支持任意时间步数 │
└─────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────┐
│ Vision Transformer (ViT) │
│ - 三种规模: Nano (10.9M), Tiny, Base │
│ - 统一处理所有模态 │
└─────────────────────────────────────────────────────────┘核心创新点3:大规模多模态预训练数据集
设计动机:现有预训练数据集要么规模小,要么模态单一。
具体实现:
- 全球范围采样,覆盖多种地理区域
- 包含6+种遥感模态,时空对齐
- 专门为多任务学习设计,而非单一任务
🔬 实验验证
实验设置
数据集覆盖:
| 任务类型 | 数据集 | 模态 |
|---|---|---|
| 图像分类 | EuroSat, METER-ML, So2Sat, … | 光学 |
| 图像分割 | MADOS, Sen1Floods11, … | 光学, SAR |
| 时间序列分类 | CropHarvest, Breizhcrops | 光学+SAR+天气+地形 |
| 时间序列分割 | PASTIS | 光学时间序列 |
对比方法:16个SOTA预训练遥感模型,包括SatMAE、CROMA、AnySat、Presto等
核心结果
综合排名(Table 1):
| 模型 | 图像任务排名 | 时间序列排名 | 总体排名 | 支持模态数 |
|---|---|---|---|---|
| SatMAE | 5.2 | - | 5.2 | 1 |
| CROMA | 4.8 | - | 4.8 | 2 |
| Presto | - | 2.0 | 2.0 | 1 |
| AnySat | 7.5 | 3.0 | 5.3 | 多种 |
| Galileo-Base | 2.5 | 1.0 | 1.0 | 多种 |
关键发现:
- Galileo-Base在图像任务和时间序列任务上都排名第一
- 轻量级Galileo-Nano(10.9M参数)也优于许多更大的专用模型
- Galileo在11个基准测试中全面超越SOTA
消融实验
全局特征学习消融(Table 7):
| 掩码策略 | 目标空间 | 损失函数 | EuroSat (%) | CropHarvest (%) |
|---|---|---|---|---|
| 随机 | - | AllDisc | 17.40 | 82.12 |
| 结构化 | 空间+时间 | AllDisc | 89.50 | 88.72 |
| 结构化 | 空间+时间 | MSE | 87.20 | 86.02 |
局部特征学习消融(Table 8):
- PatchDisc(预测像素空间)在分割任务上显著优于AllDisc(预测深层特征)
组合策略消融(Table 9):
| 全局损失 | 局部损失 | 解码器 | MADOS mIoU | EuroSat OA |
|---|---|---|---|---|
| AllDisc | PatchDisc | 无 | 67.88 | 89.30 |
| AllDisc | AllDisc | 无 | 63.54 | 89.30 |
| MSE | MSE | 全部 | 62.36 | 88.70 |
可视化分析
Galileo学习到的特征具有以下特点:
- 全局分支:捕捉场景级语义(如"这是农田"、“这是城市”)
- 局部分支:保留像素级细节(如田块边界、道路边缘)
- 多尺度融合:在不同层同时保留粗粒度和细粒度信息
💭 深度评价
核心洞察
“一个模型统治所有"的可行性:Galileo证明了单一通用模型可以在多种遥感任务上超越专用模型,打破了"通用vs专用"的传统权衡
多尺度特征学习的关键性:遥感数据的尺度极端性要求模型必须同时学习全局语义和局部细节,单一尺度的学习策略必然失败
模态统一的实用价值:支持多种模态不仅是学术追求,更是实际应用的刚需——遥感从业者通常有多种数据源可用
技术贡献层次
| 层次 | 贡献 | 影响 |
|---|---|---|
| 算法层 | 双重全局-局部对比损失 | 解决多尺度特征学习问题 |
| 架构层 | 灵活的多模态ViT | 统一处理异构遥感数据 |
| 数据层 | 大规模多模态预训练数据 | 为通用模型提供训练基础 |
| 系统层 | 完整的模型家族 | 满足不同计算预算需求 |
优点(3个)
- 真正的通用性:不是"能处理多种数据但性能一般”,而是"能处理多种数据且性能最优"
- 实用的灵活性:可变patch size、多种模型规模、支持任意时间步数,满足实际部署需求
- 扎实的实验:16个基线模型、11个基准测试、数百次实验,结论可靠
局限性(3个)
- 计算成本:虽然有轻量级版本,但Base模型的预训练仍需大量计算资源
- 数据依赖:需要大规模、多模态、时空对齐的预训练数据,数据获取成本高
- 模态限制:虽然支持多种模态,但对超高光谱、激光雷达等模态的支持尚未验证
未来方向
- 更多模态扩展:将框架扩展到激光雷达、超高光谱、视频等模态
- 下游任务适配:探索更高效的微调策略,降低应用门槛
- 可解释性增强:理解模型如何融合不同模态和尺度的信息
- 实时部署优化:针对边缘设备进行模型压缩和加速
📝 总结
Galileo代表了遥感基础模型发展的重要里程碑。它不仅在技术上实现了多模态、多尺度特征学习的统一,更在实践上证明了"一个模型解决多种任务"的可行性。
核心贡献在于三个方面:(1)提出双重全局-局部自监督学习算法,巧妙解决了遥感数据的多尺度特性;(2)设计灵活的多模态架构,统一处理异构遥感数据;(3)构建大规模预训练数据集,为通用模型奠定基础。
实际意义在于,Galileo为遥感从业者提供了一个"开箱即用"的强大工具——无需为每个任务训练专用模型,一个Galileo就能处理从作物分类到洪水检测的多种应用。这种通用性对于资源有限的发展中国家尤其重要,因为它们可能无法为每个任务都训练专用模型。
学术价值在于,Galileo的双重损失设计为自监督学习提供了新思路——不同粒度的特征需要不同的学习策略,而不是"一刀切"的方法。这一洞察可能启发其他领域的多尺度表示学习研究。
参考文献
@inproceedings{pmlr-v267-tseng25a,
title = {Galileo: Learning Global & Local Features of Many Remote Sensing Modalities},
author = {Tseng, Gabriel and Fuller, Anthony and Reil, Marlena and Herzog, Henry and Beukema, Patrick and Bastani, Favyen and Green, James R and Shelhamer, Evan and Kerner, Hannah and Rolnick, David},
booktitle = {Proceedings of the 42nd International Conference on Machine Learning},
pages = {60280--60300},
year = {2025},
volume = {267},
series = {Proceedings of Machine Research},
publisher = {PMLR}
}