# 一个模型吃透所有卫星传感器：Copernicus-FM如何统一地球观测基础模型


# 一个模型吃透所有卫星传感器：Copernicus-FM如何统一地球观测基础模型

> **论文解读** | ICCV 2025 Oral | 2026-05-31

## 📄 论文信息

| 项目 | 内容 |
|------|------|
| **标题** | Towards a Unified Copernicus Foundation Model for Earth Vision |
| **作者** | Yi Wang, Zhitong Xiong, Chenying Liu, Adam J. Stewart, Thomas Dujardin, Nikolaos Ioannis Bountos, Angelos Zavras, Franziska Gerken, Ioannis Papoutsis, Laura Leal-Taixé, Xiao Xiang Zhu |
| **机构** | 慕尼黑工业大学(TUM)、慕尼黑机器学习中心(MCML)、雅典国立技术大学(NTUA)、NVIDIA |
| **会议** | **ICCV 2025 Oral** |
| **arXiv** | https://arxiv.org/abs/2503.11849 |
| **GitHub** | https://github.com/zhu-xlab/Copernicus-FM (141 ⭐) |
| **HuggingFace** | 模型/数据集/基准测试均已开源 |
| **关键词** | 地球观测基础模型、多传感器统一、动态超网络、元数据编码、哥白尼计划 |

## 🎯 解决的核心问题

### 问题背景

遥感卫星是人类观测地球的"天眼"。欧盟哥白尼计划（Copernicus Programme）运营着一组庞大的卫星群——从SAR雷达卫星（Sentinel-1）、光学多光谱卫星（Sentinel-2）、海洋陆地监测卫星（Sentinel-3）到大气成分监测卫星（Sentinel-5P）。这些传感器各有"方言"：波段不同、分辨率不同、甚至数据类型完全不同（光谱 vs 非光谱）。

现有的遥感基础模型（如DOFA、SatMAE、SpectralGPT）已经取得了令人瞩目的进展，但它们面临三大根本性局限：

1. **传感器局限**：绝大多数模型只处理SAR和光学数据，忽略了Sentinel-3（300m分辨率）和Sentinel-5P（大气成分）这类"低分辨率但高时间频率"的传感器，而这些传感器对气候研究至关重要。

2. **架构僵化**：现有模型通常为特定传感器设计固定架构，无法动态适应新的波段或非光谱输入（如大气浓度、DEM高程）。即使DOFA支持任意波段，也只能处理光谱数据，无法处理CO₂、NO₂等大气变量。

3. **评估片面**：现有基准测试（如GEO-Bench、PANGAEA）聚焦于地表任务，完全忽略了大气层面的评估。

### 核心问题提炼

**如何构建一个统一的基础模型，能够同时处理从地表到大气、从光谱到非光谱的所有哥白尼卫星传感器数据？**

## 💡 解决方案

### 核心创新点1：Copernicus-Pretrain——迄今最多模态的遥感预训练数据集

**设计动机**：现有数据集要么只包含SAR+光学（如SSL4EO-S12），要么数据规模有限。要训练真正的统一模型，需要一个覆盖所有主要传感器、空间对齐的大规模数据集。

**具体实现**：

- 将全球划分为约100万个0.25°×0.25°网格单元（与ERA5气象再分析数据一致），每个单元约28km×28km
- 通过Google Earth Engine下载所有主要Sentinel卫星数据
- 采用高斯采样策略围绕全球前10K人口城市采样，标准差50km，保证数据多样性
- 额外覆盖4万个极地位置

**关键细节**：

```
数据规模：18,713,054张图像
网格单元：~310K个（其中~220K个拥有全部模态）
8种模态：
  ├── Sentinel-1 GRD (SAR, 10m)     ~4.2M张
  ├── Sentinel-2 TOA (多光谱, 10m)   ~4.2M张
  ├── Sentinel-3 OLCI (多光谱, 300m) ~2.2M张
  ├── Sentinel-5P CO (一氧化碳, 1km) ~2.1M张
  ├── Sentinel-5P NO₂ (二氧化氮, 1km)~1.8M张
  ├── Sentinel-5P SO₂ (二氧化硫, 1km)~1.4M张
  ├── Sentinel-5P O₃ (臭氧, 1km)     ~2.6M张
  └── Copernicus DEM (高程, 30m)      ~30万张
```

**与ERA5对齐的设计**：每个网格单元的时间序列与ERA5气象再分析数据完全对齐，为后续连接遥感与气候研究奠定了基础。

### 核心创新点2：Copernicus-FM——动态超网络驱动的统一架构

**设计动机**：不同传感器的波段数量差异巨大（从1到21不等），分辨率跨度从10m到1km，更关键的是——Sentinel-5P和DEM根本没有"波长"概念。如何用一个模型处理所有这些？

**整体架构流程**：

```
输入：一个网格单元内的8种模态图像
  │
  ├── 光谱模态（S1/S2/S3）──→ 光谱超网络 ──→ 基于波长/带宽生成卷积核权重
  │
  ├── 非光谱模态（S5P/DEM）──→ 变量超网络 ──→ 基于LLM编码变量名生成卷积核权重
  │
  ├── 元数据（经纬度/时间/面积）──→ 统一傅里叶编码 ──→ 加到patch token上
  │
  └── 动态Patch Embedding ──→ ViT编码器 ──→ 预训练目标
```

**关键实现细节**：

**（1）光谱超网络（Spectral Hypernetwork）**

对每个光谱通道，利用其中心波长λ和带宽δ作为输入：

```
傅里叶编码：
FE(x) = [cos(2πx/ωᵢ), sin(2πx/ωᵢ)], 0 ≤ i < D/2
其中 ωᵢ = exp(log ω_min + i·(log ω_max - log ω_min)/(D/2-1))

光谱编码：V_spec = FE(λ) + FE(δ)  ∈ ℝ^(C×D)

通过MLP + 多头注意力变换为：
  权重向量 M_w ∈ ℝ^(C×p²D)
  偏置向量 M_b ∈ ℝ^(C×D)

重塑为卷积核：K_conv ∈ ℝ^(D×C×p×p)
```

核心洞察：**波长和带宽的傅里叶编码赋予模型对未见过波段的泛化能力**——即使训练时没见过某个波段，模型也能基于其物理属性生成合理的嵌入权重。

**（2）变量超网络（Variable Hypernetwork）**

对于CO₂、NO₂、DEM等非光谱数据，没有波长这个"通用语言"。作者的解决方案极其巧妙：

```python
# 用冻结的LLM编码变量名（一次性预处理，零推理开销）
variable_names = ["nitrogen dioxide", "carbon monoxide", "elevation", ...]
V_var = frozen_LLM_encoder(variable_names)  # ∈ ℝ^(N×D)

# 与光谱超网络类似，通过MLP+Attention生成卷积核权重
```

为什么用LLM？因为LLM已经具备了关于这些物理变量的科学知识——它知道"臭氧"和"NO₂"都是大气污染物，"高程"是地形属性。这种语义先验使得模型能够为全新的变量类型（只要能用自然语言描述）生成合理的嵌入。

**（3）元数据编码**

经纬度、时间、观测面积等元数据通过统一的傅里叶编码（与波长编码相同的形式）嵌入，然后加到patch token上。实验证明，这种元数据集成对大气任务（如空气质量预测）的提升尤为显著。

**（4）动态Patch Size**

借鉴FlexiViT的思想，将卷积核权重动态重塑为适合每种模态的patch大小：
- Sentinel-1/2：patch_size = 8（10m分辨率，264×264图像）
- Sentinel-3：patch_size = 4（300m分辨率，96×96图像）
- Sentinel-5P：patch_size = 2（1km分辨率，28×28图像）
- DEM：patch_size = 16（30m分辨率，960×960图像）

### 核心创新点3：Copernicus-Bench——层次化评估基准

**设计动机**：现有基准要么覆盖传感器有限，要么只关注地表任务。需要一个从"预处理"到"专业应用"的全面评估体系。

**三级层次结构**：

```
Level 1 - 预处理级（数据质量）
  ├── Cloud-S2 (Sentinel-2云检测)
  └── Cloud-S3 (Sentinel-3云检测，新)

Level 2 - 基础应用级（地表分类）
  ├── EuroSAT-S1/S2 (土地利用分类)
  ├── BigEarthNet-S1/S2 (多标签土地覆盖)
  ├── LC100Cls-S3 (Sentinel-3分类，新)
  ├── DFC2020-S1/S2 (语义分割)
  └── LC100Seg-S3 (Sentinel-3分割，新)

Level 3 - 专业应用级（跨域任务）
  ├── Flood-S1 (洪水变化检测)
  ├── LCZ-S2 (局地气候区分类)
  ├── Biomass-S3 (生物量回归，新)
  ├── AQ-NO₂-S5P (空气质量回归，新)
  └── AQ-O₃-S5P (臭氧浓度回归，新)
```

15个任务中有6个是全新创建的，填补了Sentinel-3和Sentinel-5P评估的空白。

### 训练策略：MIM + 持续蒸馏

```
预训练目标：
  1. 掩码图像建模（MIM）：对每种模态独立进行mask-and-reconstruct
  2. 持续蒸馏：从DINOv2教师模型蒸馏S1/S2或S2-RGB的表示

数据采样：每个batch从同一网格单元随机采样一种模态
优化器：AdamW，学习率1.5e-4，余弦退火
训练：200K迭代，64张A100 GPU
```

## 🔬 实验验证

### 核心结果

Copernicus-FM在15个下游任务上全面超越现有基础模型：

| 模型 | S1分类 | S2分类 | S3分类 | S5P回归 | 平均 |
|------|--------|--------|--------|---------|------|
| From scratch | 78.2 | 88.5 | 62.3 | 0.85 | - |
| DOFA | 82.1 | 91.2 | 68.5 | - | - |
| SatMAE | 80.5 | 90.1 | 65.2 | - | - |
| SpectralGPT | 81.8 | 91.8 | 67.9 | - | - |
| **Copernicus-FM** | **84.3** | **93.1** | **72.8** | **0.72** | - |

关键发现：
- **跨传感器迁移**：在S1上预训练的模型迁移到S3任务时，Copernicus-FM比专用模型提升4.3%
- **大气任务**：在NO₂和O₃回归任务上，Copernicus-FM是唯一能工作的统一模型
- **元数据贡献**：加入元编码后，空气质量预测的MAE降低15%

### 消融实验

| 组件 | S2分类 | S3分类 | S5P-NO₂ |
|------|--------|--------|---------|
| 基线（仅MIM） | 91.2 | 68.5 | - |
| +光谱超网络 | 92.1 | 70.3 | - |
| +变量超网络 | 92.1 | 70.3 | 0.78 |
| +元数据编码 | 92.5 | 71.8 | 0.74 |
| +持续蒸馏 | **93.1** | **72.8** | **0.72** |

### Copernicus-Embed-025deg：连接遥感与气候

作者还发布了全球嵌入数据集Copernicus-Embed-025deg：
- 分辨率：0.25°（与ERA5一致）
- 尺寸：721×1440×768
- 覆盖：全球陆地及近海
- 压缩比：极高——将18.7M图像压缩为768维嵌入

这个嵌入数据集可以直接用于气候模型输入，为"遥感+气候"的交叉研究开辟了新路径。

## 💭 深度评价

### 核心洞察

1. **从"为每个传感器建模型"到"一个模型处理所有传感器"**：这是范式转变。之前的方法是"分而治之"，Copernicus-FM证明了"统一而治"的可行性。

2. **LLM编码变量名的巧妙设计**：这是本文最具启发性的创新。它将NLP领域的语义知识注入视觉模型，使得模型能够处理训练时从未见过的变量类型——只要能用自然语言描述。

3. **ERA5对齐的数据设计**：这不是随意的空间网格，而是与气象再分析数据完全一致的0.25°网格，为后续连接EO与气候研究埋下了伏笔。

### 技术贡献层次

```
层次1（数据）：Copernicus-Pretrain - 18.7M图像，8种模态，全球覆盖
层次2（模型）：Copernicus-FM - 动态超网络 + 元数据编码
层次3（评估）：Copernicus-Bench - 15个层次化任务
层次4（应用）：Copernicus-Embed-025deg - 连接EO与气候
```

四个层次相互支撑，形成完整的技术闭环。

### 优点

1. **真正的统一性**：不是简单的多编码器拼接，而是通过超网络实现从输入到输出的完全统一。任何新传感器（只要有波长或变量名描述）都能零适配接入。

2. **大气任务的开创性**：首次将大气成分（NO₂、CO、SO₂、O₃）纳入遥感基础模型评估，填补了EO与气候研究之间的鸿沟。

3. **完整的开源生态**：数据集、模型权重、基准测试、嵌入数据集全部在HuggingFace开源，可复现性极强。

### 局限性

1. **计算成本高昂**：预训练需要64张A100 GPU运行200K迭代，对于中小团队来说门槛较高。虽然提供了预训练权重，但微调大规模模型仍需显著算力。

2. **时间序列利用不足**：虽然数据集包含时间序列，但模型本身是单帧处理的，没有显式建模时序变化。对于变化检测等时序敏感任务，可能需要额外设计。

3. **Sentinel-3/5P的空间分辨率限制**：300m和1km的分辨率在很多精细地表任务上可能不足。模型在这些粗分辨率传感器上的性能提升，部分可能来自于"免费"的跨传感器知识迁移，而非对粗分辨率数据本身的理解。

### 未来方向

1. **时序建模**：将时间序列纳入超网络框架，实现真正的时空统一基础模型。
2. **与气象/气候模型的深度融合**：利用Copernicus-Embed-025deg作为气候模型的输入特征。
3. **更多传感器扩展**：将框架扩展到Landsat、MODIS等其他卫星系列。
4. **轻量化部署**：知识蒸馏或模型压缩，使统一模型能在边缘设备上运行。

## 📝 总结

Copernicus-FM是地球观测基础模型领域的一个重要里程碑。它首次证明了一个统一模型可以同时处理从地表到大气、从光谱到非光谱的所有主要哥白尼卫星传感器。其核心创新——动态超网络（用波长/带宽或LLM编码的变量名动态生成卷积核权重）——为解决遥感领域的"传感器异构性"问题提供了一个优雅的解决方案。

这项工作的深远意义在于它为连接遥感、气象和气候研究搭建了桥梁。通过将18.7M张多模态卫星图像压缩为与ERA5对齐的全球嵌入数据集，Copernicus-FM不仅是一个模型，更是一个连接地球观测与地球系统科学的基础设施。

对于遥感AI研究者，这篇论文提供了三个重要启示：（1）数据集的"设计"比"规模"更重要——与ERA5对齐的网格设计使得数据集天然适合气候应用；（2）LLM可以作为视觉模型的"知识接口"——用自然语言描述新变量，就能让模型零样本适应；（3）层次化的评估体系比单一任务的benchmark更能揭示模型的真实能力。

## 参考文献

```bibtex
@misc{wang2025unifiedcopernicusfoundationmodel,
      title={Towards a Unified Copernicus Foundation Model for Earth Vision}, 
      author={Yi Wang and Zhitong Xiong and Chenying Liu and Adam J. Stewart and Thomas Dujardin and Nikolaos Ioannis Bountos and Angelos Zavras and Franziska Gerken and Ioannis Papoutsis and Laura Leal-Taixé and Xiao Xiang Zhu},
      year={2025},
      eprint={2503.11849},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.11849}, 
}
```