# 支持任意波段、任意分辨率！AOM：通用遥感基础模型


# 支持任意波段、任意分辨率！AOM：通用遥感基础模型

> **论文解读** | AAAI 2026 | 2026-06-01

## 📄 论文信息

| 项目 | 内容 |
|------|------|
| **标题** | Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing |
| **作者** | Xuyang Li, Chenyu Li, Danfeng Hong |
| **会议** | AAAI 2026 |
| **arXiv** | https://arxiv.org/abs/2512.17224 |
| **GitHub** | 暂未开源 |
| **关键词** | 遥感基础模型、任意波段、任意分辨率、多尺度自适应、通道独立tokenizer |

## 🎯 解决的核心问题

### 问题背景
遥感图像与自然图像有本质区别：遥感图像通常包含多个光谱通道（如Sentinel-2有13个波段，Landsat-8有11个波段），且空间分辨率差异巨大（从0.1米到100米）。现有的遥感基础模型（RSFMs）通常在固定的波段配置和空间分辨率上预训练，这导致它们在实际应用中面临严重局限。

### 现有方法的局限
1. **波段固定问题**：现有模型（如SatMAE、SpectralGPT）将多光谱数据作为整体输入处理，当遇到波段缺失或新增波段时，性能严重下降。
2. **跨传感器迁移困难**：不同传感器（如Sentinel-2与Landsat）的波段配置不同，导致模型难以直接迁移。
3. **尺度适应性差**：现有模型采用单一尺度的patch embedding，无法同时捕获高分辨率的纹理细节和低分辨率的全局上下文。

### 核心问题提炼
如何构建一个能够适应**任意波段组合**、**任意传感器类型**、**任意空间分辨率**的通用遥感基础模型？

## 💡 解决方案

### 核心创新点1：Spectrum-independent Tokenizer (SiTok)

**设计动机**：传统方法将多光谱图像作为3D张量处理，波段维度与空间维度耦合，导致波段变化时需要重新训练。

**具体实现**：
- 对每个光谱通道独立进行tokenization
- 为每个token添加channel index编码
- 支持任意波段组合和缺失波段场景

**关键细节**：
```
输入: 多光谱图像 [C, H, W] (C为波段数)
处理: 对每个通道独立分块 → [C, N, P, P] (N为patch数，P为patch大小)
编码: 添加channel index embedding
输出: 通道独立的token序列
```

### 核心创新点2：Multi-scale Adaptive Patch Embedding (MAPE)

**设计动机**：遥感图像分辨率跨度大（0.1m-100m），单一尺度的patch embedding无法同时捕获细粒度纹理和全局上下文。

**具体实现**：
- 维护多尺度卷积核库（如3×3, 5×5, 7×7等）
- 通过伪逆调整动态适配不同分辨率
- 实现0.1m-100m跨分辨率特征提取

**关键细节**：
```
卷积核库: {K_1, K_2, ..., K_m} (不同尺度)
输入分辨率: r
选择策略: 根据r选择最合适的卷积核K_i
动态调整: 通过伪逆计算适配权重
```

### 核心创新点3：通道级掩码重建预训练

**设计动机**：传统MAE对整个patch进行掩码，忽略了通道间的光谱关系。

**具体实现**：
- 采用75%掩码率的channel-wise MAE
- 对每个通道独立进行掩码和重建
- 捕获细粒度光谱-空间关系

**关键细节**：
```
掩码策略: 对每个通道独立随机掩码75%
重建目标: 重建被掩码的通道token
损失函数: MSE损失
优势: 学习通道间的光谱相关性
```

### 核心创新点4：多尺度语义对齐机制

**设计动机**：不同尺度的patch应具有语义一致性。

**具体实现**：
- 使用InfoNCE损失约束不同patch尺度的全局语义一致性
- 增强跨尺度泛化能力

**关键细节**：
```
输入: 同一图像的不同尺度patch
特征提取: 通过共享backbone提取特征
对齐损失: InfoNCE损失约束语义一致性
效果: 增强跨尺度泛化能力
```

### 整体架构图

```
输入: 多光谱图像 [C, H, W]
        ↓
┌─────────────────────────────────────┐
│  Spectrum-independent Tokenizer     │
│  (SiTok)                            │
│  - 通道独立tokenization             │
│  - 添加channel index编码            │
└─────────────────────────────────────┘
        ↓
┌─────────────────────────────────────┐
│  Multi-scale Adaptive Patch         │
│  Embedding (MAPE)                   │
│  - 多尺度卷积核库                   │
│  - 伪逆调整动态适配                 │
└─────────────────────────────────────┘
        ↓
┌─────────────────────────────────────┐
│  通道级掩码重建预训练               │
│  - 75%掩码率                        │
│  - Channel-wise MAE                 │
└─────────────────────────────────────┘
        ↓
┌─────────────────────────────────────┐
│  多尺度语义对齐                     │
│  - InfoNCE损失                      │
│  - 跨尺度语义一致性                 │
└─────────────────────────────────────┘
        ↓
输出: 通用遥感特征表示
```

## 🔬 实验验证

### 实验设置
- **预训练数据**：~1.56M张遥感图像
  - Sentinel-2: 1.004M张，10-60m分辨率
  - Landsat-8: 146K张，15-100m分辨率
  - 其他高分辨率数据
- **下游任务**：语义分割、目标检测、场景分类
- **基线方法**：SatMAE、SpectralGPT、Scale-MAE等

### 核心结果

| 方法 | 任意波段 | 任意分辨率 | 跨传感器 |
|------|----------|------------|----------|
| SatMAE | ✗ | ✗ | ✗ |
| SpectralGPT | ✗ | ✗ | ✗ |
| Scale-MAE | ✗ | ✓ | ✗ |
| **AOM** | **✓** | **✓** | **✓** |

### 消融实验
1. **SiTok的效果**：在波段缺失场景下，性能提升5-8%
2. **MAPE的效果**：在跨分辨率场景下，性能提升3-6%
3. **通道级掩码**：在光谱关系建模上，性能提升2-4%
4. **多尺度对齐**：在跨尺度泛化上，性能提升2-3%

### 可视化分析
- **波段适应性**：AOM在不同波段组合下保持稳定性能
- **分辨率适应性**：AOM在0.1m-100m分辨率范围内均有效
- **跨传感器迁移**：AOM可直接在不同传感器间迁移，无需微调

## 💭 深度评价

### 核心洞察
AOM的核心洞察在于：**遥感图像的"任意性"（任意波段、任意分辨率）是遥感数据的本质特性，而非缺陷**。传统方法试图通过固定配置来简化问题，但忽略了遥感数据的多样性和复杂性。AOM通过创新的tokenizer和patch embedding设计，将这种"任意性"转化为模型的优势。

### 技术贡献层次
1. **架构层**：SiTok和MAPE的设计，解决了波段和分辨率的任意性问题
2. **训练层**：通道级掩码预训练，捕获光谱-空间关系
3. **对齐层**：多尺度语义对齐，增强跨尺度泛化能力

### 优点
1. **通用性强**：支持任意波段组合、任意分辨率、任意传感器
2. **设计优雅**：SiTok和MAPE的设计简洁而有效
3. **实用价值高**：可直接应用于实际遥感场景，无需针对特定传感器重新训练

### 局限性
1. **计算复杂度**：多尺度设计增加了计算开销
2. **预训练数据规模**：需要大规模多源遥感数据
3. **开源状态**：目前尚未开源，可复现性待验证

### 未来方向
1. **扩展至更多传感器**：如SAR、高光谱等
2. **优化计算效率**：减少多尺度设计的计算开销
3. **开源与社区建设**：促进遥感基础模型的发展

## 📝 总结

AOM（Any-Optical-Model）是AAAI 2026的一篇重要论文，提出了一个能够适应任意波段组合、任意传感器类型、任意空间分辨率的通用遥感基础模型。该论文的核心创新在于Spectrum-independent Tokenizer（SiTok）和Multi-scale Adaptive Patch Embedding（MAPE）的设计，这两个模块分别解决了波段任意性和分辨率任意性的挑战。

从技术角度看，AOM的设计非常优雅：SiTok通过通道独立tokenization和channel index编码，实现了对任意波段组合的支持；MAPE通过多尺度卷积核库和伪逆调整，实现了对任意分辨率的适配。这两个模块的结合，使得AOM能够真正成为一个"通用"的遥感基础模型。

从实用角度看，AOM具有很高的应用价值。在实际遥感应用中，数据来源多样（不同传感器）、分辨率差异大、波段配置不一，AOM能够直接处理这些多样化的数据，无需针对特定传感器重新训练，大大降低了应用门槛。

总的来说，AOM为遥感基础模型的发展提供了一个新的思路：**不是简化数据以适应模型，而是设计模型以适应数据的多样性**。这一思路对于遥感AI的发展具有重要的启示意义。

## 参考文献

1. Li, X., Li, C., & Hong, D. (2026). Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing. AAAI 2026.
2. Cong, Y., et al. (2022). SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery. NeurIPS 2022.
3. Hong, D., et al. (2023). SpectralGPT: Spectral Remote Sensing Foundation Model. IEEE TPAMI.
4. Li, Z., et al. (2023). Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning. ICCV 2023.