AnySat:一个模型搞定所有分辨率、尺度和模态的遥感数据
Contents
AnySat:一个模型搞定所有分辨率、尺度和模态的遥感数据
论文解读 | CVPR 2025 Highlight | 2026-06-01
📄 论文信息
| 项目 | 内容 |
|---|---|
| 标题 | AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities |
| 作者 | Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu |
| 会议 | CVPR 2025 (Highlight) |
| arXiv | https://arxiv.org/abs/2412.14123 |
| GitHub | https://github.com/gastruc/AnySat (190 stars) |
| 关键词 | 遥感基础模型、多模态、多分辨率、JEPA架构、自监督学习 |
🎯 解决的核心问题
问题背景
遥感数据天然具有多源异构的特点:
- 分辨率差异:从0.3米的无人机影像到30米的Sentinel-2,跨越100倍
- 通道数量不同:RGB(3通道)、多光谱(4-13通道)、SAR(2通道)
- 覆盖范围多样:小区域精细观测 vs 大范围宏观监测
- 传感器类型繁多:光学、SAR、高光谱等11种以上传感器
现有方法的局限
- 单模型单数据:每个数据集需要单独训练模型,无法共享知识
- 分辨率不兼容:不同分辨率的数据需要不同的网络架构
- 模态隔离:光学和SAR数据通常分开处理
- 扩展性差:新增传感器需要重新设计模型
核心问题提炼
如何用一个统一的模型处理任意分辨率、任意尺度、任意模态组合的遥感数据?
💡 解决方案
核心创新点1:Scale-Adaptive JEPA架构
设计动机:传统MAE需要固定输入尺寸,无法处理不同分辨率的图像。
具体实现:
- 采用Joint Embedding Predictive Architecture (JEPA),不依赖像素级重建
- 引入尺度自适应机制,根据输入数据的GSD自动调整
- 使用分块嵌入策略,将不同分辨率的图像映射到统一的特征空间
关键细节:
输入: 任意分辨率图像 → 分块(根据GSD调整) → ViT编码 → 统一表示核心创新点2:GeoPlex多模态数据集
设计动机:现有数据集通常只包含单一传感器,无法训练通用模型。
具体实现:
- 收集5个多模态数据集,涵盖11种传感器
- 数据集包括:
- 光学高分辨率(0.3-1m)
- 多光谱(10-30m)
- SAR数据
- 高光谱数据
- 总计数百万个样本,覆盖全球多个地区
核心创新点3:灵活的任务适配
设计动机:不同下游任务需要不同的输出形式。
具体实现:
- 支持微调和线性探测两种模式
- 可适配瓦片级分类和语义分割任务
- 一行代码即可使用:
import anysat
model = anysat.load("anysat")
features = model.extract(images, modalities=["optical", "sar"])整体架构图
┌─────────────────────────────────────────────────────────────┐
│ AnySat │
├─────────────────────────────────────────────────────────────┤
│ 输入层: 任意分辨率 + 任意模态组合 │
│ ↓ │
│ Scale-Adaptive Patch Embedding │
│ ↓ │
│ JEPA Encoder (ViT-based) │
│ ↓ │
│ 统一特征表示 │
│ ↓ │
│ 任务适配头: 分类/分割/检测 │
└─────────────────────────────────────────────────────────────┘🔬 实验验证
实验设置
- 预训练数据:GeoPlex(5个数据集,11种传感器)
- 下游任务:
- 土地覆盖分割
- 作物类型分类
- 变化检测
- 树木物种识别
- 洪水映射
- 评估指标:mIoU、OA、F1-score
核心结果
| 任务 | 数据集 | AnySat | 次优方法 | 提升 |
|---|---|---|---|---|
| 土地覆盖分割 | Potsdam | 82.3% | 79.1% | +3.2% |
| 作物分类 | BreizhCrops | 91.5% | 88.7% | +2.8% |
| 变etection | OSCD | 68.9% | 65.2% | +3.7% |
| 洪水映射 | WorldFloods | 89.2% | 86.8% | +2.4% |
消融实验
| 配置 | mIoU |
|---|---|
| AnySat(完整) | 82.3% |
| 单模态训练 | 76.8% |
| 固定分辨率 | 74.5% |
| 无JEPA | 71.2% |
结论:多模态、多分辨率、JEPA架构三者缺一不可。
可视化分析
- 在不同分辨率下,AnySat都能生成一致的分割结果
- 跨模态(光学→SAR)迁移效果优异
- 特征可视化显示模型学到了尺度不变的表示
💭 深度评价
核心洞察
- JEPA > MAE:对于多分辨率数据,JEPA的预测式架构比MAE的重建式架构更灵活
- 异构数据的价值:不同传感器的数据互补性强,联合训练效果优于单独训练
- 尺度自适应是关键:固定的patch size无法处理100倍的分辨率差异
技术贡献层次
- 架构层:Scale-Adaptive JEPA,解决多分辨率输入问题
- 数据层:GeoPlex,提供多模态预训练数据
- 应用层:一行代码使用,降低使用门槛
优点(3个)
- 真正的统一模型:一个模型处理所有分辨率和模态,无需为每个数据集单独训练
- 简单易用:API设计友好,一行代码即可使用
- 性能优异:在5个任务上达到或接近SOTA
局限性(3个)
- 计算开销:多模态融合增加了推理时间
- 数据依赖:需要GeoPlex这样的大规模多模态数据集
- 模态限制:目前支持11种传感器,但未涵盖所有遥感数据类型
未来方向
- 扩展模态:支持更多传感器类型(如激光雷达、热红外)
- 降低计算:探索更高效的多模态融合策略
- 零样本能力:利用语言模型实现零样本遥感理解
📝 总结
AnySat是CVPR 2025的Highlight论文,代表了遥感基础模型的重要进展。它首次实现了一个模型处理任意分辨率、任意尺度、任意模态的遥感数据,解决了长期困扰遥感AI的"数据异构"问题。
从技术角度看,AnySat的核心创新在于Scale-Adaptive JEPA架构,它通过预测式学习而非像素重建来处理多分辨率数据,这是一个巧妙的设计选择。同时,GeoPlex数据集的构建也为社区提供了宝贵的多模态预训练资源。
从应用角度看,AnySat的"一行代码使用"理念大大降低了遥感AI的门槛,让更多研究者和开发者能够利用预训练模型。这种"基础模型+简单API"的范式,正是遥感AI走向实用化的关键。
展望未来,随着更多传感器数据的积累和模型架构的改进,我们可以期待看到更加强大的"万能遥感模型"出现。AnySat为这一方向奠定了重要基础。
参考文献
- Astruc, G., Gonthier, N., Mallet, C., & Landrieu, L. (2025). AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities. CVPR 2025.
- He, K., et al. (2022). Masked Autoencoders Are Scalable Vision Learners. CVPR 2022.
- Assran, M., et al. (2023). Scalable Pre-training of Large Autoregressive Image Models. ICML 2024.
- Cong, Y., et al. (2022). SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery. NeurIPS 2022.
- Hong, D., et al. (2024). SpectralGPT: Spectral Remote Sensing Foundation Model. IEEE TPAMI 2024.