自监督学习 - Tag - 堂堂一跑堂

AnySat：一个模型搞定所有分辨率、尺度和模态的遥感数据

Mon, 01 Jun 2026 12:00:00 +0800

AnySat：一个模型搞定所有分辨率、尺度和模态的遥感数据

论文解读 | CVPR 2025 Highlight | 2026-06-01

📄 论文信息

项目	内容
标题	AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities
作者	Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu
会议	CVPR 2025 (Highlight)
arXiv	https://arxiv.org/abs/2412.14123
GitHub	https://github.com/gastruc/AnySat (190 stars)
关键词	遥感基础模型、多模态、多分辨率、JEPA架构、自监督学习

🎯 解决的核心问题

问题背景

遥感数据天然具有多源异构的特点：

分辨率差异：从0.3米的无人机影像到30米的Sentinel-2，跨越100倍
通道数量不同：RGB（3通道）、多光谱（4-13通道）、SAR（2通道）
覆盖范围多样：小区域精细观测 vs 大范围宏观监测
传感器类型繁多：光学、SAR、高光谱等11种以上传感器

现有方法的局限

单模型单数据：每个数据集需要单独训练模型，无法共享知识
分辨率不兼容：不同分辨率的数据需要不同的网络架构
模态隔离：光学和SAR数据通常分开处理
扩展性差：新增传感器需要重新设计模型

核心问题提炼

如何用一个统一的模型处理任意分辨率、任意尺度、任意模态组合的遥感数据？

💡 解决方案

核心创新点1：Scale-Adaptive JEPA架构

设计动机：传统MAE需要固定输入尺寸，无法处理不同分辨率的图像。

具体实现：

采用Joint Embedding Predictive Architecture (JEPA)，不依赖像素级重建
引入尺度自适应机制，根据输入数据的GSD自动调整
使用分块嵌入策略，将不同分辨率的图像映射到统一的特征空间

关键细节：

Galileo：一个模型搞定遥感多模态多尺度，ICML 2025 通用基础模型新突破

Mon, 01 Jun 2026 12:00:00 +0800

Galileo：一个模型搞定遥感多模态多尺度，ICML 2025 通用基础模型新突破

论文解读 | ICML 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	Galileo: Learning Global & Local Features of Many Remote Sensing Modalities
作者	Gabriel Tseng, Anthony Fuller, Marlena Reil, Henry Herzog, Patrick Beukema, Favyen Bastani, James R. Green, Evan Shelhamer, Hannah Kerner, David Rolnick
会议	ICML 2025 (Proceedings of the 42nd International Conference on Machine Learning)
arXiv	https://arxiv.org/abs/2502.09356
GitHub	https://github.com/nasaharvest/galileo (⭐ 177)
关键词	遥感基础模型, 多模态融合, 自监督学习, 多尺度特征, 掩码建模, 通用模型

🎯 解决的核心问题

问题背景

遥感数据具有两大独特挑战，使得直接套用计算机视觉方法变得困难：

MAESTRO：多模态多时相多光谱遥感自监督学习的\"指挥家\"

Mon, 01 Jun 2026 12:00:00 +0800

MAESTRO：多模态多时相多光谱遥感自监督学习的"指挥家"

论文解读 | WACV 2026 | 2026-06-01

📄 论文信息

项目	内容
标题	MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data
作者	Antoine Labatie, Michael Vaccaro, Nina Lardiere, Anatol Garioud, Nicolas Gonthier
会议	WACV 2026 (IEEE/CVF Winter Conference on Applications of Computer Vision)
arXiv	https://arxiv.org/abs/2508.10894
GitHub	https://github.com/ignf/maestro
关键词	自监督学习, 掩码自编码器, 多模态融合, 多时相分析, 多光谱遥感, 地球观测

🎯 解决的核心问题

问题背景：遥感数据的"三多"挑战

地球观测（Earth Observation, EO）数据具有独特的"三多"特性：

多模态：光学（Sentinel-2）、SAR（Sentinel-1）、高光谱、DEM等不同传感器
多时相：同一区域在不同时间点的观测，蕴含丰富的时序变化信息
多光谱：单个传感器就有多个光谱波段（如Sentinel-2有13个波段）

这些特性使得直接将自然图像领域的自监督学习方法（如MAE）迁移到遥感领域存在根本性挑战。

现有方法的局限

方法类型	局限性
单模态MAE	忽略多模态互补信息，无法充分利用SAR、DEM等数据
简单拼接融合	将所有模态/时相强行拼接，导致异质数据相互干扰
晚期融合	各模态独立编码后融合，丢失跨模态交互信息
统一tokenizer	用同一套tokenizer处理所有模态，忽略传感器特性差异

核心问题提炼

如何设计一个统一的自监督学习框架，能够高效地融合多模态、多时相、多光谱的遥感数据，同时保持计算效率？

SatDINO：当DINO遇上遥感——对比学习在卫星图像预训练中的深度探索

Mon, 01 Jun 2026 12:00:00 +0800

SatDINO：当DINO遇上遥感——对比学习在卫星图像预训练中的深度探索

论文解读 | arXiv 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	SatDINO: A Deep Dive into Self-Supervised Pretraining for Remote Sensing
作者	Jakub Straka et al.
会议	arXiv 2025
arXiv	https://arxiv.org/abs/2508.21402
GitHub	https://github.com/strakaj/SatDINO
关键词	自监督学习、DINO、对比学习、GSD编码、遥感预训练

🎯 解决的核心问题

问题背景

遥感领域存在一个有趣的现象：MAE（掩码自编码器）几乎垄断了自监督预训练的天下。从SatMAE到Scale-MAE，几乎所有主流的遥感基础模型都采用MAE范式——遮住图像的一部分，让模型去重建。

但这里有个根本性的问题被忽视了：

遥感图像天生就是多尺度的。

同一场景在不同传感器下，GSD（地面采样距离）可以从0.3米到几十米不等。一个建筑物在高分辨率下是清晰的矩形，在低分辨率下可能只是一个模糊的像素点。

现有方法的局限

MAE的核心思路是重建被遮挡的像素。这个任务本质上是"填补缺失"，而不是"理解尺度"。具体来说：

MAE的尺度感知是被动的：Scale-MAE虽然引入了GSD信息作为位置编码，但这只是在输入端"告诉"模型当前图像的尺度，模型并没有主动学习尺度的能力
MAE对GSD元数据有依赖：如果推理时没有GSD信息，性能会显著下降
MAE的多尺度利用不充分：虽然可以处理不同分辨率的图像，但训练时并没有显式地利用多尺度信息

核心问题提炼

能否用对比学习（DINO）替代MAE，让模型在预训练阶段就主动学习多尺度表示，而不依赖外部GSD元数据？

💡 解决方案

核心洞察：DINO天然适合多尺度

作者的核心洞察非常精妙：

DINO在训练时会生成多个不同尺度的视图（global views + local views），这些视图本身就是多尺度的。这与遥感图像的多尺度特性完美契合。

具体来说，DINO的标准训练流程是：

Global views：覆盖图像25%-100%的区域
Local views：覆盖图像5%-25%的区域

这意味着模型在训练过程中，天然就会看到同一场景在不同"缩放级别"下的样子——这不正是遥感图像多尺度特性的完美模拟吗？

创新点1：GSD编码（Ground Sample Distance Encoding）

设计动机：

现有的GSD编码方法（如Scale-MAE）将GSD作为位置编码的一部分注入模型。但这种方法有两个致命缺陷：

训练时必须有GSD元数据
推理时如果GSD信息缺失，性能会崩溃

具体实现：

SatDINO提出了一种从图像本身学习GSD的优雅方案：

SkySense V2：统一多模态遥感基础模型，一个Backbone搞定RGB/SAR/多光谱

Mon, 01 Jun 2026 12:00:00 +0800

SkySense V2：统一多模态遥感基础模型，一个Backbone搞定RGB/SAR/多光谱

论文解读 | ICCV 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
作者	蚂蚁集团、武汉大学
会议	ICCV 2025
arXiv	待确认
GitHub	https://github.com/kang-wu/SkySensePlusPlus
关键词	遥感基础模型、多模态统一、Transformer、自监督学习、专家混合

🎯 解决的核心问题

问题背景

在遥感领域，我们经常需要处理多种模态的数据：光学图像（RGB）、多光谱图像（MS）、合成孔径雷达（SAR）等。这些不同模态的数据各有优势——光学图像色彩丰富，SAR能穿透云雾，多光谱能捕捉植被健康状况。

现有方法的局限

目前的多模态遥感基础模型存在一个尴尬的问题：

参数冗余：为每种模态训练单独的backbone，导致模型参数量爆炸
效率低下：不同模态的模型无法共享特征，计算资源浪费严重
语义不一致：不同模态提取的特征难以对齐，影响下游任务性能

核心问题提炼

如何用一个统一的backbone高效处理多种遥感模态，同时保持各模态的独特特性？

💡 解决方案

核心创新点1：统一Transformer骨干网络

设计动机：既然不同模态的图像都是2D数据，为什么不共享一个backbone？

具体实现：

TESSERA：用Barlow Twins从时序卫星影像中学习全球10米分辨率表示

Mon, 01 Jun 2026 12:00:00 +0800

TESSERA：用Barlow Twins从时序卫星影像中学习全球10米分辨率表示

论文解读 | CVPR 2026 | 2026-06-01

📄 论文信息

项目	内容
标题	TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis
作者	Z. Feng, C. Atzberger, S. Jaffer, J. Knezevic, S. Sormunen, R. Young, M.C. Lisaius, M. Immitzer, T. Jackson, J. Ball, D.A. Coomes, A. Madhavapeddy, A. Blake, S. Keshav
会议	CVPR 2026
arXiv	https://arxiv.org/abs/2506.20380
GitHub	https://github.com/ucam-eo/tessera (594 stars)
关键词	时序遥感、自监督学习、Barlow Twins、基础模型、像素级表示

🎯 解决的核心问题

问题背景

卫星遥感是监测地球表面变化的重要工具，广泛应用于栖息地制图、碳核算、农业监测等领域。然而，卫星时序数据面临两大挑战：

数据量巨大：全球范围的卫星时序数据达到PB级别，处理和存储成本极高
云遮挡严重：光学卫星影像经常被云层遮挡，导致时序数据不完整

现有方法的局限

传统方法：通常对时序数据取平均或选择无云影像，丢失了重要的时序信息
现有基础模型：大多基于单时相影像训练，无法捕捉时序变化模式
像素级方法：计算成本高，难以扩展到全球范围

核心问题提炼

如何从云遮挡严重的卫星时序数据中，高效学习保留时序物候信号的像素级表示？