遥感基础模型 - Tag - 堂堂一跑堂

AnySat：一个模型搞定所有分辨率、尺度和模态的遥感数据

Mon, 01 Jun 2026 12:00:00 +0800

AnySat：一个模型搞定所有分辨率、尺度和模态的遥感数据

论文解读 | CVPR 2025 Highlight | 2026-06-01

📄 论文信息

项目	内容
标题	AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities
作者	Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu
会议	CVPR 2025 (Highlight)
arXiv	https://arxiv.org/abs/2412.14123
GitHub	https://github.com/gastruc/AnySat (190 stars)
关键词	遥感基础模型、多模态、多分辨率、JEPA架构、自监督学习

🎯 解决的核心问题

问题背景

遥感数据天然具有多源异构的特点：

分辨率差异：从0.3米的无人机影像到30米的Sentinel-2，跨越100倍
通道数量不同：RGB（3通道）、多光谱（4-13通道）、SAR（2通道）
覆盖范围多样：小区域精细观测 vs 大范围宏观监测
传感器类型繁多：光学、SAR、高光谱等11种以上传感器

现有方法的局限

单模型单数据：每个数据集需要单独训练模型，无法共享知识
分辨率不兼容：不同分辨率的数据需要不同的网络架构
模态隔离：光学和SAR数据通常分开处理
扩展性差：新增传感器需要重新设计模型

核心问题提炼

如何用一个统一的模型处理任意分辨率、任意尺度、任意模态组合的遥感数据？

💡 解决方案

核心创新点1：Scale-Adaptive JEPA架构

设计动机：传统MAE需要固定输入尺寸，无法处理不同分辨率的图像。

具体实现：

采用Joint Embedding Predictive Architecture (JEPA)，不依赖像素级重建
引入尺度自适应机制，根据输入数据的GSD自动调整
使用分块嵌入策略，将不同分辨率的图像映射到统一的特征空间

关键细节：

Falcon：首个支持14个任务的遥感视觉语言基础模型

Mon, 01 Jun 2026 12:00:00 +0800

Falcon：首个支持14个任务的遥感视觉语言基础模型

论文解读 | arXiv 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report)
作者	Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang, Jin Wang, Ning Wei, Chao Li
单位	ZhejiangLab（之江实验室）
会议	arXiv 2025
arXiv	https://arxiv.org/abs/2503.11070
GitHub	https://github.com/TianHuiLab/Falcon (⭐372)
关键词	遥感基础模型、视觉语言模型、多任务学习、指令调优、统一表示

🎯 解决的核心问题

问题背景

遥感图像解译是地球观测的核心任务，涵盖场景分类、目标检测、语义分割、变化检测等多个领域。近年来，大型视觉语言模型（LVLMs）在自然图像领域取得了巨大成功，但在遥感领域却面临严峻挑战：

领域鸿沟：自然图像与遥感图像之间存在显著的领域差异，包括视角、尺度、语义等方面
任务碎片化：现有遥感VLMs通常只擅长特定任务，缺乏统一的多任务处理能力
数据集不足：缺乏大规模、高质量、多任务的遥感指令调优数据集

现有方法的局限

模型	参数量	支持任务数	主要局限
GeoChat	7B	7	不支持像素级任务（分割、变化检测）
LHRS-Bot	7B	6	缺乏区域级和像素级理解能力
EarthGPT	7B	9	参数量大，推理效率低
RSGPT	7B	5	任务覆盖范围有限

核心问题提炼

如何构建一个轻量级、统一的遥感视觉语言模型，同时支持图像级、区域级和像素级的14个任务？

Galileo：一个模型搞定遥感多模态多尺度，ICML 2025 通用基础模型新突破

Mon, 01 Jun 2026 12:00:00 +0800

Galileo：一个模型搞定遥感多模态多尺度，ICML 2025 通用基础模型新突破

论文解读 | ICML 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	Galileo: Learning Global & Local Features of Many Remote Sensing Modalities
作者	Gabriel Tseng, Anthony Fuller, Marlena Reil, Henry Herzog, Patrick Beukema, Favyen Bastani, James R. Green, Evan Shelhamer, Hannah Kerner, David Rolnick
会议	ICML 2025 (Proceedings of the 42nd International Conference on Machine Learning)
arXiv	https://arxiv.org/abs/2502.09356
GitHub	https://github.com/nasaharvest/galileo (⭐ 177)
关键词	遥感基础模型, 多模态融合, 自监督学习, 多尺度特征, 掩码建模, 通用模型

🎯 解决的核心问题

问题背景

遥感数据具有两大独特挑战，使得直接套用计算机视觉方法变得困难：

Prithvi-EO-2.0：NASA和IBM联手打造的600M参数地球观测基础模型

Mon, 01 Jun 2026 12:00:00 +0800

Prithvi-EO-2.0：NASA和IBM联手打造的600M参数地球观测基础模型

论文解读 | arXiv 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications
作者	Sujit Roy, Paolo Fraccaro, Þorsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal 等
机构	IBM Research、NASA Marshall Space Flight Center、Jülich Supercomputing Centre
发表	arXiv 2024 (Technical Report)
arXiv	https://arxiv.org/abs/2412.02732
GitHub	https://github.com/NASA-IMPACT/Prithvi-EO-2.0
HuggingFace	https://huggingface.co/ibm-nasa-geospatial/Prithvi-EO-2.0-600M-TL
关键词	遥感基础模型、多时相、MAE预训练、时空注意力、全球覆盖

🎯 解决的核心问题

问题背景：地球观测的"数据丰富、标签稀缺"困境

地球观测数据正在爆炸式增长：

Landsat系列：40年历史，持续更新
Sentinel-2：5天重访周期，13个波段
全球每天产生TB级遥感影像

但问题是：标注数据极其稀缺。训练一个准确的作物分类模型可能需要数月的专家标注工作。

现有基础模型的局限

模型	问题
ImageNet预训练	自然图像与遥感图像差异大
单时相模型	无法捕捉季节变化、物候信息
小规模预训练	数据量不足，泛化能力有限
无元数据	忽略地理位置、时间信息

核心问题提炼

如何构建一个大规模、多时相、融合元数据的地球观测基础模型，实现跨任务、跨分辨率的泛化？

SkySense V2：统一多模态遥感基础模型，一个Backbone搞定RGB/SAR/多光谱

Mon, 01 Jun 2026 12:00:00 +0800

SkySense V2：统一多模态遥感基础模型，一个Backbone搞定RGB/SAR/多光谱

论文解读 | ICCV 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
作者	蚂蚁集团、武汉大学
会议	ICCV 2025
arXiv	待确认
GitHub	https://github.com/kang-wu/SkySensePlusPlus
关键词	遥感基础模型、多模态统一、Transformer、自监督学习、专家混合

🎯 解决的核心问题

问题背景

在遥感领域，我们经常需要处理多种模态的数据：光学图像（RGB）、多光谱图像（MS）、合成孔径雷达（SAR）等。这些不同模态的数据各有优势——光学图像色彩丰富，SAR能穿透云雾，多光谱能捕捉植被健康状况。

现有方法的局限

目前的多模态遥感基础模型存在一个尴尬的问题：

参数冗余：为每种模态训练单独的backbone，导致模型参数量爆炸
效率低下：不同模态的模型无法共享特征，计算资源浪费严重
语义不一致：不同模态提取的特征难以对齐，影响下游任务性能

核心问题提炼

如何用一个统一的backbone高效处理多种遥感模态，同时保持各模态的独特特性？

💡 解决方案

核心创新点1：统一Transformer骨干网络

设计动机：既然不同模态的图像都是2D数据，为什么不共享一个backbone？

具体实现：

SkySense：20亿参数多模态遥感基础模型，统一理解地球观测

Mon, 01 Jun 2026 12:00:00 +0800

SkySense：20亿参数多模态遥感基础模型，统一理解地球观测

论文解读 | CVPR 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery
作者	Xin Guo, Jiangwei Lao, Bo Dang, Yingying Zhang, Lei Yu, Lixiang Ru, Liheng Zhong, Ziyuan Huang, Kang Wu, Dingxiang Hu, Huimei He, Jian Wang, Jingdong Chen, Ming Yang, Yongjun Zhang, Yansheng Li
会议	CVPR 2024
arXiv	https://arxiv.org/abs/2312.10115
GitHub	https://github.com/Jack-bo1220/SkySense
关键词	遥感基础模型、多模态融合、时序建模、地球观测、通用解译

🎯 解决的核心问题

问题背景

遥感技术已经渗透到我们生活的方方面面——从城市规划、农业生产到灾害监测、环境保护。然而，传统的遥感影像理解技术存在一个根本性缺陷：每个任务都需要单独训练一个模型。比如，要检测建筑物变化，需要一个专门的模型；要识别农作物类型，又需要另一个模型；要监测森林覆盖变化，还需要第三个模型。

从模型权重中学习：GeoSANE开创遥感基础模型新范式

Mon, 01 Jun 2026 12:00:00 +0800

从模型权重中学习：GeoSANE开创遥感基础模型新范式

论文解读 | CVPR 2026 | 2026-06-01

📄 论文信息

项目	内容
标题	GeoSANE: Learning Geospatial Representations from Models, Not Data
作者	Joelle Hanna, Damian Falk, Stella X. Yu, Damian Borth
机构	HSG-AIML (University of St. Gallen)
会议	CVPR 2026
arXiv	https://arxiv.org/abs/2603.23408
GitHub	https://github.com/HSG-AIML/GeoSANE (11 stars)
关键词	模型权重空间、遥感基础模型、元学习、模型生成、权重空间学习

🎯 解决的核心问题

问题背景

遥感领域近年来涌现了大量基础模型（Foundation Models），包括SatMAE、CROMA、SpectralGPT、DOFA、SkySense、Prithvi等。这些模型通过在大规模遥感数据上进行自监督预训练，学习到了强大的特征表示能力。

然而，一个根本性的问题始终存在：我们能否不依赖训练数据，直接从这些已有的模型中学习？

现有方法的局限

数据依赖性强：传统基础模型需要大量遥感数据进行预训练，数据收集和处理成本高昂
计算资源消耗大：训练一个大规模基础模型需要大量GPU资源和时间
模型孤立性：现有模型各自独立训练，缺乏模型间的知识共享机制
组合困难：如何将多个模型的优势整合到一个新模型中是一个开放问题

核心问题提炼

能否直接在模型权重空间中学习一个通用表示，从而生成针对特定任务优化的新模型？

💡 解决方案

核心创新点1：模型权重空间学习（Weight Space Learning）

设计动机：

传统方法从数据中学习表示，而GeoSANE提出了一个全新的范式：从模型权重中学习表示。

具体实现：

模型集合构建：收集103个预训练的遥感基础模型，总计约380亿参数
权重空间编码：使用Sequential Autoencoder学习这些模型权重的共享潜在表示
模型生成：从学习到的潜在空间中采样，生成新的模型候选

关键细节：

支持任意波段、任意分辨率！AOM：通用遥感基础模型

Mon, 01 Jun 2026 12:00:00 +0800

支持任意波段、任意分辨率！AOM：通用遥感基础模型

论文解读 | AAAI 2026 | 2026-06-01

📄 论文信息

项目	内容
标题	Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
作者	Xuyang Li, Chenyu Li, Danfeng Hong
会议	AAAI 2026
arXiv	https://arxiv.org/abs/2512.17224
GitHub	暂未开源
关键词	遥感基础模型、任意波段、任意分辨率、多尺度自适应、通道独立tokenizer

🎯 解决的核心问题

问题背景

遥感图像与自然图像有本质区别：遥感图像通常包含多个光谱通道（如Sentinel-2有13个波段，Landsat-8有11个波段），且空间分辨率差异巨大（从0.1米到100米）。现有的遥感基础模型（RSFMs）通常在固定的波段配置和空间分辨率上预训练，这导致它们在实际应用中面临严重局限。

现有方法的局限

波段固定问题：现有模型（如SatMAE、SpectralGPT）将多光谱数据作为整体输入处理，当遇到波段缺失或新增波段时，性能严重下降。
跨传感器迁移困难：不同传感器（如Sentinel-2与Landsat）的波段配置不同，导致模型难以直接迁移。
尺度适应性差：现有模型采用单一尺度的patch embedding，无法同时捕获高分辨率的纹理细节和低分辨率的全局上下文。

核心问题提炼

如何构建一个能够适应任意波段组合、任意传感器类型、任意空间分辨率的通用遥感基础模型？

💡 解决方案

核心创新点1：Spectrum-independent Tokenizer (SiTok)

设计动机：传统方法将多光谱图像作为3D张量处理，波段维度与空间维度耦合，导致波段变化时需要重新训练。

具体实现：

对每个光谱通道独立进行tokenization
为每个token添加channel index编码
支持任意波段组合和缺失波段场景

关键细节：

GeoLink：用OpenStreetMap数据赋能遥感基础模型

Sun, 31 May 2026 12:00:00 +0800

GeoLink：用OpenStreetMap数据赋能遥感基础模型

📅 发表时间：2025年 🏛️ 会议：NeurIPS 2025 👥 作者：Lubian Bai, Xiuyuan Zhang, Siqi Zhang, Zepeng Zhang, Haoyu Wang, Wei Qin, Shihong Du 🔗 GitHub：https://github.com/bailubin/GeoLink_NeurIPS2025 📄 arXiv：https://arxiv.org/abs/2509.26016

📌 论文信息

标题：GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data

关键词：遥感基础模型、OpenStreetMap、多模态融合、图神经网络、语义分割

研究领域：遥感图像理解、地理空间人工智能、多模态学习

🔍 问题背景：遥感数据的"单模态困境"

核心问题

传统遥感基础模型存在一个根本性局限：只关注图像数据，忽略了其他地理空间数据源的互补信息。

问题细节

作者观察到一个关键现象：遥感图像和OpenStreetMap（OSM）数据提供了互补但异构的信息：

遥感图像：提供丰富的视觉特征（光谱、纹理、形状），但缺乏语义标注
OSM数据：提供精确的语义信息（道路网络、建筑物轮廓、土地利用类型），但缺乏视觉细节

具体挑战

作者从三个维度分析了这个"模态鸿沟"：

数据结构异构性：

遥感图像：规则的网格结构（pixel grid）
OSM数据：不规则的图结构（nodes, ways, relations）

语义粒度差异：

遥感图像：像素级特征，需要后处理才能获得语义
OSM数据：对象级语义，直接带有类别标签

时空覆盖不一致：

遥感图像：定期更新，但可能有云遮挡
OSM数据：众包更新，覆盖不均匀

💡 解决方案：GeoLink的"三阶段"融合框架

核心思想

作者没有简单地将OSM数据作为额外输入通道，而是设计了一个层次化的多模态融合框架，在不同阶段整合两种模态的信息。

技术细节

阶段1：OSM数据的图结构编码

关键创新：将OSM数据转换为异构图（Heterogeneous Graph）

遥感基础模型新突破：SegEarth-OV与GeoLink的创新解读

Sun, 31 May 2026 12:00:00 +0800

遥感基础模型新突破：SegEarth-OV与GeoLink的创新解读

关键词: 遥感基础模型, 开放词汇分割, 多模态融合, 无标注分割, OpenStreetMap, SAM3, CVPR 2025, NeurIPS 2025

一、论文信息

论文1：SegEarth-OV3 - 探索SAM3在遥感开放词汇语义分割中的应用

项目	内容
标题	SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images
作者	Kaiyu Li, Shengqi Zhang, Yupeng Deng, Zhi Wang, Deyu Meng, Xiangyong Cao
机构	西安交通大学, 中国科学院
发表	arXiv:2512.08730 (2025)
GitHub	https://github.com/earth-insights/SegEarth-OV-3 ⭐161
论文链接	https://arxiv.org/abs/2512.08730

论文2：GeoLink - 利用OpenStreetMap数据增强遥感基础模型

项目	内容
标题	GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data
作者	Lubian Bai, Xiuyuan Zhang, Siqi Zhang, Zepeng Zhang, Haoyu Wang, Wei Qin, Shihong Du
机构	北京大学
发表	NeurIPS 2025
GitHub	https://github.com/bailubin/GeoLink_NeurIPS2025 ⭐56
论文链接	https://arxiv.org/abs/2509.26016

二、问题背景与动机

2.1 遥感图像理解的核心挑战

遥感图像的语义分割是地球观测的关键任务，但面临两大根本性难题：