多模态融合 - Tag - 堂堂一跑堂

Galileo：一个模型搞定遥感多模态多尺度，ICML 2025 通用基础模型新突破

Mon, 01 Jun 2026 12:00:00 +0800

Galileo：一个模型搞定遥感多模态多尺度，ICML 2025 通用基础模型新突破

论文解读 | ICML 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	Galileo: Learning Global & Local Features of Many Remote Sensing Modalities
作者	Gabriel Tseng, Anthony Fuller, Marlena Reil, Henry Herzog, Patrick Beukema, Favyen Bastani, James R. Green, Evan Shelhamer, Hannah Kerner, David Rolnick
会议	ICML 2025 (Proceedings of the 42nd International Conference on Machine Learning)
arXiv	https://arxiv.org/abs/2502.09356
GitHub	https://github.com/nasaharvest/galileo (⭐ 177)
关键词	遥感基础模型, 多模态融合, 自监督学习, 多尺度特征, 掩码建模, 通用模型

🎯 解决的核心问题

问题背景

遥感数据具有两大独特挑战，使得直接套用计算机视觉方法变得困难：

MAESTRO：多模态多时相多光谱遥感自监督学习的\"指挥家\"

Mon, 01 Jun 2026 12:00:00 +0800

MAESTRO：多模态多时相多光谱遥感自监督学习的"指挥家"

论文解读 | WACV 2026 | 2026-06-01

📄 论文信息

项目	内容
标题	MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data
作者	Antoine Labatie, Michael Vaccaro, Nina Lardiere, Anatol Garioud, Nicolas Gonthier
会议	WACV 2026 (IEEE/CVF Winter Conference on Applications of Computer Vision)
arXiv	https://arxiv.org/abs/2508.10894
GitHub	https://github.com/ignf/maestro
关键词	自监督学习, 掩码自编码器, 多模态融合, 多时相分析, 多光谱遥感, 地球观测

🎯 解决的核心问题

问题背景：遥感数据的"三多"挑战

地球观测（Earth Observation, EO）数据具有独特的"三多"特性：

多模态：光学（Sentinel-2）、SAR（Sentinel-1）、高光谱、DEM等不同传感器
多时相：同一区域在不同时间点的观测，蕴含丰富的时序变化信息
多光谱：单个传感器就有多个光谱波段（如Sentinel-2有13个波段）

这些特性使得直接将自然图像领域的自监督学习方法（如MAE）迁移到遥感领域存在根本性挑战。

现有方法的局限

方法类型	局限性
单模态MAE	忽略多模态互补信息，无法充分利用SAR、DEM等数据
简单拼接融合	将所有模态/时相强行拼接，导致异质数据相互干扰
晚期融合	各模态独立编码后融合，丢失跨模态交互信息
统一tokenizer	用同一套tokenizer处理所有模态，忽略传感器特性差异

核心问题提炼

如何设计一个统一的自监督学习框架，能够高效地融合多模态、多时相、多光谱的遥感数据，同时保持计算效率？

SkySense：20亿参数多模态遥感基础模型，统一理解地球观测

Mon, 01 Jun 2026 12:00:00 +0800

SkySense：20亿参数多模态遥感基础模型，统一理解地球观测

论文解读 | CVPR 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery
作者	Xin Guo, Jiangwei Lao, Bo Dang, Yingying Zhang, Lei Yu, Lixiang Ru, Liheng Zhong, Ziyuan Huang, Kang Wu, Dingxiang Hu, Huimei He, Jian Wang, Jingdong Chen, Ming Yang, Yongjun Zhang, Yansheng Li
会议	CVPR 2024
arXiv	https://arxiv.org/abs/2312.10115
GitHub	https://github.com/Jack-bo1220/SkySense
关键词	遥感基础模型、多模态融合、时序建模、地球观测、通用解译

🎯 解决的核心问题

问题背景

遥感技术已经渗透到我们生活的方方面面——从城市规划、农业生产到灾害监测、环境保护。然而，传统的遥感影像理解技术存在一个根本性缺陷：每个任务都需要单独训练一个模型。比如，要检测建筑物变化，需要一个专门的模型；要识别农作物类型，又需要另一个模型；要监测森林覆盖变化，还需要第三个模型。

GeoLink：用OpenStreetMap数据赋能遥感基础模型

Sun, 31 May 2026 12:00:00 +0800

GeoLink：用OpenStreetMap数据赋能遥感基础模型

📅 发表时间：2025年 🏛️ 会议：NeurIPS 2025 👥 作者：Lubian Bai, Xiuyuan Zhang, Siqi Zhang, Zepeng Zhang, Haoyu Wang, Wei Qin, Shihong Du 🔗 GitHub：https://github.com/bailubin/GeoLink_NeurIPS2025 📄 arXiv：https://arxiv.org/abs/2509.26016

📌 论文信息

标题：GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data

关键词：遥感基础模型、OpenStreetMap、多模态融合、图神经网络、语义分割

研究领域：遥感图像理解、地理空间人工智能、多模态学习

🔍 问题背景：遥感数据的"单模态困境"

核心问题

传统遥感基础模型存在一个根本性局限：只关注图像数据，忽略了其他地理空间数据源的互补信息。

问题细节

作者观察到一个关键现象：遥感图像和OpenStreetMap（OSM）数据提供了互补但异构的信息：

遥感图像：提供丰富的视觉特征（光谱、纹理、形状），但缺乏语义标注
OSM数据：提供精确的语义信息（道路网络、建筑物轮廓、土地利用类型），但缺乏视觉细节

具体挑战

作者从三个维度分析了这个"模态鸿沟"：

数据结构异构性：

遥感图像：规则的网格结构（pixel grid）
OSM数据：不规则的图结构（nodes, ways, relations）

语义粒度差异：

遥感图像：像素级特征，需要后处理才能获得语义
OSM数据：对象级语义，直接带有类别标签

时空覆盖不一致：

遥感图像：定期更新，但可能有云遮挡
OSM数据：众包更新，覆盖不均匀

💡 解决方案：GeoLink的"三阶段"融合框架

核心思想

作者没有简单地将OSM数据作为额外输入通道，而是设计了一个层次化的多模态融合框架，在不同阶段整合两种模态的信息。

技术细节

阶段1：OSM数据的图结构编码

关键创新：将OSM数据转换为异构图（Heterogeneous Graph）

遥感基础模型新突破：SegEarth-OV与GeoLink的创新解读

Sun, 31 May 2026 12:00:00 +0800

遥感基础模型新突破：SegEarth-OV与GeoLink的创新解读

关键词: 遥感基础模型, 开放词汇分割, 多模态融合, 无标注分割, OpenStreetMap, SAM3, CVPR 2025, NeurIPS 2025

一、论文信息

论文1：SegEarth-OV3 - 探索SAM3在遥感开放词汇语义分割中的应用

项目	内容
标题	SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images
作者	Kaiyu Li, Shengqi Zhang, Yupeng Deng, Zhi Wang, Deyu Meng, Xiangyong Cao
机构	西安交通大学, 中国科学院
发表	arXiv:2512.08730 (2025)
GitHub	https://github.com/earth-insights/SegEarth-OV-3 ⭐161
论文链接	https://arxiv.org/abs/2512.08730

论文2：GeoLink - 利用OpenStreetMap数据增强遥感基础模型

项目	内容
标题	GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data
作者	Lubian Bai, Xiuyuan Zhang, Siqi Zhang, Zepeng Zhang, Haoyu Wang, Wei Qin, Shihong Du
机构	北京大学
发表	NeurIPS 2025
GitHub	https://github.com/bailubin/GeoLink_NeurIPS2025 ⭐56
论文链接	https://arxiv.org/abs/2509.26016

二、问题背景与动机

2.1 遥感图像理解的核心挑战

遥感图像的语义分割是地球观测的关键任务，但面临两大根本性难题：