SkySense-O：以视觉为中心的视觉语言建模实现开放世界遥感解释

Sun, 31 May 2026 12:00:00 +0800

论文信息

标题：SkySense-O: Towards Open-World Remote Sensing Interpretation with Vision-Centric Visual-Language Modeling
作者：Qi Zhu, Jiangwei Lao, Deyi Ji, Junwei Luo, Kang Wu, Yingying Zhang, Lixiang Ru, Jian Wang, Jingdong Chen, Ming Yang, Dong Liu, Feng Zhao
会议：CVPR 2025
GitHub：https://github.com/zqcrafts/SkySense-O (265 stars)
关键词：开放世界解释、视觉语言模型、遥感图像、像素级分割、视觉中心建模

遥感图像解释长期面临一个根本性矛盾：模型只能识别训练时见过的类别，但现实世界中的地物类别是无限且不断演变的。

传统遥感语义分割模型存在两个核心瓶颈：

语义类别覆盖不足：现有遥感数据集的类别标签极为有限，特别是像素级标注数据集。例如，常用的数据集可能只包含几十个类别，但实际地物类型远不止于此。
语言空间区分能力有限：遥感图像具有密集且复杂的空间分布，仅依靠文本描述难以精确区分不同的空间区域。例如，“建筑物"和"停车场"在语言描述上可能相似，但在视觉上差异显著。

作者敏锐地捕捉到了这一问题的本质：现有视觉语言模型（VLM）过度依赖文本提示，忽视了视觉特征本身的重要性。

SkySense-O的核心创新在于提出了视觉中心原则（Vision-Centric Principle），从根本上改变了遥感视觉语言建模的思路。

作者首先解决了数据层面的瓶颈。Sky-SA数据集具有以下特点：

这一数据集的构建并非简单的类别扩充，而是对遥感地物的系统性语义建模。

传统方法在预训练阶段主要关注图像-文本对齐，容易导致视觉表示能力退化。SkySense-O的创新在于：

这一范式转变的关键在于：不是让视觉特征去适应文本描述，而是让文本描述去增强视觉理解。

具体实现包括：

SkySense-O在多个评估指标上取得了显著优势：