视觉语言模型 - Tag - 堂堂一跑堂

Falcon：首个支持14个任务的遥感视觉语言基础模型

Mon, 01 Jun 2026 12:00:00 +0800

Falcon：首个支持14个任务的遥感视觉语言基础模型

论文解读 | arXiv 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report)
作者	Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang, Jin Wang, Ning Wei, Chao Li
单位	ZhejiangLab（之江实验室）
会议	arXiv 2025
arXiv	https://arxiv.org/abs/2503.11070
GitHub	https://github.com/TianHuiLab/Falcon (⭐372)
关键词	遥感基础模型、视觉语言模型、多任务学习、指令调优、统一表示

🎯 解决的核心问题

问题背景

遥感图像解译是地球观测的核心任务，涵盖场景分类、目标检测、语义分割、变化检测等多个领域。近年来，大型视觉语言模型（LVLMs）在自然图像领域取得了巨大成功，但在遥感领域却面临严峻挑战：

领域鸿沟：自然图像与遥感图像之间存在显著的领域差异，包括视角、尺度、语义等方面
任务碎片化：现有遥感VLMs通常只擅长特定任务，缺乏统一的多任务处理能力
数据集不足：缺乏大规模、高质量、多任务的遥感指令调优数据集

现有方法的局限

模型	参数量	支持任务数	主要局限
GeoChat	7B	7	不支持像素级任务（分割、变化检测）
LHRS-Bot	7B	6	缺乏区域级和像素级理解能力
EarthGPT	7B	9	参数量大，推理效率低
RSGPT	7B	5	任务覆盖范围有限

核心问题提炼

如何构建一个轻量级、统一的遥感视觉语言模型，同时支持图像级、区域级和像素级的14个任务？

GeoChat：首个遥感领域Grounded视觉语言大模型，让卫星图像对话更智能

Mon, 01 Jun 2026 12:00:00 +0800

GeoChat：首个遥感领域Grounded视觉语言大模型，让卫星图像对话更智能

论文解读 | CVPR 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	GeoChat: Grounded Large Vision-Language Model for Remote Sensing
作者	Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abduljabbar Al-Khateri, Shoaib Jameel, Lars Petersson, Salman Khan, Fahad Shahbaz Khan
会议	CVPR 2024
arXiv	https://arxiv.org/abs/2311.15826
GitHub	https://github.com/mbzuai-oryx/GeoChat
关键词	遥感、视觉语言模型、Grounding、多任务学习、区域级推理

🎯 解决的核心问题

问题背景

遥感图像分析是地球观测的核心任务，传统方法通常针对单一任务（如分类、检测、分割）设计专用模型。随着大型视觉语言模型（VLM）在通用领域的成功，研究者开始探索将其应用于遥感领域。

然而，现有方法面临三个关键挑战：

领域适配问题：通用VLM（如GPT-4V）在遥感场景下表现不佳，容易产生不准确或虚构的信息
缺乏区域级推理：现有遥感VLM主要支持图像级任务，无法对特定区域进行细粒度分析
多任务统一困难：不同遥感任务（分类、检测、描述等）通常需要独立模型，缺乏统一框架

现有方法的局限

方法	局限性
通用VLM（GPT-4V等）	缺乏遥感领域知识，对卫星图像理解能力有限
遥感专用模型	仅支持单一任务，无法进行多轮对话
现有遥感VLM	仅支持图像级推理，缺乏区域级grounding能力

核心问题提炼

如何构建一个既能理解遥感图像全局语义，又能对特定区域进行细粒度推理的统一视觉语言模型？

💡 解决方案

核心创新点1：多模态遥感指令数据集构建

设计动机：遥感领域缺乏大规模多模态指令调优数据集，直接使用通用数据集会导致领域偏移。

具体实现：

整合多个现有遥感数据集（LRBEN、NWPU-RESISC-45、SAMRS等）
利用Vicuna-v1.5和自动化管道生成318k指令数据
设计统一的图像-文本对格式，支持多种任务类型

关键细节：

SkySense-O：以视觉为中心的视觉语言建模实现开放世界遥感解释

Sun, 31 May 2026 12:00:00 +0800

SkySense-O：以视觉为中心的视觉语言建模实现开放世界遥感解释

论文信息

标题：SkySense-O: Towards Open-World Remote Sensing Interpretation with Vision-Centric Visual-Language Modeling
作者：Qi Zhu, Jiangwei Lao, Deyi Ji, Junwei Luo, Kang Wu, Yingying Zhang, Lixiang Ru, Jian Wang, Jingdong Chen, Ming Yang, Dong Liu, Feng Zhao
会议：CVPR 2025
GitHub：https://github.com/zqcrafts/SkySense-O (265 stars)
关键词：开放世界解释、视觉语言模型、遥感图像、像素级分割、视觉中心建模

问题：从"封闭"到"开放"的鸿沟

遥感图像解释长期面临一个根本性矛盾：模型只能识别训练时见过的类别，但现实世界中的地物类别是无限且不断演变的。

传统遥感语义分割模型存在两个核心瓶颈：

语义类别覆盖不足：现有遥感数据集的类别标签极为有限，特别是像素级标注数据集。例如，常用的数据集可能只包含几十个类别，但实际地物类型远不止于此。
语言空间区分能力有限：遥感图像具有密集且复杂的空间分布，仅依靠文本描述难以精确区分不同的空间区域。例如，“建筑物"和"停车场"在语言描述上可能相似，但在视觉上差异显著。

作者敏锐地捕捉到了这一问题的本质：现有视觉语言模型（VLM）过度依赖文本提示，忽视了视觉特征本身的重要性。

解决方案：视觉中心的范式转变

SkySense-O的核心创新在于提出了视觉中心原则（Vision-Centric Principle），从根本上改变了遥感视觉语言建模的思路。

1. 构建高质量像素级数据集Sky-SA

作者首先解决了数据层面的瓶颈。Sky-SA数据集具有以下特点：

规模：183,375个高质量本地图像-文本对
类别覆盖：1,763个类别标签，远超现有数据集
标注质量：经过多轮人工标注和验证的全像素标注
语义密度：比现有数据集具有更丰富的语义和更高的密度

这一数据集的构建并非简单的类别扩充，而是对遥感地物的系统性语义建模。

2. 视觉中心的预训练策略

传统方法在预训练阶段主要关注图像-文本对齐，容易导致视觉表示能力退化。SkySense-O的创新在于：

引入视觉自监督范式：在图像-文本对齐的同时，保持视觉特征的判别能力
视觉相关知识图谱：构建跨开放类别文本的视觉相关知识图谱
视觉中心图像-文本对比损失：开发新型损失函数，强调视觉特征的主导作用

3. 从"文本驱动"到"视觉引导”

这一范式转变的关键在于：不是让视觉特征去适应文本描述，而是让文本描述去增强视觉理解。

具体实现包括：

在预训练阶段，视觉自监督学习与图像-文本对齐并行进行
利用视觉相关知识图谱建立类别间的视觉语义关联
通过视觉中心对比损失确保视觉特征的判别性

实验：全面的性能验证

评估设置

数据集：14个遥感数据集
任务类型：4个任务（分类、检测、分割、推理）
评估方式：零样本能力评估

关键结果

SkySense-O在多个评估指标上取得了显著优势：