GeoChat：首个遥感领域Grounded视觉语言大模型，让卫星图像对话更智能

Mon, 01 Jun 2026 12:00:00 +0800

论文解读 | CVPR 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	GeoChat: Grounded Large Vision-Language Model for Remote Sensing
作者	Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abduljabbar Al-Khateri, Shoaib Jameel, Lars Petersson, Salman Khan, Fahad Shahbaz Khan
会议	CVPR 2024
arXiv	https://arxiv.org/abs/2311.15826
GitHub	https://github.com/mbzuai-oryx/GeoChat
关键词	遥感、视觉语言模型、Grounding、多任务学习、区域级推理

遥感图像分析是地球观测的核心任务，传统方法通常针对单一任务（如分类、检测、分割）设计专用模型。随着大型视觉语言模型（VLM）在通用领域的成功，研究者开始探索将其应用于遥感领域。

然而，现有方法面临三个关键挑战：

如何构建一个既能理解遥感图像全局语义，又能对特定区域进行细粒度推理的统一视觉语言模型？

设计动机：遥感领域缺乏大规模多模态指令调优数据集，直接使用通用数据集会导致领域偏移。

具体实现：

关键细节：