GeoGround：统一遥感视觉Grounding的大型视觉语言模型

Mon, 01 Jun 2026 12:00:00 +0800

论文解读 | arXiv 2024 | 2026-06-01

📄 论文信息

项目	内容
标题	GeoGround: A Unified Large Vision-Language Model for Remote Sensing Visual Grounding
作者	Yue Zhou et al.
会议	arXiv 2024 (v3: May 2025)
arXiv	https://arxiv.org/abs/2411.11904
GitHub	https://github.com/nicehuster/GeoGround
关键词	视觉Grounding、遥感大模型、多任务统一、Text-Mask技术、像素级定位

在遥感图像解译中，视觉Grounding（视觉定位）是一项关键任务：给定一句自然语言描述，模型需要在遥感图像中找到对应的目标物体。这项任务对于人机交互式遥感解译系统至关重要。

然而，遥感领域的视觉Grounding面临一个尴尬的现状：不同类型的目标需要不同的定位输出形式。

现有方法的困境：

如何在一个统一的框架中同时支持HBB、OBB和Mask三种遥感视觉Grounding任务，并允许用户灵活选择输出类型？

设计动机：传统方法为每种Grounding类型设计专门的模型，这不仅增加了系统复杂度，也限制了模型的泛化能力。GeoGround的目标是用一个模型支持所有Grounding类型。

具体实现： GeoGround采用标准的VLM架构（视觉编码器 + 语言解码器），但不修改VLM的核心架构。关键创新在于引入Text-Mask技术，使VLM能够优雅地支持像素级Grounding输出。

关键细节：