GeoGround:统一遥感视觉Grounding的大型视觉语言模型

GeoGround:统一遥感视觉Grounding的大型视觉语言模型

论文解读 | arXiv 2024 | 2026-06-01

项目内容
标题GeoGround: A Unified Large Vision-Language Model for Remote Sensing Visual Grounding
作者Yue Zhou et al.
会议arXiv 2024 (v3: May 2025)
arXivhttps://arxiv.org/abs/2411.11904
GitHubhttps://github.com/nicehuster/GeoGround
关键词视觉Grounding、遥感大模型、多任务统一、Text-Mask技术、像素级定位

在遥感图像解译中,视觉Grounding(视觉定位)是一项关键任务:给定一句自然语言描述,模型需要在遥感图像中找到对应的目标物体。这项任务对于人机交互式遥感解译系统至关重要。

然而,遥感领域的视觉Grounding面临一个尴尬的现状:不同类型的目标需要不同的定位输出形式

  1. 水平边界框(HBB):只能定位物体的位置,无法描述其朝向和形状
  2. 旋转边界框(OBB):能描述物体的朝向,但无法刻画精确轮廓
  3. 分割掩码(Mask):能精确描述物体形状,但计算复杂度高

现有方法的困境

  • 专用方法:针对单一任务设计,无法泛化到其他Grounding类型
  • 大型视觉语言模型(VLM):具有强大的多任务学习能力,但难以处理像素级密集预测任务(如分割)

如何在一个统一的框架中同时支持HBB、OBB和Mask三种遥感视觉Grounding任务,并允许用户灵活选择输出类型?

设计动机: 传统方法为每种Grounding类型设计专门的模型,这不仅增加了系统复杂度,也限制了模型的泛化能力。GeoGround的目标是用一个模型支持所有Grounding类型。

具体实现: GeoGround采用标准的VLM架构(视觉编码器 + 语言解码器),但不修改VLM的核心架构。关键创新在于引入Text-Mask技术,使VLM能够优雅地支持像素级Grounding输出。

关键细节

输入:遥感图像 + 自然语言描述
输出:根据用户需求,选择性输出HBB、OBB或Mask

架构流程:
1. 视觉编码器提取图像特征
2. 语言解码器理解文本描述
3. Text-Mask模块生成像素级定位

设计动机: VLM通常通过生成文本token来输出边界框坐标,但这种方式难以直接生成像素级的分割掩码。Text-Mask技术通过将掩码信息编码到文本空间,实现了统一的输出接口。

具体实现

  • 定义特殊的提示辅助token来表示不同的Grounding类型
  • 引入几何引导学习来增强不同信号之间的一致性
  • 通过文本-掩码对齐实现像素级定位

关键细节

# Text-Mask的核心思想
# 将分割掩码转换为文本可表示的形式
def text_mask_encoding(mask, bbox, text_description):
    # 1. 提取掩码的几何特征
    mask_features = extract_mask_geometry(mask)
    
    # 2. 与边界框信息融合
    fused_features = fuse_with_bbox(mask_features, bbox)
    
    # 3. 编码到文本空间
    text_tokens = encode_to_text_space(fused_features)
    
    return text_tokens

设计动机: 不同Grounding类型(HBB、OBB、Mask)的监督信号差异很大,如何让模型同时学习并保持一致性是一个挑战。

具体实现

  1. 提示辅助学习:通过特定的提示词引导模型输出不同类型的Grounding结果
  2. 几何引导学习:利用几何约束(如边界框与掩码的对应关系)来增强学习效果

关键细节

学习策略:
- HBB任务:学习左上角和右下角坐标
- OBB任务:学习中心点、宽高和旋转角度
- Mask任务:学习像素级分类概率

一致性约束:
- HBB ⊆ OBB ⊆ Mask(空间包含关系)
- 几何中心一致性
- 面积比例约束
┌─────────────────────────────────────────────────────────┐
│                    GeoGround框架                         │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  ┌─────────────┐      ┌─────────────┐                   │
│  │  遥感图像    │      │  自然语言    │                   │
│  │  (高分辨率)  │      │   描述      │                   │
│  └──────┬──────┘      └──────┬──────┘                   │
│         │                    │                          │
│         ▼                    ▼                          │
│  ┌─────────────┐      ┌─────────────┐                   │
│  │ 视觉编码器  │      │ 语言编码器  │                   │
│  │ (ViT/Swin)  │      │  (BERT)     │                   │
│  └──────┬──────┘      └──────┬──────┘                   │
│         │                    │                          │
│         └────────┬───────────┘                          │
│                  │                                      │
│                  ▼                                      │
│         ┌─────────────┐                                │
│         │  跨模态融合  │                                │
│         │   注意力    │                                │
│         └──────┬──────┘                                │
│                │                                       │
│                ▼                                       │
│         ┌─────────────┐                                │
│         │ Text-Mask   │                                │
│         │   模块      │                                │
│         └──────┬──────┘                                │
│                │                                       │
│     ┌──────────┼──────────┐                            │
│     ▼          ▼          ▼                            │
│  ┌─────┐   ┌─────┐   ┌─────┐                          │
│  │ HBB │   │ OBB │   │Mask │                          │
│  │输出  │   │输出  │   │输出  │                          │
│  └─────┘   └─────┘   └─────┘                          │
│                                                         │
└─────────────────────────────────────────────────────────┘

数据集

  • DIOR-RSVG:遥感视觉Grounding基准数据集
  • OPT-RSVG:大规模遥感视觉Grounding数据集
  • 其他遥感Grounding数据集

基线方法

  • 专用Grounding方法:LPVA、MGVLF等
  • 通用VLM方法:GeoChat、EarthGPT等

评估指标

方法DIOR-RSVGOPT-RSVG备注
LPVA75.23%68.45%专用方法
GeoChat72.15%65.32%VLM方法
EarthGPT74.56%67.89%VLM方法
GeoGround77.73%73.18%统一框架

关键发现

  1. GeoGround在两个基准数据集上均取得最优性能
  2. 相比专用方法,GeoGround具有更好的泛化能力
  3. 相比其他VLM方法,GeoGround在像素级任务上表现更优
组件[email protected][email protected]MeanIoU
基线VLM70.12%55.23%65.45%
+ Text-Mask74.56%60.12%69.87%
+ 几何引导76.89%63.45%72.34%
+ 提示辅助77.73%65.12%73.18%

消融分析

  1. Text-Mask技术带来4.44%的性能提升,验证了像素级定位的重要性
  2. 几何引导学习进一步提升2.33%,说明几何约束的有效性
  3. 提示辅助学习贡献0.84%,增强了多任务学习的一致性

案例1:建筑物定位

输入图像:高分辨率遥感图像(0.5m分辨率)
文本描述:"位于十字路口东北角的红色屋顶建筑物"

定位结果:
- HBB输出:[x1=234, y1=156, x2=345, y2=278]
- OBB输出:[cx=289, cy=217, w=111, h=122, θ=15°]
- Mask输出:像素级分割掩码(精确刻画建筑物轮廓)

案例2:车辆检测

输入图像:停车场遥感图像
文本描述:"停车场东侧的白色SUV"

定位结果:
- HBB输出:粗略定位整个车辆区域
- OBB输出:精确描述车辆朝向
- Mask输出:精确分割车辆轮廓(包括后视镜等细节)
  1. 统一框架的可行性:通过Text-Mask技术,可以在不修改VLM核心架构的情况下支持像素级Grounding任务
  2. 几何约束的重要性:利用HBB、OBB和Mask之间的几何关系可以显著提升学习效果
  3. 提示工程的潜力:精心设计的提示词可以引导模型输出不同类型的Grounding结果

第一层:工程贡献

  • 提出了统一的多任务Grounding框架
  • 开源了完整的训练和推理代码

第二层:方法贡献

  • Text-Mask技术:实现了文本空间与像素空间的统一表示
  • 几何引导学习:利用几何约束增强多任务学习

第三层:思想贡献

  • 证明了VLM可以通过巧妙的设计支持像素级密集预测任务
  • 为遥感视觉Grounding提供了统一的解决方案
  1. 统一性强:一个模型支持HBB、OBB和Mask三种Grounding任务,降低了系统复杂度
  2. 灵活性高:用户可以根据需求选择输出类型,适应不同应用场景
  3. 性能优异:在多个基准数据集上取得最优性能,证明了方法的有效性
  1. 计算开销:支持像素级输出增加了计算复杂度,推理速度较慢
  2. 数据依赖:需要大量高质量的Grounding标注数据,数据获取成本高
  3. 泛化性待验证:主要在特定数据集上验证,跨域泛化能力有待进一步验证
  1. 效率优化:探索更高效的Text-Mask编码方式,降低计算开销
  2. 弱监督学习:利用弱标注数据进行训练,降低数据标注成本
  3. 多模态扩展:将框架扩展到SAR、高光谱等其他遥感数据模态
  4. 实时应用:优化推理速度,支持实时遥感解译应用

GeoGround是遥感视觉Grounding领域的一项重要工作,它首次提出了统一的多任务Grounding框架,通过Text-Mask技术实现了HBB、OBB和Mask三种Grounding任务的统一支持。这一创新不仅简化了系统架构,还提升了模型的泛化能力。

从技术角度来看,GeoGround的核心贡献在于证明了大型视觉语言模型可以通过巧妙的设计支持像素级密集预测任务。Text-Mask技术和几何引导学习是两个关键创新点,它们分别解决了像素级表示和多任务学习一致性的难题。

尽管存在一些局限性(如计算开销较大、数据依赖性强),但GeoGround为遥感视觉Grounding提供了新的研究思路。未来,随着模型效率的优化和训练方法的改进,这类统一框架有望在实际遥感解译系统中得到广泛应用。

对于研究者而言,GeoGround启发我们思考:如何在保持模型通用性的同时提升特定任务的性能?如何利用任务间的关联性来增强学习效果?这些问题的答案将推动遥感视觉理解技术向更高水平发展。

  1. Zhou Y, et al. GeoGround: A Unified Large Vision-Language Model for Remote Sensing Visual Grounding. arXiv:2411.11904, 2024.
  2. Liu S, et al. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection. arXiv:2303.05499, 2023.
  3. Kuckreja K, et al. GeoChat: Grounded Large Vision-Language Model for Remote Sensing. CVPR, 2024.
  4. Zhang W, et al. EarthGPT: A Universal Multi-modal Large Language Model for Multi-Sensor Image Comprehension in Remote Sensing Domain. TGRS, 2024.
  5. Li K, et al. Language-guided Progressive Attention for Visual Grounding in Remote Sensing Images. TGRS, 2024.