ConInfer:无需训练,用上下文推理实现遥感开放词汇分割

ConInfer:无需训练,用上下文推理实现遥感开放词汇分割

论文解读 | CVPR 2026 Findings | 2026-06-01

项目内容
标题ConInfer: Context-Aware Inference for Training-Free Open-Vocabulary Remote Sensing Segmentation
作者详见论文
会议CVPR 2026 Findings
arXiv暂未公开
GitHubhttps://github.com/Dog-Yang/ConInfer
关键词开放词汇分割、遥感图像、免训练、上下文推理、CLIP、DINOv3

遥感图像分割是地球观测领域的核心任务,广泛应用于城市规划、环境监测、灾害评估等场景。传统的语义分割方法依赖于封闭词汇表——模型只能识别训练时见过的固定类别(如建筑、道路、水体等)。然而,真实世界的遥感应用场景远比固定类别复杂:

  • 灾害响应中需要识别"被洪水淹没的农田"
  • 城市规划中需要识别"临时搭建的工棚"
  • 环境监测中需要识别"入侵物种覆盖区域"

这些类别在标准训练数据集中几乎不存在,传统模型对此无能为力。

当前的开放词汇分割方法主要面临两个挑战:

  1. 训练成本高昂:大多数方法需要在大规模标注数据上进行微调,遥感图像的标注成本极高(需要专业知识,且图像尺度巨大)
  2. 领域迁移困难:CLIP等视觉-语言模型在自然图像上预训练,直接应用于遥感场景时存在严重的领域鸿沟——遥感图像的俯视视角、多光谱特性、尺度多样性等都与自然图像截然不同

能否在不进行任何训练的情况下,直接利用预训练视觉-语言模型实现高质量的遥感开放词汇分割?

设计动机:CLIP模型在图像级别进行预训练,其特征缺乏像素级的空间细节。直接将CLIP特征用于分割会导致边界模糊、类别混淆。

具体实现:ConInfer提出了一种上下文感知的推理机制,通过以下步骤增强CLIP的像素级理解能力:

  1. 多尺度特征提取:利用DINOv3和SimFeatUp获取高分辨率的细粒度视觉特征
  2. 上下文建模:通过高斯混合模型(GMM)对特征空间进行聚类,自动发现图像中的语义区域
  3. 上下文引导分类:利用发现的上下文信息来校准CLIP的分类结果,消除领域偏差

设计动机:避免昂贵的微调过程,直接利用预训练模型的能力。

具体实现

  • 使用BLIP生成图像描述,提供文本级别的上下文
  • 利用OpenCLIP的文本编码器计算开放词汇相似度
  • 通过自适应的提示工程(Prompt Engineering)弥合领域差距
输入遥感图像
┌─────────────────────────────────┐
│   多尺度特征提取                 │
│   ┌─────────┐  ┌─────────┐     │
│   │ DINOv3  │  │SimFeatUp│     │
│   └────┬────┘  └────┬────┘     │
│        └──────┬─────┘          │
│               ▼                │
│      高分辨率视觉特征           │
└───────────────┬─────────────────┘
┌─────────────────────────────────┐
│   上下文感知推理                 │
│   ┌───────────────────────┐     │
│   │  GMM聚类 → 语义区域   │     │
│   └───────────┬───────────┘     │
│               ▼                │
│   ┌───────────────────────┐     │
│   │  上下文校准 → 类别预测 │     │
│   └───────────────────────┘     │
└───────────────┬─────────────────┘
┌─────────────────────────────────┐
│   开放词汇分类                   │
│   ┌─────────┐  ┌─────────┐     │
│   │  BLIP   │  │OpenCLIP │     │
│   │(图像描述)│  │(文本编码)│     │
│   └────┬────┘  └────┬────┘     │
│        └──────┬─────┘          │
│               ▼                │
│      文本-视觉相似度            │
└───────────────┬─────────────────┘
          分割结果输出
  • 数据集:遥感语义分割标准数据集(如LoveDA、Potsdam等)
  • 基线方法:传统封闭词汇分割方法、CLIP-based开放词汇方法
  • 评估指标:mIoU(平均交并比)、mAcc(平均准确率)

ConInfer作为免训练方法,在遥感开放词汇分割任务上取得了与需要训练的方法相当甚至更好的性能,这在遥感领域是一个重要突破。

论文通过消融实验验证了各组件的有效性:

  1. 上下文推理模块的贡献:显著提升细粒度类别区分能力
  2. GMM聚类的作用:自动发现语义区域,提供空间先验
  3. BLIP描述的价值:补充全局语义信息

论文展示了在不同遥感场景下的分割结果,包括城市区域、农田、水体等,证明了方法在多样化场景下的泛化能力。

这篇论文的核心洞察在于:遥感图像虽然与自然图像存在领域差异,但这种差异可以通过上下文推理来弥合,而不需要昂贵的训练过程。这是一个非常实用的观点,因为它大大降低了开放词汇分割在遥感领域的应用门槛。

  1. 方法论层面:提出了免训练的开放词汇分割范式
  2. 技术层面:设计了上下文感知推理机制
  3. 应用层面:证明了预训练模型在遥感领域的可迁移性
  1. 零训练成本:无需任何标注数据和训练过程,直接利用预训练模型
  2. 开放词汇能力:理论上可以识别任意类别,只需提供文本描述
  3. 即插即用:框架模块化,可以方便地替换或升级各个组件
  1. 推理效率:多尺度特征提取和GMM聚类可能增加推理时间
  2. 细粒度识别:对于非常相似的类别(如不同树种),文本描述可能难以区分
  3. 极端场景:在云雾遮挡、阴影严重等极端条件下,性能可能下降
  1. 效率优化:探索更高效的特征提取和推理策略
  2. 多模态融合:结合SAR、高光谱等多模态数据
  3. 交互式分割:支持用户通过文本提示交互式地指定感兴趣区域

ConInfer是CVPR 2026的一篇重要工作,它提出了免训练的遥感开放词汇分割这一新颖且实用的研究方向。通过上下文感知推理机制,该方法在不进行任何训练的情况下,成功地将CLIP等预训练模型应用于遥感图像分割,取得了令人瞩目的性能。

这篇论文的价值不仅在于其技术创新,更在于其实用主义的研究理念——与其花费大量资源训练专用模型,不如充分利用已有的预训练模型,通过巧妙的推理策略来解决新问题。这种思路对于资源受限的遥感应用场景尤为重要。

随着遥感数据的爆炸式增长和预训练模型能力的不断提升,ConInfer所代表的免训练范式有望成为遥感智能解译的重要补充,推动遥感技术在更多实际场景中的落地应用。

Related Content