SegEarth-OV：让遥感图像拥有\"开放世界\"分割能力

Sun, 31 May 2026 12:00:00 +0800

SegEarth-OV：让遥感图像拥有"开放世界"分割能力

标题: SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images
作者: Kaiyu Li, Ruixun Liu, Xiangyong Cao, Xueru Bai, Feng Zhou, Deyu Meng, Zhi Wang
会议: CVPR 2025 Oral（口头报告，最高级别）
代码: https://github.com/likyoo/SegEarth-OV
arXiv: https://arxiv.org/abs/2410.01768
项目主页: https://likyoo.github.io/SegEarth-OV/
关键词: 开放词汇语义分割、遥感图像、训练自由、SimFeatUp、CLIP适配

在遥感图像的语义分割领域，一个根深蒂固的假设一直限制着我们：封闭集假设（Close-set Assumption）。这意味着模型只能识别训练集中预定义的类别，无法处理未见过的新类别。

这个假设在实际应用中造成了严重问题：

作者的核心洞察：当我们把自然图像领域的开放词汇语义分割（OVSS）方法直接移植到遥感领域时，会出现一个关键问题——预测掩码中目标形状严重变形、边界不贴合。这不是方法本身的问题，而是遥感图像的特殊性导致的。

作者没有提出一个全新的框架，而是专注于解决两个具体的技术瓶颈。这种"小切口、深挖掘"的思路非常精妙。

问题发现：作者通过实验发现，CLIP模型的特征图分辨率仅为原图的1/16（ViT-B/16），这对于自然图像可能足够，但对于遥感图像来说远远不够。遥感图像中的目标往往尺寸较小、边界复杂，低分辨率特征会导致严重的形状失真。

解决方案：提出SimFeatUp，一个简单而通用的特征上采样器。

技术细节：

为什么这个设计巧妙？

问题发现：作者观察到CLIP模型中存在一个反常现象——局部patch token对[CLS] token的异常响应。这是因为CLIP在图像级别进行训练，[CLS] token承载了全局信息，但这种全局属性会"污染"局部特征，导致patch级别的预测出现偏差。

解决方案：提出一个极其简单的减法操作——从局部patch特征中减去全局特征。

技术细节：

为什么这个设计精妙？