开放词汇 - Tag - 堂堂一跑堂

开放词汇 - Tag - 堂堂一跑堂https://spacetop.win/tags/%E5%BC%80%E6%94%BE%E8%AF%8D%E6%B1%87/开放词汇 - Tag - 堂堂一跑堂Hugo -- gohugo.iozh-CNkingcopper@whu.edu.cn (WangTong)kingcopper@whu.edu.cn (WangTong)Sun, 31 May 2026 12:00:00 +0800开放词汇遥感语义分割：GSNet如何让AI识别任意地物类别https://spacetop.win/2026/05/20260531_123557_open_vocabulary_remote_sensing_segmentation/Sun, 31 May 2026 12:00:00 +0800WangTonghttps://spacetop.win/2026/05/20260531_123557_open_vocabulary_remote_sensing_segmentation/ 开放词汇遥感语义分割：GSNet如何让AI识别任意地物类别

📌 论文信息

标题: Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation
作者: Chengyang Ye, Yunzhi Zhuge, Pingping Zhang
会议: AAAI 2025 (39th Annual AAAI Conference on Artificial Intelligence)
论文: https://arxiv.org/abs/2412.19492
代码: https://github.com/yecy749/gsnet
关键词: 开放词汇、语义分割、遥感图像、CLIP、双流编码器

❓ 研究问题：遥感分割的"类别牢笼"

问题来源

遥感图像语义分割（RSISS）是地球观测的核心任务，但现有方法存在一个根本性限制：只能识别预定义的类别。

核心问题细节

传统方法的困境:

类别固定: 训练时定义了多少类，就只能识别多少类
标注成本高: 每增加一个新类别，需要大量像素级标注
模型重训: 适应新类别需要重新训练整个模型
场景受限: 不同应用场景需要不同的类别集合

实际案例:

城市规划需要识别"建筑、道路、绿地"
灾害评估需要识别"积水、废墟、救援通道"
农业监测需要识别"作物类型、病虫害区域"

每次任务切换都需要重新标注数据和训练模型，成本极高。

问题本质

现有方法将遥感分割视为"闭集"问题，而现实世界是"开集"的——你永远无法预知未来需要识别什么类别。

💡 解决方案：GSNet的双流融合架构

核心创新点

GSNet（Generalist and Specialist Network）提出了一个精妙的解决方案：融合通用视觉语言模型的开放能力和遥感领域模型的专业知识。

技术细节拆解

1. 双流图像编码器（Dual-Stream Image Encoder, DSIE）

设计理念: 两条并行的特征提取流，分别捕获通用语义和领域知识。

通用流（Generalist Stream）:

使用CLIP的视觉编码器
通过大规模图像-文本对预训练
擅长识别新目标和新语义
提供开放词汇能力

专业流（Specialist Stream）:

使用RSIB（Remote Sensing Image Backbone）
通过自监督学习在遥感数据上预训练
捕获遥感特有的空间和光谱特征
提供领域专业知识

技术细节:

]]>