RemoteSAM:面向地球观测的\"分割一切\"基础模型

RemoteSAM:面向地球观测的"分割一切"基础模型

📅 发布时间:2025年5月 🔗 论文链接:arXiv:2505.18022 💻 代码仓库:GitHub 🏷️ 关键词:遥感基础模型、参考表达分割、任务统一、数据引擎、像素级感知


项目内容
标题RemoteSAM: Towards Segment Anything for Earth Observation
作者未在搜索结果中明确列出
机构未明确
会议/期刊arXiv预印本(2025年5月)
代码https://github.com/1e12Leon/RemoteSAM
数据集RemoteSAM-270K(270K图像-文本-掩码三元组)

大领域:计算机视觉 × 遥感图像理解

小领域:遥感视觉基础模型

研究层次:方法创新 + 数据集构建 + 统一框架设计


当前遥感领域的视觉基础模型面临两个核心挑战:

  1. 任务碎片化:现有系统通常采用特定任务架构,在狭窄数据域上训练,语义覆盖有限
  2. 接口不统一:不同任务(分类、检测、分割、定位)需要不同的输入输出接口,难以用单一模型处理

如何构建一个既强大又灵活的遥感视觉基础模型,使其能够:

  • 识别和定位多样化的视觉目标
  • 兼容各种任务场景所需的输入输出接口
  • 在细粒度像素级预测任务上取得优异性能

这个问题的本质在于任务统一性模型灵活性之间的矛盾。传统方法要么专注于单一任务(如仅做分割),要么需要为每个任务设计特定的头(head),导致模型臃肿且难以扩展。


RemoteSAM的核心创新在于以参考表达分割(Referring Expression Segmentation, RES)为中心的任务统一范式

关键洞察:像素级掩码是视觉任务的基础计算单元,天然兼容区域级和图像级任务,同时保持最大的空间精度。

问题:现有遥感数据集语义覆盖有限,难以训练通用基础模型

解决方案

  • 利用视觉语言模型(VLM)和多教师定位技术
  • 自动化构建大规模数据集
  • 创建了RemoteSAM-270K,包含:
    • 270,000个图像-文本-掩码三元组
    • 297个语义类别
    • 16种细粒度属性描述

创新点

  • 相比人工标注或基于规则的方法,具有更好的可扩展性
  • 首个广义(generalized)遥感参考分割数据集

问题:不同视觉任务需要不同的输出格式

解决方案:以RES输出为基础,通过转换策略处理多种任务:

任务类型转换策略输出格式
参考分割直接使用原始输出像素级掩码 $\hat{M}$
语义分割聚合多个参考表达的掩码分割图
目标检测掩码转边界框边界框坐标
图像分类全局掩码池化类别标签
目标定位掩码区域提取区域特征

创新点

  • 单一架构,无任务特定头
  • 参数效率高(从十亿级降至百万级)
  • 像素级输出作为统一基础

架构设计

  • 采用编码器-解码器结构
  • 编码器提取多尺度视觉特征
  • 解码器生成像素级掩码
  • 文本编码器处理参考表达

关键特性

  • 支持高分辨率遥感图像处理
  • 灵活的输入输出接口
  • 参数高效的架构设计

评估基准

  • RRSISD(遥感参考表达分割数据集)
  • RisBench(参考图像分割基准)
  • 多个语义分割数据集
  • 多标签分类数据集

对比方法

  • Falcon
  • GeoChat
  • LHRS-Bot
  • MA3E
  • ScaleMAE
  • SAM2-based方法(RS2-SAM2)
方法RRSISD mIoURisBench mIoU
RS2-SAM266.72%-
RemoteSAM71.75%+3.21%

关键发现

  • 在RRSISD上超越SAM2-based架构5.03%
  • 在RisBench上建立新的SOTA,绝对性能提升3.21%
  • 优势主要来源于训练数据的广泛语义覆盖

关键发现

  • 无需微调即可实现语义分割SOTA
  • 超越MA3E和ScaleMAE等视觉基础模型
  • 展示了强大的零样本泛化能力

关键发现

  • 比GeoChat提高35%的准确率
  • 参数效率显著(参数量从十亿级降至百万级)
  • 在保持高精度的同时大幅降低计算成本

数据规模影响

  • 从10K到270K数据量的扩展带来持续性能提升
  • 语义类别覆盖度是关键因素

架构设计影响

  • 以RES为中心的统一范式优于多任务头设计
  • 像素级输出作为基础单元的有效性得到验证

亮点

  1. 范式创新:提出以RES为中心的任务统一范式,这是首次在遥感领域探索
  2. 数据创新:构建了迄今最大的遥感参考分割数据集(270K)
  3. 工程创新:自动数据引擎具有很好的可扩展性

不足

  1. 非顶会论文,影响力有限
  2. 与SAM系列的直接对比不够充分

设计精妙之处

  1. 统一性:用单一模型处理多种任务,避免了任务特定头的设计
  2. 效率性:参数量从十亿级降至百万级,适合实际部署
  3. 可扩展性:自动数据引擎便于构建更大规模数据集

潜在改进空间

  1. 可以探索更高效的注意力机制
  2. 时序信息的融入值得进一步研究

实用价值

  1. 代码开源:完整代码和预训练模型已公开
  2. 数据集公开:RemoteSAM-270K数据集可供社区使用
  3. 易于部署:参数效率高,适合资源受限环境

推荐理由

  • 解决了遥感基础模型的任务统一性问题
  • 提出了创新的数据构建方法
  • 在多个基准上取得SOTA性能
  • 代码和数据集完全开源

适用场景

  • 需要处理多种遥感视觉任务的场景
  • 资源受限但需要高精度的应用
  • 遥感基础模型的研究和开发

  1. SAM系列

  2. 遥感基础模型

  3. 参考表达分割

  • GitHub仓库:https://github.com/1e12Leon/RemoteSAM
  • 数据集下载:见GitHub仓库说明
  • 预训练模型:见GitHub仓库说明

RemoteSAM通过以参考表达分割为中心的任务统一范式,成功解决了遥感视觉基础模型的任务碎片化接口不统一问题。其核心创新包括:

  1. 自动数据引擎:构建了270K规模的大规模数据集
  2. 任务统一范式:用单一模型处理多种视觉任务
  3. 参数高效设计:从十亿级参数降至百万级

该工作为遥感基础模型的发展提供了新的思路,特别是在任务统一性数据可扩展性方面做出了重要贡献。代码和数据集的开源将进一步推动该领域的研究进展。


📝 本文由AI辅助生成,基于公开搜索结果整理,仅供学术交流参考。