Falcon：首个支持14个任务的遥感视觉语言基础模型

Mon, 01 Jun 2026 12:00:00 +0800

论文解读 | arXiv 2025 | 2026-06-01

📄 论文信息

项目	内容
标题	Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report)
作者	Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang, Jin Wang, Ning Wei, Chao Li
单位	ZhejiangLab（之江实验室）
会议	arXiv 2025
arXiv	https://arxiv.org/abs/2503.11070
GitHub	https://github.com/TianHuiLab/Falcon (⭐372)
关键词	遥感基础模型、视觉语言模型、多任务学习、指令调优、统一表示

遥感图像解译是地球观测的核心任务，涵盖场景分类、目标检测、语义分割、变化检测等多个领域。近年来，大型视觉语言模型（LVLMs）在自然图像领域取得了巨大成功，但在遥感领域却面临严峻挑战：

模型	参数量	支持任务数	主要局限
GeoChat	7B	7	不支持像素级任务（分割、变化检测）
LHRS-Bot	7B	6	缺乏区域级和像素级理解能力
EarthGPT	7B	9	参数量大，推理效率低
RSGPT	7B	5	任务覆盖范围有限

如何构建一个轻量级、统一的遥感视觉语言模型，同时支持图像级、区域级和像素级的14个任务？