VHM：让遥感视觉语言模型既\"能干\"又\"诚实\"的AAAI 2025力作

Tue, 02 Jun 2026 12:00:00 +0800

VHM：让遥感视觉语言模型既"能干"又"诚实"的AAAI 2025力作

论文解读 | AAAI 2025 | 2026-06-02

项目	内容
标题	VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis
作者	Chao Pang, Xingxing Weng, Jiang Wu, Jiayu Li, Yi Liu, Jiaxing Sun, Weijia Li, Shuai Wang, Litong Feng, Gui-Song Xia, Conghui He
机构	武汉大学、上海人工智能实验室、中山大学、商汤科技
会议	AAAI 2025
arXiv	https://arxiv.org/abs/2403.20213
GitHub	https://github.com/opendatalab/VHM
关键词	遥感视觉语言模型、多功能性、诚实性、大规模数据集、指令微调

论文类型：实验验证型
创新性评分：⭐⭐⭐⭐ (4分)
判断依据：本文不仅提出了一个新的遥感视觉语言模型，更重要的是构建了大规模高质量数据集VersaD（140万图像-文本对）和创新性的"诚实性"训练范式。在数据稀缺的遥感VLM领域，这种"数据+方法"的双重贡献具有显著价值。

遥感图像分析正从传统的"看图识物"向"理解对话"转变。想象一下，你对着一张卫星图像问：“这个区域有多少栋建筑？它们的用途是什么？周围有哪些配套设施？"——这就是遥感视觉语言模型（RS-VLM）要做的事。

然而，现有的遥感VLM面临两个致命问题：