FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座

Tue, 16 Jun 2026 13:00:02 +0800

FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座

结论：这一轮最值得补进雷达的是 FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models。它不是又一个只做 RGB caption/retrieval 的遥感 VLM 数据集，而是把 60 万组遥感 RGB 图像、翻译得到的 infrared-style 图像和文本描述组织成 RGB-IR-text triplets，并额外生成 49,068 条训练用 IR-aware captions 与 10,000 条测试用 IR-aware captions。论文用 FusionRS 训练 CLIP-style RGB-IR-text 对齐模型和生成式 VLM，显示 IR-aware captions 能显著增强红外图像描述、IR-cue QA 和红外-文本对齐。对遥感 AI 来说，它的价值不在于提供“真实热红外物理测量”，而在于提出一个很清晰的数据工程问题：如果遥感 VLM 要走向非 RGB、多模态、可解释描述，文本监督必须显式描述该模态的视觉证据，而不能只复用 RGB caption。

我按 2026-06-16 13:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是 RGB/infrared vision-language 数据集与模型训练论文，红外在这里是 visible/infrared 或 infrared-style 视觉模态，不是 SAR、InSAR、微波后向散射或雷达相干。同期本地文章已经覆盖 RATS、Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、CoastlineVLM、Stateful Visual Encoders、LG-SAM、VecLang、TerraBench、OSTB 等方向，因此这里不重复已有条目。

红外 - Tag - 堂堂一跑堂

FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座

FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座