OSTB：遥感 VLM 部署别先赌一个 backbone

Sun, 14 Jun 2026 15:00:02 +0800

OSTB：遥感 VLM 部署别先赌一个 backbone

结论：这一轮最值得单独跟踪的是 One Stone, Three Birds: Self-adaptive Optimal Transport for Multi-VLM Selection, Adaptation, and Ensembling。它不是又训练一个遥感专用 CLIP，而是处理一个更接近真实部署的问题：手里同时有 CLIP、GeoRSCLIP、RemoteCLIP、SkyCLIP、RS-M-CLIP、RSDiX-CLIP、StreetCLIP 等候选 VLM，但目标地区没有标签，到底该信哪一个、怎么适配、要不要集成？论文提出 OSTB，用自适应最优传输在无标签目标集上估计样本-类别结构，并把同一个结构同时用于模型排序、目标域 GMM 适配和可靠性加权集成。对遥感 VLM 来说，它的价值在于把“选模型”从经验判断变成了可评测、可复现、可插拔的部署模块。

我按 2026-06-14 15:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线工作。本篇选择 2026-06-06 提交 arXiv 的 OSTB。论文 arXiv 页面、HTML、PDF 和官方 GitHub 仓库均已公开；仓库提供论文链接、特征数据下载入口、数据集划分说明和实验结果表。该工作覆盖自然图像、遥感和医学病理三类 benchmark，其中遥感部分是光学/航空/卫星场景分类数据集，不属于雷达方向。

这篇适合放进“遥感基础模型与多模态理解”。原因是它没有只讨论单个遥感模型的预训练配方，而是讨论 VLM 生态已经多模型化以后，如何在没有目标域标签的情况下做部署决策。对于遥感场景，这个问题很现实：一个地区、一个传感器、一个类别体系下，通用 CLIP 与遥感专用 CLIP 谁更可靠，并不能只看模型名字或平均榜单。

背景

遥感 VLM 的数量正在变多。早期可以简单比较 CLIP、RemoteCLIP、GeoRSCLIP 这类模型的零样本准确率；现在更常见的情况是，研究者或工程系统手里有多个候选模型：通用视觉语言模型有更广泛的自然图像先验，遥感专用模型有更强的 overhead imagery 语义，地理街景模型可能带来地名和城市空间先验，不同模型在不同遥感数据集上的强弱会发生明显切换。

实际部署时，最缺的通常不是候选模型，而是目标地区标签。比如要在一个新城市、新国家或新数据源上做场景分类、土地利用识别或开放词表检索，类别名可能是已知的，但没有足够标注样本来判断哪个 VLM 最适合。直接选“论文里平均分最高”的模型不稳，因为遥感数据的分辨率、地物组合、拍摄季节、城市形态和类别定义会改变模型偏差。

更麻烦的是，模型选择、目标域适配和模型集成经常被分开做。先凭经验选一个 backbone，再做 test-time adaptation；或者把多个模型概率简单平均；或者用置信度、熵、交叉熵之类指标选模型。这些做法都隐含一个假设：模型自己的置信度能代表可靠性。但 VLM 在域外数据上很容易过度自信，尤其是遥感类别名和图像纹理不完全匹配时。

最优传输 - Tag - 堂堂一跑堂

OSTB：遥感 VLM 部署别先赌一个 backbone

OSTB：遥感 VLM 部署别先赌一个 backbone

背景