OSTB:遥感 VLM 部署别先赌一个 backbone
OSTB:遥感 VLM 部署别先赌一个 backbone
结论:这一轮最值得单独跟踪的是 One Stone, Three Birds: Self-adaptive Optimal Transport for Multi-VLM Selection, Adaptation, and Ensembling。它不是又训练一个遥感专用 CLIP,而是处理一个更接近真实部署的问题:手里同时有 CLIP、GeoRSCLIP、RemoteCLIP、SkyCLIP、RS-M-CLIP、RSDiX-CLIP、StreetCLIP 等候选 VLM,但目标地区没有标签,到底该信哪一个、怎么适配、要不要集成?论文提出 OSTB,用自适应最优传输在无标签目标集上估计样本-类别结构,并把同一个结构同时用于模型排序、目标域 GMM 适配和可靠性加权集成。对遥感 VLM 来说,它的价值在于把“选模型”从经验判断变成了可评测、可复现、可插拔的部署模块。
我按 2026-06-14 15:00 +08 检索公开来源,过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线工作。本篇选择 2026-06-06 提交 arXiv 的 OSTB。论文 arXiv 页面、HTML、PDF 和官方 GitHub 仓库均已公开;仓库提供论文链接、特征数据下载入口、数据集划分说明和实验结果表。该工作覆盖自然图像、遥感和医学病理三类 benchmark,其中遥感部分是光学/航空/卫星场景分类数据集,不属于雷达方向。
这篇适合放进“遥感基础模型与多模态理解”。原因是它没有只讨论单个遥感模型的预训练配方,而是讨论 VLM 生态已经多模型化以后,如何在没有目标域标签的情况下做部署决策。对于遥感场景,这个问题很现实:一个地区、一个传感器、一个类别体系下,通用 CLIP 与遥感专用 CLIP 谁更可靠,并不能只看模型名字或平均榜单。
背景
遥感 VLM 的数量正在变多。早期可以简单比较 CLIP、RemoteCLIP、GeoRSCLIP 这类模型的零样本准确率;现在更常见的情况是,研究者或工程系统手里有多个候选模型:通用视觉语言模型有更广泛的自然图像先验,遥感专用模型有更强的 overhead imagery 语义,地理街景模型可能带来地名和城市空间先验,不同模型在不同遥感数据集上的强弱会发生明显切换。
实际部署时,最缺的通常不是候选模型,而是目标地区标签。比如要在一个新城市、新国家或新数据源上做场景分类、土地利用识别或开放词表检索,类别名可能是已知的,但没有足够标注样本来判断哪个 VLM 最适合。直接选“论文里平均分最高”的模型不稳,因为遥感数据的分辨率、地物组合、拍摄季节、城市形态和类别定义会改变模型偏差。
更麻烦的是,模型选择、目标域适配和模型集成经常被分开做。先凭经验选一个 backbone,再做 test-time adaptation;或者把多个模型概率简单平均;或者用置信度、熵、交叉熵之类指标选模型。这些做法都隐含一个假设:模型自己的置信度能代表可靠性。但 VLM 在域外数据上很容易过度自信,尤其是遥感类别名和图像纹理不完全匹配时。
OSTB 的切口正是在这里。它把部署问题改写为:给定若干冻结 VLM、目标类别名称和一批无标签目标图像,能不能从这些模型互相冲突但互补的预测和特征中,估计一个更可信的目标域样本-类别结构?如果能,那么这个结构不只可以告诉我们哪个模型靠谱,还可以反过来适配每个模型的视觉特征分布,并为最终集成分配权重。
方法/框架
OSTB 的核心是自适应最优传输。输入包括候选模型池、目标类别文本和无标签目标适配集。每个 VLM 都提供两类信息:一类是语义 posterior,也就是图像-文本相似度经过 softmax 后得到的类别概率;另一类是视觉 posterior,也就是用该 VLM 的图像特征在目标集上拟合类别条件的 GMM,再得到样本到类别的视觉概率。
论文的关键判断是:语义 posterior 和视觉 posterior 都不应被单独信任。语义 posterior 直接来自类别文本和图像特征的匹配,容易受 prompt、类别词和预训练语料影响;视觉 posterior 更贴近目标集的特征结构,但初始伪标签可能很噪。OSTB 用最优传输在样本和类别之间估计一个共享 coupling,同时施加边际约束,避免所有样本塌到少数高置信类别上。
这个 transport plan 扮演三个角色。第一,它是模型选择依据。OSTB 根据每个模型的语义分支和视觉分支与共享目标结构的一致性,给候选 VLM 排序。第二,它是适配监督。transport plan 给 GMM 分支提供软分配,使每个模型的视觉类别中心向目标域真实簇结构靠拢,而不是停留在噪声伪标签初始化上。第三,它是集成权重来源。最终预测同时融合各模型的语义 posterior 和适配后的视觉 posterior,权重来自自适应可靠性估计。
这个设计比简单 ensemble 更有意义。简单平均会让错误但自信的模型污染结果;只选一个模型又浪费了其他 VLM 的互补信息。OSTB 的思路是让多个模型先共同解释无标签目标集的样本-类别结构,再由这个结构决定谁更可信、怎么适配、怎么集成。
从 CV-to-RS 迁移角度看,OSTB 是典型的通用 CV/ML 方法向遥感迁移:方法本身不是遥感专用网络,而是多模型无标签部署框架。遥感适配点在于候选池中同时放入通用 VLM 和遥感 VLM,目标数据集换成 AID、EuroSAT、MLRSNet、PatternNet、RESISC45 等遥感场景分类 benchmark。它回答的不是“遥感图像该用哪种卷积或 Transformer”,而是“当多个预训练 VLM 都可能有偏时,如何用目标域自身的无标签结构做可靠部署”。
数据/benchmark
论文把实验分成自然图像、遥感和医学病理三类,总共 36 个 benchmark。遥感部分包含 10 个场景分类或土地覆盖相关数据集:AID、EuroSAT、MLRSNet、OPTIMAL31、PatternNet、RESISC45、RSC11、RSICB128、RSICB256 和 WHURS19。它们覆盖航空场景、高分辨率场景分类、多标签遥感、土地覆盖和不同尺度的遥感图像分类。
遥感候选模型池由通用 VLM 和遥感/地理 VLM 混合组成:OpenAI CLIP ViT-B/16、CLIP ViT-B/32、GeoRSCLIP-ViT-B/32、RemoteCLIP-ViT-B/32、SkyCLIP50-ViT-B/32、RS-M-CLIP、RSDiX-CLIP-ViT-B/16、RSDiX-CLIP-ViT-B/32 和 StreetCLIP。这个设置很贴近真实选择困难:通用模型、遥感模型和地理语义模型都可能有理由被纳入候选池。
遥感数据规模也比较丰富。MLRSNet 有 109,161 张样本和 46 类,PatternNet 有 30,400 张和 38 类,RESISC45 有 31,500 张和 45 类;小数据集如 WHURS19 只有 1,005 张和 19 类,OPTIMAL31 有 1,860 张和 31 类。这种规模差异能测试 OSTB 在大目标集和小目标集上的稳定性。
协议上,目标适配集是无标签的。OSTB 只使用目标类别名称、候选 VLM 的概率输出和视觉特征,不使用目标标签训练 VLM,也不做 prompt optimization 或 prompt ensembling。适配阶段估计 transport plan、GMM 分类器和可靠性权重;测试阶段把这些固定下来评估 held-out target test samples。这个协议比“看测试集选最强模型”更接近真实部署。
实验
总体模型选择结果显示,OSTB 在 36 个 benchmark 平均上取得最好的 label-free 排序质量。论文用 held-out test accuracy 诱导的 oracle ranking 做参照,OSTB 的 Spearman ρ 为 0.807,Kendall τ 为 0.680,Hit@1 为 0.667,Top-3 为 0.917,regret 为 1.249,selected-model accuracy 为 77.03%。作为对比,KL divergence、cross-entropy、entropy 和 confidence 等无标签排序指标整体更弱。
Top-k 部署结果也有信息量。如果只使用 OSTB 排序后的 top-1 候选,在遥感域平均准确率为 79.95%;top-2 提升到 83.38%;top-4 达到 86.24%;使用所有候选则为 85.37%。这说明排序不仅能解释模型可靠性,也能作为部署剪枝工具:在延迟、显存或模型授权受限时,保留少数高可靠模型可能比全量集成更合适。
模型适配结果表明,共享多 VLM 结构比单模型独立适配强。遥感域中,原始 zero-shot 平均为 65.03%,single-VLM GMM 为 74.44%,multi-VLM GMM 为 81.60%。换句话说,多个候选模型共同估计目标结构后,能给每个模型的视觉 GMM 分支提供更好的无标签监督。
最重要的是遥感集成结果。论文的 Table VIII 显示,最强原始候选 RSDiX-CLIP-B/16 的遥感平均准确率为 75.12%,而 OSTB ensemble 达到 85.37%。在 10 个遥感 benchmark 上,OSTB 都是主部署行中最强的结果:AID 98.70、EuroSAT 70.70、MLRSNet 85.22、OPTIMAL31 99.28、PatternNet 96.72、RESISC45 98.80、RSC11 89.46、RSICB128 50.53、RSICB256 64.59、WHURS19 99.67。
这些结果也暴露了遥感 VLM 的真实难点。AID、OPTIMAL31、RESISC45、WHURS19 等数据集上很多模型已经很强,集成后接近饱和;但 RSICB128 和 RSICB256 仍然明显偏低,说明类别体系、尺度或数据分布对 VLM 仍然有挑战。OSTB 能显著提升平均性能,但不是把遥感场景分类彻底解决。
消融实验说明,提升不是来自简单平均。直接平均候选模型概率的 overall accuracy 为 76.17%,semantic-only fusion 为 77.48%,完整 OSTB 为 82.75%。去掉 transport marginal、GMM refinement 或 adaptive weights 都会造成不同程度下降。这说明最优传输的边际约束、目标域 GMM 更新和自适应权重都在发挥作用。
亮点
第一,它把遥感 VLM 的“模型选择”问题显性化。很多遥感论文默认只比较自己的模型和几个 baseline,但真实系统里经常要从多个已有 VLM 中选择。OSTB 提供了一个无标签排序和集成框架,可以直接作为部署层方法复用。
第二,它没有要求重新训练 VLM。候选模型保持冻结,只使用概率输出和图像特征。这对遥感很重要,因为很多预训练模型权重可用但训练数据不可复现,重新微调成本高,且不同机构可能只能调用模型接口或离线特征。
第三,它同时处理选择、适配和集成,而不是三个孤立步骤。共享 transport plan 让模型排序、GMM 适配和 ensemble 权重来自同一个目标域结构,这比先随便选模型再做后处理更有系统性。
第四,它的遥感实验覆盖多种 VLM。CLIP、GeoRSCLIP、RemoteCLIP、SkyCLIP、RS-M-CLIP、RSDiX-CLIP 和 StreetCLIP 的混合候选池,正好反映当前遥感 VLM 生态的多源化趋势。论文结果也说明,遥感专用模型不一定在所有数据集上都稳定占优。
第五,它对 CV-to-RS 方法迁移很有启发。最优传输、多模型可靠性估计、无标签目标域适配和 GMM 视觉结构建模,本来都是通用机器学习问题;遥感场景只是把这些问题放大了,因为域差异、类别粒度和空间分布偏差更强。
不足
第一,任务主要是图像级场景分类,还没有覆盖遥感 VLM 更难的密集任务。开放词表检测、分割、变化描述、grounding、VQA 和矢量化任务中,模型可靠性不仅体现在类别概率,还体现在空间定位、边界质量和证据链上。OSTB 的思想可迁移,但当前实验证据还集中在分类。
第二,类别先验用的是目标类别名称。遥感类别名经常有定义歧义,例如 industrial area、meadow、residential、bare land 在不同数据集中含义不完全一致。论文没有重点讨论 prompt 描述、同义词、类别层级和遥感术语对 transport plan 的影响。
第三,遥感 benchmark 仍以经典场景数据集为主。AID、RESISC45、PatternNet 等适合验证图像级分类,但它们与真实大范围制图、跨城市泛化、跨传感器泛化、长尾地物识别仍有距离。OSTB 在更难的 OOD split 上是否稳定,还需要单独评估。
第四,方法依赖候选池质量。如果所有候选 VLM 都对目标数据集有系统性偏差,最优传输只能在错误证据之间找共识。遥感中这很常见,例如目标地区类别体系不在任何预训练数据中,或者图像来自少见季节、传感器、空间分辨率。
第五,GitHub 仓库提供了特征数据和结果说明,但不是一个完整、即插即跑的遥感部署工具。对于想把 OSTB 接到新遥感数据的人,还需要自己准备每个候选 VLM 的图像特征、文本特征、类别 prompt、数据划分和推理缓存。
启发
一个可做的小论文方向是:Label-Free Model Router for Remote Sensing VLM Deployment。核心问题不是再预训练一个更大的遥感 VLM,而是给已有模型生态加一个可靠路由层:面对一个无标签目标地区,系统自动判断该用哪些 VLM、哪些类别需要集成、哪些样本应该拒答或请求标注。
假设是:不同遥感类别和不同空间区域适合的 VLM 不同。比如建筑、港口和机场可能更依赖高分辨率遥感专用模型;农田、森林和水体可能受多光谱或季节影响更强;城市功能区可能需要地理语义或 POI 先验。若只做 dataset-level 模型选择,仍然会掩盖 class-level 和 region-level 的可靠性差异。
方法可以从 OSTB 扩展。第一步,保留多 VLM 候选池和无标签 target adaptation split。第二步,把 transport plan 的可靠性估计从模型级扩展到类别级、样本级和区域级。第三步,为每个类别学习不同的模型权重,而不是全数据集共享一组权重。第四步,在低一致性样本上输出 uncertainty,并触发人工标注、检索更多时相影像或调用 GIS prior。
数据可以先从 OSTB 的遥感分类 benchmark 做起,再加入更贴近真实遥感 VLM 的任务:RSVQA、RRSIS-D、EarthReason、OVRSISBench、LoveDA、OpenEarthMap、iSAID、xBD 或 SpaceNet。分类任务用 accuracy 和 calibration error;分割任务用 mIoU、boundary F1 和 selective IoU;VQA/grounding 任务用 answer accuracy、pointing accuracy、box/mask IoU 和 evidence consistency。
基线可以包括 best single VLM、zero-shot average ensemble、confidence routing、entropy routing、KL/cross-entropy ranking、single-model test-time adaptation、OSTB 原始版本,以及带类别级权重的扩展版本。关键不是只报告平均精度,而是报告在跨地区、跨类别、长尾类别、低置信样本和 OOD split 上的可靠性曲线。
一个可直接放进实验规范的 prompt/检查清单是:
你是遥感 VLM 部署路由器。给定目标任务、类别集合、无标签目标样本统计和多个候选 VLM 的预测摘要,请不要直接选择平均分最高的模型,而要输出可审计的部署计划:
1. candidate_pool: 每个候选 VLM 的来源、输入模态、预训练域和可能偏差。
2. class_routing: 对每个遥感类别,推荐使用哪些模型以及权重,说明依据。
3. sample_uncertainty: 哪些样本或类别存在模型冲突、低一致性或高 OOD 风险。
4. adaptation_plan: 是否需要无标签适配、GMM/OT 校准、prompt 改写或少量人工标注。
5. rejection_rule: 何时不输出确定类别,改为请求更多证据或人工复核。
6. validation_protocol: 用哪些 held-out 地区、类别和指标验证路由器。
7. failure_modes: 列出可能失败的遥感场景,例如季节变化、细粒度类别、低分辨率、小目标、类别定义冲突。
禁止只根据模型名称、论文平均分或单一置信度做选择。
如果候选模型之间强烈冲突,必须给出不确定性和后续取证方案。
如果类别名在遥感中有歧义,必须建议使用更具体的遥感类别描述。这个方向和遥感 VLM 的关系很直接。未来遥感系统不会只有一个模型,而会同时接入通用 VLM、遥感 CLIP、GeoFM embedding、SAM/开放词表分割器、变化检测模型和 GIS 工具。真正的瓶颈会从“有没有模型”转向“什么时候该信哪个模型”。OSTB 的提示是:遥感多模态理解需要一个无标签、可校准、可审计的模型路由和集成层。
参考
- arXiv:https://arxiv.org/abs/2606.08126
- arXiv HTML:https://arxiv.org/html/2606.08126v1
- 官方 GitHub:https://github.com/Afleve/OSTB
- GitHub README:https://raw.githubusercontent.com/Afleve/OSTB/main/README.md
- GeoRSCLIP / RS5M:https://github.com/om-ai-lab/RS5M
- RemoteCLIP:https://github.com/ChenDelong1999/RemoteCLIP
- SkyCLIP / SkyScript:https://github.com/wangzhecheng/SkyScript
评论