<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>最优传输 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E6%9C%80%E4%BC%98%E4%BC%A0%E8%BE%93/</link><description>最优传输 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Sun, 14 Jun 2026 15:00:02 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E6%9C%80%E4%BC%98%E4%BC%A0%E8%BE%93/" rel="self" type="application/rss+xml"/><item><title>OSTB：遥感 VLM 部署别先赌一个 backbone</title><link>https://spacetop.win/2026/06/20260614_150002_twohour_remote_sensing_radar/</link><pubDate>Sun, 14 Jun 2026 15:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260614_150002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="ostb遥感-vlm-部署别先赌一个-backbone" class="headerLink">
    <a href="#ostb%e9%81%a5%e6%84%9f-vlm-%e9%83%a8%e7%bd%b2%e5%88%ab%e5%85%88%e8%b5%8c%e4%b8%80%e4%b8%aa-backbone" class="header-mark"></a>OSTB：遥感 VLM 部署别先赌一个 backbone</h1><p><strong>结论：这一轮最值得单独跟踪的是 <em>One Stone, Three Birds: Self-adaptive Optimal Transport for Multi-VLM Selection, Adaptation, and Ensembling</em>。它不是又训练一个遥感专用 CLIP，而是处理一个更接近真实部署的问题：手里同时有 CLIP、GeoRSCLIP、RemoteCLIP、SkyCLIP、RS-M-CLIP、RSDiX-CLIP、StreetCLIP 等候选 VLM，但目标地区没有标签，到底该信哪一个、怎么适配、要不要集成？论文提出 OSTB，用自适应最优传输在无标签目标集上估计样本-类别结构，并把同一个结构同时用于模型排序、目标域 GMM 适配和可靠性加权集成。对遥感 VLM 来说，它的价值在于把“选模型”从经验判断变成了可评测、可复现、可插拔的部署模块。</strong></p>
<p>我按 2026-06-14 15:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线工作。本篇选择 2026-06-06 提交 arXiv 的 OSTB。论文 arXiv 页面、HTML、PDF 和官方 GitHub 仓库均已公开；仓库提供论文链接、特征数据下载入口、数据集划分说明和实验结果表。该工作覆盖自然图像、遥感和医学病理三类 benchmark，其中遥感部分是光学/航空/卫星场景分类数据集，不属于雷达方向。</p>
<p>这篇适合放进“遥感基础模型与多模态理解”。原因是它没有只讨论单个遥感模型的预训练配方，而是讨论 VLM 生态已经多模型化以后，如何在没有目标域标签的情况下做部署决策。对于遥感场景，这个问题很现实：一个地区、一个传感器、一个类别体系下，通用 CLIP 与遥感专用 CLIP 谁更可靠，并不能只看模型名字或平均榜单。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>遥感 VLM 的数量正在变多。早期可以简单比较 CLIP、RemoteCLIP、GeoRSCLIP 这类模型的零样本准确率；现在更常见的情况是，研究者或工程系统手里有多个候选模型：通用视觉语言模型有更广泛的自然图像先验，遥感专用模型有更强的 overhead imagery 语义，地理街景模型可能带来地名和城市空间先验，不同模型在不同遥感数据集上的强弱会发生明显切换。</p>
<p>实际部署时，最缺的通常不是候选模型，而是目标地区标签。比如要在一个新城市、新国家或新数据源上做场景分类、土地利用识别或开放词表检索，类别名可能是已知的，但没有足够标注样本来判断哪个 VLM 最适合。直接选“论文里平均分最高”的模型不稳，因为遥感数据的分辨率、地物组合、拍摄季节、城市形态和类别定义会改变模型偏差。</p>
<p>更麻烦的是，模型选择、目标域适配和模型集成经常被分开做。先凭经验选一个 backbone，再做 test-time adaptation；或者把多个模型概率简单平均；或者用置信度、熵、交叉熵之类指标选模型。这些做法都隐含一个假设：模型自己的置信度能代表可靠性。但 VLM 在域外数据上很容易过度自信，尤其是遥感类别名和图像纹理不完全匹配时。</p>]]></description></item></channel></rss>