<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>RemoteCLIP - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/remoteclip/</link><description>RemoteCLIP - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Sun, 14 Jun 2026 13:00:02 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/remoteclip/" rel="self" type="application/rss+xml"/><item><title>RSKT-Seg：开放词表遥感分割需要自己的 benchmark</title><link>https://spacetop.win/2026/06/20260614_130002_twohour_remote_sensing_radar/</link><pubDate>Sun, 14 Jun 2026 13:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260614_130002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="rskt-seg开放词表遥感分割需要自己的-benchmark" class="headerLink">
    <a href="#rskt-seg%e5%bc%80%e6%94%be%e8%af%8d%e8%a1%a8%e9%81%a5%e6%84%9f%e5%88%86%e5%89%b2%e9%9c%80%e8%a6%81%e8%87%aa%e5%b7%b1%e7%9a%84-benchmark" class="header-mark"></a>RSKT-Seg：开放词表遥感分割需要自己的 benchmark</h1><p><strong>结论：这一轮最值得单独跟踪的是 <em>RSKT-Seg: Remote Sensing Knowledge Transfer for Open-Vocabulary Semantic Segmentation</em>。它的价值不只是提出一个开放词表遥感语义分割模型，而是把问题拆成了三件更基础的事：遥感类别名称太粗，通用视觉语言模型容易被自然图像语义带偏；遥感图像中的尺度、纹理和俯视视角会削弱 CLIP 类文本对齐；现有遥感分割数据集本来就不是为“见过类/未见类”泛化评测设计的。因此 RSKT-Seg 同时给出知识迁移方法和 OVRSISBench，把开放词表遥感分割从 demo 推向可比较 benchmark。</strong></p>
<p>我按 2026-06-14 13:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线。本篇选择 2025-09-16 提交 arXiv、2026-06-10 更新 v2 的 RSKT-Seg。论文和 arXiv HTML 已公开；官方 GitHub 仓库标注为 AAAI 2026 Oral，并提供代码、预训练权重、OVRSISBench 数据集说明和训练/评测配置。该工作面向光学遥感语义分割和开放词表迁移，不属于雷达方向。</p>
<p>这篇适合放进“可提示分割、开放词表与密集预测”。原因是它不满足于让 SAM 或 CLIP 在遥感图上跑一个零样本例子，而是直面开放词表语义分割的评测协议：哪些类别是 base，哪些类别是 novel，文本类别名如何构造，遥感知识如何注入，最后如何在多个公开数据集上比较未见类 mIoU。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>开放词表分割在自然图像里已经形成一套常见路线：用 CLIP 或 VLM 建立图像区域和文本类别的对齐，再用 mask proposal、dense decoder 或 region-text matching 给未见类做分割。遥感看上去也适合这条路线，因为很多应用场景确实不可能为每个地区、每个地物类别都重新标注。</p>
<p>问题是，遥感的“词表”并不等于自然图像词表。<code>building</code> 在遥感里可能是密集居民区、高层楼顶、厂房、温室或临时建筑；<code>road</code> 可能是城市道路、乡村土路、桥面、机场跑道或停车场内部通道；<code>bare land</code>、<code>impervious surface</code>、<code>low vegetation</code> 这类标签在自然图像语料里本来就弱。直接把自然图像 CLIP 类别提示搬到遥感分割，模型很容易看见纹理但对不上遥感类别体系。</p>]]></description></item></channel></rss>