<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>开放词表 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E5%BC%80%E6%94%BE%E8%AF%8D%E8%A1%A8/</link><description>开放词表 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Sun, 14 Jun 2026 13:00:02 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E5%BC%80%E6%94%BE%E8%AF%8D%E8%A1%A8/" rel="self" type="application/rss+xml"/><item><title>RSKT-Seg：开放词表遥感分割需要自己的 benchmark</title><link>https://spacetop.win/2026/06/20260614_130002_twohour_remote_sensing_radar/</link><pubDate>Sun, 14 Jun 2026 13:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260614_130002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="rskt-seg开放词表遥感分割需要自己的-benchmark" class="headerLink">
    <a href="#rskt-seg%e5%bc%80%e6%94%be%e8%af%8d%e8%a1%a8%e9%81%a5%e6%84%9f%e5%88%86%e5%89%b2%e9%9c%80%e8%a6%81%e8%87%aa%e5%b7%b1%e7%9a%84-benchmark" class="header-mark"></a>RSKT-Seg：开放词表遥感分割需要自己的 benchmark</h1><p><strong>结论：这一轮最值得单独跟踪的是 <em>RSKT-Seg: Remote Sensing Knowledge Transfer for Open-Vocabulary Semantic Segmentation</em>。它的价值不只是提出一个开放词表遥感语义分割模型，而是把问题拆成了三件更基础的事：遥感类别名称太粗，通用视觉语言模型容易被自然图像语义带偏；遥感图像中的尺度、纹理和俯视视角会削弱 CLIP 类文本对齐；现有遥感分割数据集本来就不是为“见过类/未见类”泛化评测设计的。因此 RSKT-Seg 同时给出知识迁移方法和 OVRSISBench，把开放词表遥感分割从 demo 推向可比较 benchmark。</strong></p>
<p>我按 2026-06-14 13:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线。本篇选择 2025-09-16 提交 arXiv、2026-06-10 更新 v2 的 RSKT-Seg。论文和 arXiv HTML 已公开；官方 GitHub 仓库标注为 AAAI 2026 Oral，并提供代码、预训练权重、OVRSISBench 数据集说明和训练/评测配置。该工作面向光学遥感语义分割和开放词表迁移，不属于雷达方向。</p>
<p>这篇适合放进“可提示分割、开放词表与密集预测”。原因是它不满足于让 SAM 或 CLIP 在遥感图上跑一个零样本例子，而是直面开放词表语义分割的评测协议：哪些类别是 base，哪些类别是 novel，文本类别名如何构造，遥感知识如何注入，最后如何在多个公开数据集上比较未见类 mIoU。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>开放词表分割在自然图像里已经形成一套常见路线：用 CLIP 或 VLM 建立图像区域和文本类别的对齐，再用 mask proposal、dense decoder 或 region-text matching 给未见类做分割。遥感看上去也适合这条路线，因为很多应用场景确实不可能为每个地区、每个地物类别都重新标注。</p>
<p>问题是，遥感的“词表”并不等于自然图像词表。<code>building</code> 在遥感里可能是密集居民区、高层楼顶、厂房、温室或临时建筑；<code>road</code> 可能是城市道路、乡村土路、桥面、机场跑道或停车场内部通道；<code>bare land</code>、<code>impervious surface</code>、<code>low vegetation</code> 这类标签在自然图像语料里本来就弱。直接把自然图像 CLIP 类别提示搬到遥感分割，模型很容易看见纹理但对不上遥感类别体系。</p>]]></description></item><item><title>Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM</title><link>https://spacetop.win/2026/06/20260614_090001_twohour_remote_sensing_radar/</link><pubDate>Sun, 14 Jun 2026 09:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260614_090001_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="training-free-text-based-rs-segmentation让-vlm-只负责选-mask-和点-sam" class="headerLink">
    <a href="#training-free-text-based-rs-segmentation%e8%ae%a9-vlm-%e5%8f%aa%e8%b4%9f%e8%b4%a3%e9%80%89-mask-%e5%92%8c%e7%82%b9-sam" class="header-mark"></a>Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM</h1><p><strong>结论：这一轮最值得单独跟踪的是 CVPR 2026 EarthVision 论文 <em>Enabling Training-Free Text-Based Remote Sensing Segmentation</em>。它没有再给遥感 VLM 接一个新的 mask decoder，也没有把重点放在更复杂的专用适配器上，而是把问题拆成两条很朴素的路线：短类别词用 CLIP 给 SAM 的候选 mask 做语义选择；长句、指代表达和推理问题则让生成式 VLM 输出点击点，再交给 SAM 出 mask。它的意义不只是“又一个开放词表分割方法”，而是把遥感文本分割重新拉回一个可复用的工程问题：VLM 不必直接生成像素，先学会给通用分割器提供可靠的空间提示。</strong></p>
<p>我按 2026-06-14 09:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线工作。本篇选择 Jose Sosa 等人在 CVPR 2026 EarthVision Workshop 的遥感文本分割论文。arXiv、CVF 页面和官方 GitHub 仓库均已公开；不过仓库目前只有 README 和 teaser，代码部分仍标注为 coming soon，因此本文把它视为“论文公开、代码仓库已建、可运行代码未确认”的条目。</p>
<p>这篇适合放进“可提示分割、开放词表与密集预测”。它正好连接了三条线：开放词表语义分割、SAM 可提示分割、遥感 VLM 推理分割。对后续做遥感 VLM 的人来说，最值得借鉴的不是某个模型名，而是它把“语言理解”和“mask 生成”解耦以后，很多训练负担可以被转成提示生成、mask 选择和评测协议设计。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>遥感文本分割的目标是：给一张遥感影像和一段文本，让模型输出对应区域的 mask。文本可以很短，例如 <code>building</code>、<code>road</code>、<code>water</code>；也可以是指代表达，例如“右上角那辆车”；还可以是推理问题，例如“如果要改善网球发球并参加双打，应选择体育综合体中的哪个位置”。这三种任务表面上都是分割，但它们对模型的要求完全不同。</p>]]></description></item></channel></rss>