<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>EarthReason - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/earthreason/</link><description>EarthReason - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Sun, 14 Jun 2026 09:00:02 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/earthreason/" rel="self" type="application/rss+xml"/><item><title>Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM</title><link>https://spacetop.win/2026/06/20260614_090001_twohour_remote_sensing_radar/</link><pubDate>Sun, 14 Jun 2026 09:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260614_090001_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="training-free-text-based-rs-segmentation让-vlm-只负责选-mask-和点-sam" class="headerLink">
    <a href="#training-free-text-based-rs-segmentation%e8%ae%a9-vlm-%e5%8f%aa%e8%b4%9f%e8%b4%a3%e9%80%89-mask-%e5%92%8c%e7%82%b9-sam" class="header-mark"></a>Training-Free Text-Based RS Segmentation：让 VLM 只负责选 mask 和点 SAM</h1><p><strong>结论：这一轮最值得单独跟踪的是 CVPR 2026 EarthVision 论文 <em>Enabling Training-Free Text-Based Remote Sensing Segmentation</em>。它没有再给遥感 VLM 接一个新的 mask decoder，也没有把重点放在更复杂的专用适配器上，而是把问题拆成两条很朴素的路线：短类别词用 CLIP 给 SAM 的候选 mask 做语义选择；长句、指代表达和推理问题则让生成式 VLM 输出点击点，再交给 SAM 出 mask。它的意义不只是“又一个开放词表分割方法”，而是把遥感文本分割重新拉回一个可复用的工程问题：VLM 不必直接生成像素，先学会给通用分割器提供可靠的空间提示。</strong></p>
<p>我按 2026-06-14 09:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线工作。本篇选择 Jose Sosa 等人在 CVPR 2026 EarthVision Workshop 的遥感文本分割论文。arXiv、CVF 页面和官方 GitHub 仓库均已公开；不过仓库目前只有 README 和 teaser，代码部分仍标注为 coming soon，因此本文把它视为“论文公开、代码仓库已建、可运行代码未确认”的条目。</p>
<p>这篇适合放进“可提示分割、开放词表与密集预测”。它正好连接了三条线：开放词表语义分割、SAM 可提示分割、遥感 VLM 推理分割。对后续做遥感 VLM 的人来说，最值得借鉴的不是某个模型名，而是它把“语言理解”和“mask 生成”解耦以后，很多训练负担可以被转成提示生成、mask 选择和评测协议设计。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>遥感文本分割的目标是：给一张遥感影像和一段文本，让模型输出对应区域的 mask。文本可以很短，例如 <code>building</code>、<code>road</code>、<code>water</code>；也可以是指代表达，例如“右上角那辆车”；还可以是推理问题，例如“如果要改善网球发球并参加双打，应选择体育综合体中的哪个位置”。这三种任务表面上都是分割，但它们对模型的要求完全不同。</p>]]></description></item></channel></rss>