<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>视频遥感 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E8%A7%86%E9%A2%91%E9%81%A5%E6%84%9F/</link><description>视频遥感 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Tue, 16 Jun 2026 17:00:02 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E8%A7%86%E9%A2%91%E9%81%A5%E6%84%9F/" rel="self" type="application/rss+xml"/><item><title>RSVG-ZeroOV：把训练免费开放词汇 grounding 扩到遥感视频</title><link>https://spacetop.win/2026/06/20260616_170002_twohour_remote_sensing_radar/</link><pubDate>Tue, 16 Jun 2026 17:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260616_170002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="rsvg-zeroov把训练免费开放词汇-grounding-扩到遥感视频" class="headerLink">
    <a href="#rsvg-zeroov%e6%8a%8a%e8%ae%ad%e7%bb%83%e5%85%8d%e8%b4%b9%e5%bc%80%e6%94%be%e8%af%8d%e6%b1%87-grounding-%e6%89%a9%e5%88%b0%e9%81%a5%e6%84%9f%e8%a7%86%e9%a2%91" class="header-mark"></a>RSVG-ZeroOV：把训练免费开放词汇 grounding 扩到遥感视频</h1><p><strong>结论：这一轮最值得补进雷达的是 2026-06-15 上 arXiv 的 <em>Training-Free Open-Vocabulary Visual Grounding for Remote Sensing Images and Videos</em>。它把 RSVG-ZeroOV 从图像级遥感开放词汇 grounding 扩展到视频级时空 grounding：用冻结 VLM 抽取文本相关注意力，用扩散模型补目标结构，再用 Evolve 模块净化 mask；视频部分再加 query-relevant key-frame selector 和 SAM3 temporal propagator。它的价值不在于训练了一个更大的遥感 VLM，而在于给出一个很清晰的系统范式：遥感开放词汇定位可以先从“训练大模型”转向“组合冻结基础模型的注意力、结构先验和时序传播”。</strong></p>
<p>我按 2026-06-16 17:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本文使用的是光学遥感图像、低空 UAV 视频和通用视频 grounding benchmark，不把雷达类工作纳入讨论。同期本地文章已经覆盖 FusionRS、DEO、RATS、Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、CoastlineVLM、Stateful Visual Encoders、LG-SAM、VecLang、TerraBench、OSTB 等方向，因此这里不重复已有条目。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>遥感 VLM 的一个长期痛点是：模型会“看懂场景”，但不一定能把用户说的目标精确落到像素、框或视频 tube 上。直接让 Qwen2.5-VL、GeoChat、LLaVA 这类 VLM 输出坐标，经常能生成合理描述，却在小目标、密集场景、相对位置和复杂表达上定位不稳。遥感图像又特别放大了这个问题：目标尺度变化大，背景重复，机场、港口、道路和居民区里有大量同类小目标。</p>
<p>传统 RSVG 方法通常需要人工标注的 referring expression、box 或 mask。这个路线能在封闭类别和固定数据集上做高分，但很难覆盖真实用户会输入的开放词汇：例如“高速路最右侧正在行驶的红色集装箱卡车”“港口左侧的白色游艇”“比水面船只更小的白色单层巴士”。标注成本高，类别覆盖窄，表达形式也有限。</p>]]></description></item></channel></rss>