RSVG-ZeroOV：把训练免费开放词汇 grounding 扩到遥感视频

Tue, 16 Jun 2026 17:00:02 +0800

RSVG-ZeroOV：把训练免费开放词汇 grounding 扩到遥感视频

结论：这一轮最值得补进雷达的是 2026-06-15 上 arXiv 的 Training-Free Open-Vocabulary Visual Grounding for Remote Sensing Images and Videos。它把 RSVG-ZeroOV 从图像级遥感开放词汇 grounding 扩展到视频级时空 grounding：用冻结 VLM 抽取文本相关注意力，用扩散模型补目标结构，再用 Evolve 模块净化 mask；视频部分再加 query-relevant key-frame selector 和 SAM3 temporal propagator。它的价值不在于训练了一个更大的遥感 VLM，而在于给出一个很清晰的系统范式：遥感开放词汇定位可以先从“训练大模型”转向“组合冻结基础模型的注意力、结构先验和时序传播”。

我按 2026-06-16 17:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本文使用的是光学遥感图像、低空 UAV 视频和通用视频 grounding benchmark，不把雷达类工作纳入讨论。同期本地文章已经覆盖 FusionRS、DEO、RATS、Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、CoastlineVLM、Stateful Visual Encoders、LG-SAM、VecLang、TerraBench、OSTB 等方向，因此这里不重复已有条目。

背景

遥感 VLM 的一个长期痛点是：模型会“看懂场景”，但不一定能把用户说的目标精确落到像素、框或视频 tube 上。直接让 Qwen2.5-VL、GeoChat、LLaVA 这类 VLM 输出坐标，经常能生成合理描述，却在小目标、密集场景、相对位置和复杂表达上定位不稳。遥感图像又特别放大了这个问题：目标尺度变化大，背景重复，机场、港口、道路和居民区里有大量同类小目标。

传统 RSVG 方法通常需要人工标注的 referring expression、box 或 mask。这个路线能在封闭类别和固定数据集上做高分，但很难覆盖真实用户会输入的开放词汇：例如“高速路最右侧正在行驶的红色集装箱卡车”“港口左侧的白色游艇”“比水面船只更小的白色单层巴士”。标注成本高，类别覆盖窄，表达形式也有限。

视频遥感 - Tag - 堂堂一跑堂

RSVG-ZeroOV：把训练免费开放词汇 grounding 扩到遥感视频

RSVG-ZeroOV：把训练免费开放词汇 grounding 扩到遥感视频

背景