<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>UAV - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/uav/</link><description>UAV - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Sat, 13 Jun 2026 01:00:05 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/uav/" rel="self" type="application/rss+xml"/><item><title>SpatialSky-Bench：把遥感 VLM 评测从看图问答推到空间导航</title><link>https://spacetop.win/2026/06/20260613_010005_twohour_remote_sensing_radar/</link><pubDate>Sat, 13 Jun 2026 01:00:05 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260613_010005_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="spatialsky-bench把遥感-vlm-评测从看图问答推到空间导航" class="headerLink">
    <a href="#spatialsky-bench%e6%8a%8a%e9%81%a5%e6%84%9f-vlm-%e8%af%84%e6%b5%8b%e4%bb%8e%e7%9c%8b%e5%9b%be%e9%97%ae%e7%ad%94%e6%8e%a8%e5%88%b0%e7%a9%ba%e9%97%b4%e5%af%bc%e8%88%aa" class="header-mark"></a>SpatialSky-Bench：把遥感 VLM 评测从看图问答推到空间导航</h1><p><strong>结论：这一轮最值得单独跟踪的是 SpatialSky-Bench / Sky-VLM。它的价值不在于又做了一个遥感问答榜，而是把 VLM 的问题从“能不能看懂一张遥感图”推进到“能不能在无人机视角里理解方向、距离、高度、障碍物和降落安全”。这对遥感 VLM 很关键，因为很多真实任务不是静态 caption 或分类，而是带空间约束、风险判断和行动后果的动态决策。</strong></p>
<p>我按 2026-06-13 01:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 方向。本篇选择 CVPR 2026 论文 <em>Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation</em>。论文有 arXiv、CVF Open Access 页面和官方 GitHub；其场景基于无人机视觉导航，不走雷达主线。需要注意的是，关联 UAVScenes 数据集包含相机与 LiDAR 标注，本文只把它作为 UAV 场景几何与视觉 benchmark 背景，不把 LiDAR 或三维重建作为主推荐方向。</p>
<p>这篇适合放进“遥感基础模型与多模态理解”类目。它提醒我们：遥感 VLM 的下一步不应只追求更会描述图像，而要能处理空间关系、尺度、可通行性、目标相对位置和安全决策。对城市应急、低空巡检、灾害侦察、无人机测绘和地面-空中协同，这比普通 VQA 更接近应用需求。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>过去两年遥感 VLM 的评测大多围绕 caption、VQA、grounding、目标识别、场景分类和开放词表理解展开。这些任务很有必要，但它们通常仍是离线、静态、单图判断：模型看一张图，回答里面有什么、某个目标在哪里、图像属于什么类别。问题是，无人机和低空遥感场景里的“理解”往往不是静态语义，而是空间行动能力。</p>
<p>例如，一个巡检无人机需要判断前方是否可安全穿越，当前视角下目标在左前方还是右后方，障碍物高度是否构成风险，候选降落区域是否平整开阔，建筑、道路、树木和车辆之间的相对距离是否支持下一步动作。这类问题很难用普通图像描述衡量。一个 VLM 可以把图说得很流畅，却仍然无法稳定判断方向、距离和安全边界。</p>
<p>SpatialSky-Bench 把这个缺口显式化。它关注的是 UAV navigation 中的 spatial intelligence，也就是让模型在空中视角里完成环境感知和场景理解。CV-to-RS 的迁移路径很清楚：通用 VLM 里已有的视觉问答、空间推理和多模态指令能力，需要适配遥感/UAV 视角的尺度变化、俯视几何、遮挡、航迹连续性、地物类别和安全约束。</p>]]></description></item><item><title>ZODS-RS：DINOv3+SAM2 的零训练遥感检测与实例分割</title><link>https://spacetop.win/2026/06/20260612_150002_twohour_remote_sensing_radar/</link><pubDate>Fri, 12 Jun 2026 15:00:03 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260612_150002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="zods-rsdinov3sam2-的零训练遥感检测与实例分割" class="headerLink">
    <a href="#zods-rsdinov3sam2-%e7%9a%84%e9%9b%b6%e8%ae%ad%e7%bb%83%e9%81%a5%e6%84%9f%e6%a3%80%e6%b5%8b%e4%b8%8e%e5%ae%9e%e4%be%8b%e5%88%86%e5%89%b2" class="header-mark"></a>ZODS-RS：DINOv3+SAM2 的零训练遥感检测与实例分割</h1><p><strong>结论：这一轮值得单独跟踪的是 ZODS-RS，不是因为它的绝对精度已经压过监督检测器，而是因为它把遥感检测/实例分割推向了一个更实用的基线问题：如果不给新地区、新平台、新目标重新标注和训练，冻结的 DINOv3 特征、SAM2 proposals 和一组闭式匹配规则，到底能做到什么程度。</strong></p>
<p>我按 2026-06-12 15:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 项。ZODS-RS 的任务是航空/UAV/高分辨率光学遥感目标检测与实例分割，核心来源是 arXiv:2606.10769；截至本次检查，没有检索到官方 GitHub 仓库，因此本文把它作为“论文信号 + 待复现基线”处理，而不是已经可直接跑通的开源项目。</p>
<h2 id="摘要" class="headerLink">
    <a href="#%e6%91%98%e8%a6%81" class="header-mark"></a>摘要</h2><p>ZODS-RS 的全名是 <em>Zero-training Oriented Detection &amp; Segmentation for Remote Sensing</em>，2026-06-09 提交 arXiv。论文提出一个 training-free、closed-form 的遥感/无人机影像流程，输出 horizontal bounding boxes（HBB）和 instance masks。它不训练新的检测器，而是把 DINOv3 dense features、SAM-style proposals、memory/prototype 机制串起来，再用 prototype purification、rotation-scale equivariant matching、uncertainty-aware pixelwise merging 做推理期匹配和合并。</p>
<p>这个工作最值得看的地方是问题设定。遥感检测长期依赖 DOTA、FAIR1M、xView 这类标注数据训练专用模型，但真实应用常常是“换一个地区、换一个平台、换一个类别，就没有足够标签”。ZODS-RS 问的是：能否用通用视觉基础模型的 frozen dense features，加上遥感几何约束，做一个不训练也能工作的 detection + segmentation baseline。它的分数不应和 fully supervised detector 直接硬比，而应和 Grounded-SAM、open-vocabulary detector、SAM proposal pipeline、DINO feature matching 这类低标注/零训练方案比较。</p>]]></description></item></channel></rss>