<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>Sky-VLM - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/sky-vlm/</link><description>Sky-VLM - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Sat, 13 Jun 2026 01:00:05 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/sky-vlm/" rel="self" type="application/rss+xml"/><item><title>SpatialSky-Bench：把遥感 VLM 评测从看图问答推到空间导航</title><link>https://spacetop.win/2026/06/20260613_010005_twohour_remote_sensing_radar/</link><pubDate>Sat, 13 Jun 2026 01:00:05 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260613_010005_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="spatialsky-bench把遥感-vlm-评测从看图问答推到空间导航" class="headerLink">
    <a href="#spatialsky-bench%e6%8a%8a%e9%81%a5%e6%84%9f-vlm-%e8%af%84%e6%b5%8b%e4%bb%8e%e7%9c%8b%e5%9b%be%e9%97%ae%e7%ad%94%e6%8e%a8%e5%88%b0%e7%a9%ba%e9%97%b4%e5%af%bc%e8%88%aa" class="header-mark"></a>SpatialSky-Bench：把遥感 VLM 评测从看图问答推到空间导航</h1><p><strong>结论：这一轮最值得单独跟踪的是 SpatialSky-Bench / Sky-VLM。它的价值不在于又做了一个遥感问答榜，而是把 VLM 的问题从“能不能看懂一张遥感图”推进到“能不能在无人机视角里理解方向、距离、高度、障碍物和降落安全”。这对遥感 VLM 很关键，因为很多真实任务不是静态 caption 或分类，而是带空间约束、风险判断和行动后果的动态决策。</strong></p>
<p>我按 2026-06-13 01:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 方向。本篇选择 CVPR 2026 论文 <em>Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation</em>。论文有 arXiv、CVF Open Access 页面和官方 GitHub；其场景基于无人机视觉导航，不走雷达主线。需要注意的是，关联 UAVScenes 数据集包含相机与 LiDAR 标注，本文只把它作为 UAV 场景几何与视觉 benchmark 背景，不把 LiDAR 或三维重建作为主推荐方向。</p>
<p>这篇适合放进“遥感基础模型与多模态理解”类目。它提醒我们：遥感 VLM 的下一步不应只追求更会描述图像，而要能处理空间关系、尺度、可通行性、目标相对位置和安全决策。对城市应急、低空巡检、灾害侦察、无人机测绘和地面-空中协同，这比普通 VQA 更接近应用需求。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>过去两年遥感 VLM 的评测大多围绕 caption、VQA、grounding、目标识别、场景分类和开放词表理解展开。这些任务很有必要，但它们通常仍是离线、静态、单图判断：模型看一张图，回答里面有什么、某个目标在哪里、图像属于什么类别。问题是，无人机和低空遥感场景里的“理解”往往不是静态语义，而是空间行动能力。</p>
<p>例如，一个巡检无人机需要判断前方是否可安全穿越，当前视角下目标在左前方还是右后方，障碍物高度是否构成风险，候选降落区域是否平整开阔，建筑、道路、树木和车辆之间的相对距离是否支持下一步动作。这类问题很难用普通图像描述衡量。一个 VLM 可以把图说得很流畅，却仍然无法稳定判断方向、距离和安全边界。</p>
<p>SpatialSky-Bench 把这个缺口显式化。它关注的是 UAV navigation 中的 spatial intelligence，也就是让模型在空中视角里完成环境感知和场景理解。CV-to-RS 的迁移路径很清楚：通用 VLM 里已有的视觉问答、空间推理和多模态指令能力，需要适配遥感/UAV 视角的尺度变化、俯视几何、遮挡、航迹连续性、地物类别和安全约束。</p>]]></description></item></channel></rss>