<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>开放世界解释 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E5%BC%80%E6%94%BE%E4%B8%96%E7%95%8C%E8%A7%A3%E9%87%8A/</link><description>开放世界解释 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Sun, 31 May 2026 12:00:00 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E5%BC%80%E6%94%BE%E4%B8%96%E7%95%8C%E8%A7%A3%E9%87%8A/" rel="self" type="application/rss+xml"/><item><title>SkySense-O：以视觉为中心的视觉语言建模实现开放世界遥感解释</title><link>https://spacetop.win/2026/05/20260531_113541_skysense_o/</link><pubDate>Sun, 31 May 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/05/20260531_113541_skysense_o/</guid><description><![CDATA[<h1 id="skysense-o以视觉为中心的视觉语言建模实现开放世界遥感解释" class="headerLink">
    <a href="#skysense-o%e4%bb%a5%e8%a7%86%e8%a7%89%e4%b8%ba%e4%b8%ad%e5%bf%83%e7%9a%84%e8%a7%86%e8%a7%89%e8%af%ad%e8%a8%80%e5%bb%ba%e6%a8%a1%e5%ae%9e%e7%8e%b0%e5%bc%80%e6%94%be%e4%b8%96%e7%95%8c%e9%81%a5%e6%84%9f%e8%a7%a3%e9%87%8a" class="header-mark"></a>SkySense-O：以视觉为中心的视觉语言建模实现开放世界遥感解释</h1><h2 id="论文信息" class="headerLink">
    <a href="#%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>论文信息</h2><ul>
<li><strong>标题</strong>：SkySense-O: Towards Open-World Remote Sensing Interpretation with Vision-Centric Visual-Language Modeling</li>
<li><strong>作者</strong>：Qi Zhu, Jiangwei Lao, Deyi Ji, Junwei Luo, Kang Wu, Yingying Zhang, Lixiang Ru, Jian Wang, Jingdong Chen, Ming Yang, Dong Liu, Feng Zhao</li>
<li><strong>会议</strong>：CVPR 2025</li>
<li><strong>GitHub</strong>：https://github.com/zqcrafts/SkySense-O (265 stars)</li>
<li><strong>关键词</strong>：开放世界解释、视觉语言模型、遥感图像、像素级分割、视觉中心建模</li>
</ul>
<h2 id="问题从封闭到开放的鸿沟" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e4%bb%8e%e5%b0%81%e9%97%ad%e5%88%b0%e5%bc%80%e6%94%be%e7%9a%84%e9%b8%bf%e6%b2%9f" class="header-mark"></a>问题：从&quot;封闭&quot;到&quot;开放&quot;的鸿沟</h2><p>遥感图像解释长期面临一个根本性矛盾：<strong>模型只能识别训练时见过的类别，但现实世界中的地物类别是无限且不断演变的</strong>。</p>
<p>传统遥感语义分割模型存在两个核心瓶颈：</p>
<ol>
<li>
<p><strong>语义类别覆盖不足</strong>：现有遥感数据集的类别标签极为有限，特别是像素级标注数据集。例如，常用的数据集可能只包含几十个类别，但实际地物类型远不止于此。</p>
</li>
<li>
<p><strong>语言空间区分能力有限</strong>：遥感图像具有密集且复杂的空间分布，仅依靠文本描述难以精确区分不同的空间区域。例如，&ldquo;建筑物&quot;和&quot;停车场&quot;在语言描述上可能相似，但在视觉上差异显著。</p>
</li>
</ol>
<p>作者敏锐地捕捉到了这一问题的本质：<strong>现有视觉语言模型（VLM）过度依赖文本提示，忽视了视觉特征本身的重要性</strong>。</p>
<h2 id="解决方案视觉中心的范式转变" class="headerLink">
    <a href="#%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88%e8%a7%86%e8%a7%89%e4%b8%ad%e5%bf%83%e7%9a%84%e8%8c%83%e5%bc%8f%e8%bd%ac%e5%8f%98" class="header-mark"></a>解决方案：视觉中心的范式转变</h2><p>SkySense-O的核心创新在于提出了<strong>视觉中心原则（Vision-Centric Principle）</strong>，从根本上改变了遥感视觉语言建模的思路。</p>
<h3 id="1-构建高质量像素级数据集sky-sa" class="headerLink">
    <a href="#1-%e6%9e%84%e5%bb%ba%e9%ab%98%e8%b4%a8%e9%87%8f%e5%83%8f%e7%b4%a0%e7%ba%a7%e6%95%b0%e6%8d%ae%e9%9b%86sky-sa" class="header-mark"></a>1. 构建高质量像素级数据集Sky-SA</h3><p>作者首先解决了数据层面的瓶颈。Sky-SA数据集具有以下特点：</p>
<ul>
<li><strong>规模</strong>：183,375个高质量本地图像-文本对</li>
<li><strong>类别覆盖</strong>：1,763个类别标签，远超现有数据集</li>
<li><strong>标注质量</strong>：经过多轮人工标注和验证的全像素标注</li>
<li><strong>语义密度</strong>：比现有数据集具有更丰富的语义和更高的密度</li>
</ul>
<p>这一数据集的构建并非简单的类别扩充，而是对遥感地物的系统性语义建模。</p>
<h3 id="2-视觉中心的预训练策略" class="headerLink">
    <a href="#2-%e8%a7%86%e8%a7%89%e4%b8%ad%e5%bf%83%e7%9a%84%e9%a2%84%e8%ae%ad%e7%bb%83%e7%ad%96%e7%95%a5" class="header-mark"></a>2. 视觉中心的预训练策略</h3><p>传统方法在预训练阶段主要关注图像-文本对齐，容易导致视觉表示能力退化。SkySense-O的创新在于：</p>
<ul>
<li><strong>引入视觉自监督范式</strong>：在图像-文本对齐的同时，保持视觉特征的判别能力</li>
<li><strong>视觉相关知识图谱</strong>：构建跨开放类别文本的视觉相关知识图谱</li>
<li><strong>视觉中心图像-文本对比损失</strong>：开发新型损失函数，强调视觉特征的主导作用</li>
</ul>
<h3 id="3-从文本驱动到视觉引导" class="headerLink">
    <a href="#3-%e4%bb%8e%e6%96%87%e6%9c%ac%e9%a9%b1%e5%8a%a8%e5%88%b0%e8%a7%86%e8%a7%89%e5%bc%95%e5%af%bc" class="header-mark"></a>3. 从&quot;文本驱动&quot;到&quot;视觉引导&rdquo;</h3><p>这一范式转变的关键在于：<strong>不是让视觉特征去适应文本描述，而是让文本描述去增强视觉理解</strong>。</p>
<p>具体实现包括：</p>
<ul>
<li>在预训练阶段，视觉自监督学习与图像-文本对齐并行进行</li>
<li>利用视觉相关知识图谱建立类别间的视觉语义关联</li>
<li>通过视觉中心对比损失确保视觉特征的判别性</li>
</ul>
<h2 id="实验全面的性能验证" class="headerLink">
    <a href="#%e5%ae%9e%e9%aa%8c%e5%85%a8%e9%9d%a2%e7%9a%84%e6%80%a7%e8%83%bd%e9%aa%8c%e8%af%81" class="header-mark"></a>实验：全面的性能验证</h2><h3 id="评估设置" class="headerLink">
    <a href="#%e8%af%84%e4%bc%b0%e8%ae%be%e7%bd%ae" class="header-mark"></a>评估设置</h3><ul>
<li><strong>数据集</strong>：14个遥感数据集</li>
<li><strong>任务类型</strong>：4个任务（分类、检测、分割、推理）</li>
<li><strong>评估方式</strong>：零样本能力评估</li>
</ul>
<h3 id="关键结果" class="headerLink">
    <a href="#%e5%85%b3%e9%94%ae%e7%bb%93%e6%9e%9c" class="header-mark"></a>关键结果</h3><p>SkySense-O在多个评估指标上取得了显著优势：</p>]]></description></item></channel></rss>