<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>视觉语言模型 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E8%A7%86%E8%A7%89%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/</link><description>视觉语言模型 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Mon, 01 Jun 2026 12:00:00 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E8%A7%86%E8%A7%89%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/" rel="self" type="application/rss+xml"/><item><title>Falcon：首个支持14个任务的遥感视觉语言基础模型</title><link>https://spacetop.win/2026/06/20260601_210000_falcon_vlm/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_210000_falcon_vlm/</guid><description><![CDATA[<h1 id="falcon首个支持14个任务的遥感视觉语言基础模型" class="headerLink">
    <a href="#falcon%e9%a6%96%e4%b8%aa%e6%94%af%e6%8c%8114%e4%b8%aa%e4%bb%bb%e5%8a%a1%e7%9a%84%e9%81%a5%e6%84%9f%e8%a7%86%e8%a7%89%e8%af%ad%e8%a8%80%e5%9f%ba%e7%a1%80%e6%a8%a1%e5%9e%8b" class="header-mark"></a>Falcon：首个支持14个任务的遥感视觉语言基础模型</h1><blockquote>
  <p><strong>论文解读</strong> | arXiv 2025 | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>Falcon: A Remote Sensing Vision-Language Foundation Model (Technical Report)</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang, Jin Wang, Ning Wei, Chao Li</td>
      </tr>
      <tr>
          <td><strong>单位</strong></td>
          <td>ZhejiangLab（之江实验室）</td>
      </tr>
      <tr>
          <td><strong>会议</strong></td>
          <td>arXiv 2025</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td><a href="https://arxiv.org/abs/2503.11070" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2503.11070</a></td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/TianHuiLab/Falcon" target="_blank" rel="noopener noreferrer">https://github.com/TianHuiLab/Falcon</a> (⭐372)</td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>遥感基础模型、视觉语言模型、多任务学习、指令调优、统一表示</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>遥感图像解译是地球观测的核心任务，涵盖场景分类、目标检测、语义分割、变化检测等多个领域。近年来，大型视觉语言模型（LVLMs）在自然图像领域取得了巨大成功，但在遥感领域却面临严峻挑战：</p>
<ol>
<li><strong>领域鸿沟</strong>：自然图像与遥感图像之间存在显著的领域差异，包括视角、尺度、语义等方面</li>
<li><strong>任务碎片化</strong>：现有遥感VLMs通常只擅长特定任务，缺乏统一的多任务处理能力</li>
<li><strong>数据集不足</strong>：缺乏大规模、高质量、多任务的遥感指令调优数据集</li>
</ol>
<h3 id="现有方法的局限" class="headerLink">
    <a href="#%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>现有方法的局限</h3><table>
  <thead>
      <tr>
          <th>模型</th>
          <th>参数量</th>
          <th>支持任务数</th>
          <th>主要局限</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>GeoChat</td>
          <td>7B</td>
          <td>7</td>
          <td>不支持像素级任务（分割、变化检测）</td>
      </tr>
      <tr>
          <td>LHRS-Bot</td>
          <td>7B</td>
          <td>6</td>
          <td>缺乏区域级和像素级理解能力</td>
      </tr>
      <tr>
          <td>EarthGPT</td>
          <td>7B</td>
          <td>9</td>
          <td>参数量大，推理效率低</td>
      </tr>
      <tr>
          <td>RSGPT</td>
          <td>7B</td>
          <td>5</td>
          <td>任务覆盖范围有限</td>
      </tr>
  </tbody>
</table>
<h3 id="核心问题提炼" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e6%8f%90%e7%82%bc" class="header-mark"></a>核心问题提炼</h3><p><strong>如何构建一个轻量级、统一的遥感视觉语言模型，同时支持图像级、区域级和像素级的14个任务？</strong></p>]]></description></item><item><title>GeoChat：首个遥感领域Grounded视觉语言大模型，让卫星图像对话更智能</title><link>https://spacetop.win/2026/06/20260601_120000_geochat_vlm/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_120000_geochat_vlm/</guid><description><![CDATA[<h1 id="geochat首个遥感领域grounded视觉语言大模型让卫星图像对话更智能" class="headerLink">
    <a href="#geochat%e9%a6%96%e4%b8%aa%e9%81%a5%e6%84%9f%e9%a2%86%e5%9f%9fgrounded%e8%a7%86%e8%a7%89%e8%af%ad%e8%a8%80%e5%a4%a7%e6%a8%a1%e5%9e%8b%e8%ae%a9%e5%8d%ab%e6%98%9f%e5%9b%be%e5%83%8f%e5%af%b9%e8%af%9d%e6%9b%b4%e6%99%ba%e8%83%bd" class="header-mark"></a>GeoChat：首个遥感领域Grounded视觉语言大模型，让卫星图像对话更智能</h1><blockquote>
  <p><strong>论文解读</strong> | CVPR 2024 | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>GeoChat: Grounded Large Vision-Language Model for Remote Sensing</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abduljabbar Al-Khateri, Shoaib Jameel, Lars Petersson, Salman Khan, Fahad Shahbaz Khan</td>
      </tr>
      <tr>
          <td><strong>会议</strong></td>
          <td>CVPR 2024</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td><a href="https://arxiv.org/abs/2311.15826" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2311.15826</a></td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/mbzuai-oryx/GeoChat" target="_blank" rel="noopener noreferrer">https://github.com/mbzuai-oryx/GeoChat</a></td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>遥感、视觉语言模型、Grounding、多任务学习、区域级推理</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>遥感图像分析是地球观测的核心任务，传统方法通常针对单一任务（如分类、检测、分割）设计专用模型。随着大型视觉语言模型（VLM）在通用领域的成功，研究者开始探索将其应用于遥感领域。</p>
<p>然而，现有方法面临三个关键挑战：</p>
<ol>
<li><strong>领域适配问题</strong>：通用VLM（如GPT-4V）在遥感场景下表现不佳，容易产生不准确或虚构的信息</li>
<li><strong>缺乏区域级推理</strong>：现有遥感VLM主要支持图像级任务，无法对特定区域进行细粒度分析</li>
<li><strong>多任务统一困难</strong>：不同遥感任务（分类、检测、描述等）通常需要独立模型，缺乏统一框架</li>
</ol>
<h3 id="现有方法的局限" class="headerLink">
    <a href="#%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>现有方法的局限</h3><table>
  <thead>
      <tr>
          <th>方法</th>
          <th>局限性</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>通用VLM（GPT-4V等）</td>
          <td>缺乏遥感领域知识，对卫星图像理解能力有限</td>
      </tr>
      <tr>
          <td>遥感专用模型</td>
          <td>仅支持单一任务，无法进行多轮对话</td>
      </tr>
      <tr>
          <td>现有遥感VLM</td>
          <td>仅支持图像级推理，缺乏区域级grounding能力</td>
      </tr>
  </tbody>
</table>
<h3 id="核心问题提炼" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e6%8f%90%e7%82%bc" class="header-mark"></a>核心问题提炼</h3><p><strong>如何构建一个既能理解遥感图像全局语义，又能对特定区域进行细粒度推理的统一视觉语言模型？</strong></p>
<h2 id="-解决方案" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88" class="header-mark"></a>💡 解决方案</h2><h3 id="核心创新点1多模态遥感指令数据集构建" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e5%88%9b%e6%96%b0%e7%82%b91%e5%a4%9a%e6%a8%a1%e6%80%81%e9%81%a5%e6%84%9f%e6%8c%87%e4%bb%a4%e6%95%b0%e6%8d%ae%e9%9b%86%e6%9e%84%e5%bb%ba" class="header-mark"></a>核心创新点1：多模态遥感指令数据集构建</h3><p><strong>设计动机</strong>：遥感领域缺乏大规模多模态指令调优数据集，直接使用通用数据集会导致领域偏移。</p>
<p><strong>具体实现</strong>：</p>
<ul>
<li>整合多个现有遥感数据集（LRBEN、NWPU-RESISC-45、SAMRS等）</li>
<li>利用Vicuna-v1.5和自动化管道生成318k指令数据</li>
<li>设计统一的图像-文本对格式，支持多种任务类型</li>
</ul>
<p><strong>关键细节</strong>：</p>]]></description></item><item><title>SkySense-O：以视觉为中心的视觉语言建模实现开放世界遥感解释</title><link>https://spacetop.win/2026/05/20260531_113541_skysense_o/</link><pubDate>Sun, 31 May 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/05/20260531_113541_skysense_o/</guid><description><![CDATA[<h1 id="skysense-o以视觉为中心的视觉语言建模实现开放世界遥感解释" class="headerLink">
    <a href="#skysense-o%e4%bb%a5%e8%a7%86%e8%a7%89%e4%b8%ba%e4%b8%ad%e5%bf%83%e7%9a%84%e8%a7%86%e8%a7%89%e8%af%ad%e8%a8%80%e5%bb%ba%e6%a8%a1%e5%ae%9e%e7%8e%b0%e5%bc%80%e6%94%be%e4%b8%96%e7%95%8c%e9%81%a5%e6%84%9f%e8%a7%a3%e9%87%8a" class="header-mark"></a>SkySense-O：以视觉为中心的视觉语言建模实现开放世界遥感解释</h1><h2 id="论文信息" class="headerLink">
    <a href="#%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>论文信息</h2><ul>
<li><strong>标题</strong>：SkySense-O: Towards Open-World Remote Sensing Interpretation with Vision-Centric Visual-Language Modeling</li>
<li><strong>作者</strong>：Qi Zhu, Jiangwei Lao, Deyi Ji, Junwei Luo, Kang Wu, Yingying Zhang, Lixiang Ru, Jian Wang, Jingdong Chen, Ming Yang, Dong Liu, Feng Zhao</li>
<li><strong>会议</strong>：CVPR 2025</li>
<li><strong>GitHub</strong>：https://github.com/zqcrafts/SkySense-O (265 stars)</li>
<li><strong>关键词</strong>：开放世界解释、视觉语言模型、遥感图像、像素级分割、视觉中心建模</li>
</ul>
<h2 id="问题从封闭到开放的鸿沟" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e4%bb%8e%e5%b0%81%e9%97%ad%e5%88%b0%e5%bc%80%e6%94%be%e7%9a%84%e9%b8%bf%e6%b2%9f" class="header-mark"></a>问题：从&quot;封闭&quot;到&quot;开放&quot;的鸿沟</h2><p>遥感图像解释长期面临一个根本性矛盾：<strong>模型只能识别训练时见过的类别，但现实世界中的地物类别是无限且不断演变的</strong>。</p>
<p>传统遥感语义分割模型存在两个核心瓶颈：</p>
<ol>
<li>
<p><strong>语义类别覆盖不足</strong>：现有遥感数据集的类别标签极为有限，特别是像素级标注数据集。例如，常用的数据集可能只包含几十个类别，但实际地物类型远不止于此。</p>
</li>
<li>
<p><strong>语言空间区分能力有限</strong>：遥感图像具有密集且复杂的空间分布，仅依靠文本描述难以精确区分不同的空间区域。例如，&ldquo;建筑物&quot;和&quot;停车场&quot;在语言描述上可能相似，但在视觉上差异显著。</p>
</li>
</ol>
<p>作者敏锐地捕捉到了这一问题的本质：<strong>现有视觉语言模型（VLM）过度依赖文本提示，忽视了视觉特征本身的重要性</strong>。</p>
<h2 id="解决方案视觉中心的范式转变" class="headerLink">
    <a href="#%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88%e8%a7%86%e8%a7%89%e4%b8%ad%e5%bf%83%e7%9a%84%e8%8c%83%e5%bc%8f%e8%bd%ac%e5%8f%98" class="header-mark"></a>解决方案：视觉中心的范式转变</h2><p>SkySense-O的核心创新在于提出了<strong>视觉中心原则（Vision-Centric Principle）</strong>，从根本上改变了遥感视觉语言建模的思路。</p>
<h3 id="1-构建高质量像素级数据集sky-sa" class="headerLink">
    <a href="#1-%e6%9e%84%e5%bb%ba%e9%ab%98%e8%b4%a8%e9%87%8f%e5%83%8f%e7%b4%a0%e7%ba%a7%e6%95%b0%e6%8d%ae%e9%9b%86sky-sa" class="header-mark"></a>1. 构建高质量像素级数据集Sky-SA</h3><p>作者首先解决了数据层面的瓶颈。Sky-SA数据集具有以下特点：</p>
<ul>
<li><strong>规模</strong>：183,375个高质量本地图像-文本对</li>
<li><strong>类别覆盖</strong>：1,763个类别标签，远超现有数据集</li>
<li><strong>标注质量</strong>：经过多轮人工标注和验证的全像素标注</li>
<li><strong>语义密度</strong>：比现有数据集具有更丰富的语义和更高的密度</li>
</ul>
<p>这一数据集的构建并非简单的类别扩充，而是对遥感地物的系统性语义建模。</p>
<h3 id="2-视觉中心的预训练策略" class="headerLink">
    <a href="#2-%e8%a7%86%e8%a7%89%e4%b8%ad%e5%bf%83%e7%9a%84%e9%a2%84%e8%ae%ad%e7%bb%83%e7%ad%96%e7%95%a5" class="header-mark"></a>2. 视觉中心的预训练策略</h3><p>传统方法在预训练阶段主要关注图像-文本对齐，容易导致视觉表示能力退化。SkySense-O的创新在于：</p>
<ul>
<li><strong>引入视觉自监督范式</strong>：在图像-文本对齐的同时，保持视觉特征的判别能力</li>
<li><strong>视觉相关知识图谱</strong>：构建跨开放类别文本的视觉相关知识图谱</li>
<li><strong>视觉中心图像-文本对比损失</strong>：开发新型损失函数，强调视觉特征的主导作用</li>
</ul>
<h3 id="3-从文本驱动到视觉引导" class="headerLink">
    <a href="#3-%e4%bb%8e%e6%96%87%e6%9c%ac%e9%a9%b1%e5%8a%a8%e5%88%b0%e8%a7%86%e8%a7%89%e5%bc%95%e5%af%bc" class="header-mark"></a>3. 从&quot;文本驱动&quot;到&quot;视觉引导&rdquo;</h3><p>这一范式转变的关键在于：<strong>不是让视觉特征去适应文本描述，而是让文本描述去增强视觉理解</strong>。</p>
<p>具体实现包括：</p>
<ul>
<li>在预训练阶段，视觉自监督学习与图像-文本对齐并行进行</li>
<li>利用视觉相关知识图谱建立类别间的视觉语义关联</li>
<li>通过视觉中心对比损失确保视觉特征的判别性</li>
</ul>
<h2 id="实验全面的性能验证" class="headerLink">
    <a href="#%e5%ae%9e%e9%aa%8c%e5%85%a8%e9%9d%a2%e7%9a%84%e6%80%a7%e8%83%bd%e9%aa%8c%e8%af%81" class="header-mark"></a>实验：全面的性能验证</h2><h3 id="评估设置" class="headerLink">
    <a href="#%e8%af%84%e4%bc%b0%e8%ae%be%e7%bd%ae" class="header-mark"></a>评估设置</h3><ul>
<li><strong>数据集</strong>：14个遥感数据集</li>
<li><strong>任务类型</strong>：4个任务（分类、检测、分割、推理）</li>
<li><strong>评估方式</strong>：零样本能力评估</li>
</ul>
<h3 id="关键结果" class="headerLink">
    <a href="#%e5%85%b3%e9%94%ae%e7%bb%93%e6%9e%9c" class="header-mark"></a>关键结果</h3><p>SkySense-O在多个评估指标上取得了显著优势：</p>]]></description></item></channel></rss>