<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>自监督学习 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E8%87%AA%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0/</link><description>自监督学习 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Mon, 01 Jun 2026 12:00:00 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E8%87%AA%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0/" rel="self" type="application/rss+xml"/><item><title>AnySat：一个模型搞定所有分辨率、尺度和模态的遥感数据</title><link>https://spacetop.win/2026/06/20260601_220000_anysat_multi_resolution/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_220000_anysat_multi_resolution/</guid><description><![CDATA[<h1 id="anysat一个模型搞定所有分辨率尺度和模态的遥感数据" class="headerLink">
    <a href="#anysat%e4%b8%80%e4%b8%aa%e6%a8%a1%e5%9e%8b%e6%90%9e%e5%ae%9a%e6%89%80%e6%9c%89%e5%88%86%e8%be%a8%e7%8e%87%e5%b0%ba%e5%ba%a6%e5%92%8c%e6%a8%a1%e6%80%81%e7%9a%84%e9%81%a5%e6%84%9f%e6%95%b0%e6%8d%ae" class="header-mark"></a>AnySat：一个模型搞定所有分辨率、尺度和模态的遥感数据</h1><blockquote>
  <p><strong>论文解读</strong> | CVPR 2025 Highlight | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Guillaume Astruc, Nicolas Gonthier, Clement Mallet, Loic Landrieu</td>
      </tr>
      <tr>
          <td><strong>会议</strong></td>
          <td>CVPR 2025 (Highlight)</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td><a href="https://arxiv.org/abs/2412.14123" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2412.14123</a></td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/gastruc/AnySat" target="_blank" rel="noopener noreferrer">https://github.com/gastruc/AnySat</a> (190 stars)</td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>遥感基础模型、多模态、多分辨率、JEPA架构、自监督学习</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>遥感数据天然具有<strong>多源异构</strong>的特点：</p>
<ul>
<li><strong>分辨率差异</strong>：从0.3米的无人机影像到30米的Sentinel-2，跨越100倍</li>
<li><strong>通道数量不同</strong>：RGB（3通道）、多光谱（4-13通道）、SAR（2通道）</li>
<li><strong>覆盖范围多样</strong>：小区域精细观测 vs 大范围宏观监测</li>
<li><strong>传感器类型繁多</strong>：光学、SAR、高光谱等11种以上传感器</li>
</ul>
<h3 id="现有方法的局限" class="headerLink">
    <a href="#%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>现有方法的局限</h3><ol>
<li><strong>单模型单数据</strong>：每个数据集需要单独训练模型，无法共享知识</li>
<li><strong>分辨率不兼容</strong>：不同分辨率的数据需要不同的网络架构</li>
<li><strong>模态隔离</strong>：光学和SAR数据通常分开处理</li>
<li><strong>扩展性差</strong>：新增传感器需要重新设计模型</li>
</ol>
<h3 id="核心问题提炼" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e6%8f%90%e7%82%bc" class="header-mark"></a>核心问题提炼</h3><p><strong>如何用一个统一的模型处理任意分辨率、任意尺度、任意模态组合的遥感数据？</strong></p>
<h2 id="-解决方案" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88" class="header-mark"></a>💡 解决方案</h2><h3 id="核心创新点1scale-adaptive-jepa架构" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e5%88%9b%e6%96%b0%e7%82%b91scale-adaptive-jepa%e6%9e%b6%e6%9e%84" class="header-mark"></a>核心创新点1：Scale-Adaptive JEPA架构</h3><p><strong>设计动机</strong>：传统MAE需要固定输入尺寸，无法处理不同分辨率的图像。</p>
<p><strong>具体实现</strong>：</p>
<ul>
<li>采用<strong>Joint Embedding Predictive Architecture (JEPA)</strong>，不依赖像素级重建</li>
<li>引入<strong>尺度自适应</strong>机制，根据输入数据的GSD自动调整</li>
<li>使用<strong>分块嵌入</strong>策略，将不同分辨率的图像映射到统一的特征空间</li>
</ul>
<p><strong>关键细节</strong>：</p>]]></description></item><item><title>Galileo：一个模型搞定遥感多模态多尺度，ICML 2025 通用基础模型新突破</title><link>https://spacetop.win/2026/06/20260601_120000_galileo_global_local_features/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_120000_galileo_global_local_features/</guid><description><![CDATA[<h1 id="galileo一个模型搞定遥感多模态多尺度icml-2025-通用基础模型新突破" class="headerLink">
    <a href="#galileo%e4%b8%80%e4%b8%aa%e6%a8%a1%e5%9e%8b%e6%90%9e%e5%ae%9a%e9%81%a5%e6%84%9f%e5%a4%9a%e6%a8%a1%e6%80%81%e5%a4%9a%e5%b0%ba%e5%ba%a6icml-2025-%e9%80%9a%e7%94%a8%e5%9f%ba%e7%a1%80%e6%a8%a1%e5%9e%8b%e6%96%b0%e7%aa%81%e7%a0%b4" class="header-mark"></a>Galileo：一个模型搞定遥感多模态多尺度，ICML 2025 通用基础模型新突破</h1><blockquote>
  <p><strong>论文解读</strong> | ICML 2025 | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>Galileo: Learning Global &amp; Local Features of Many Remote Sensing Modalities</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Gabriel Tseng, Anthony Fuller, Marlena Reil, Henry Herzog, Patrick Beukema, Favyen Bastani, James R. Green, Evan Shelhamer, Hannah Kerner, David Rolnick</td>
      </tr>
      <tr>
          <td><strong>会议</strong></td>
          <td>ICML 2025 (Proceedings of the 42nd International Conference on Machine Learning)</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td><a href="https://arxiv.org/abs/2502.09356" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2502.09356</a></td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/nasaharvest/galileo" target="_blank" rel="noopener noreferrer">https://github.com/nasaharvest/galileo</a> (⭐ 177)</td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>遥感基础模型, 多模态融合, 自监督学习, 多尺度特征, 掩码建模, 通用模型</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>遥感数据具有两大独特挑战，使得直接套用计算机视觉方法变得困难：</p>]]></description></item><item><title>MAESTRO：多模态多时相多光谱遥感自监督学习的\"指挥家\"</title><link>https://spacetop.win/2026/06/20260601_100230_maestro_self_supervised/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_100230_maestro_self_supervised/</guid><description><![CDATA[<h1 id="maestro多模态多时相多光谱遥感自监督学习的指挥家" class="headerLink">
    <a href="#maestro%e5%a4%9a%e6%a8%a1%e6%80%81%e5%a4%9a%e6%97%b6%e7%9b%b8%e5%a4%9a%e5%85%89%e8%b0%b1%e9%81%a5%e6%84%9f%e8%87%aa%e7%9b%91%e7%9d%a3%e5%ad%a6%e4%b9%a0%e7%9a%84%e6%8c%87%e6%8c%a5%e5%ae%b6" class="header-mark"></a>MAESTRO：多模态多时相多光谱遥感自监督学习的&quot;指挥家&quot;</h1><blockquote>
  <p><strong>论文解读</strong> | WACV 2026 | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Antoine Labatie, Michael Vaccaro, Nina Lardiere, Anatol Garioud, Nicolas Gonthier</td>
      </tr>
      <tr>
          <td><strong>会议</strong></td>
          <td>WACV 2026 (IEEE/CVF Winter Conference on Applications of Computer Vision)</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td><a href="https://arxiv.org/abs/2508.10894" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2508.10894</a></td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/ignf/maestro" target="_blank" rel="noopener noreferrer">https://github.com/ignf/maestro</a></td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>自监督学习, 掩码自编码器, 多模态融合, 多时相分析, 多光谱遥感, 地球观测</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景遥感数据的三多挑战" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af%e9%81%a5%e6%84%9f%e6%95%b0%e6%8d%ae%e7%9a%84%e4%b8%89%e5%a4%9a%e6%8c%91%e6%88%98" class="header-mark"></a>问题背景：遥感数据的&quot;三多&quot;挑战</h3><p>地球观测（Earth Observation, EO）数据具有独特的&quot;三多&quot;特性：</p>
<ol>
<li><strong>多模态</strong>：光学（Sentinel-2）、SAR（Sentinel-1）、高光谱、DEM等不同传感器</li>
<li><strong>多时相</strong>：同一区域在不同时间点的观测，蕴含丰富的时序变化信息</li>
<li><strong>多光谱</strong>：单个传感器就有多个光谱波段（如Sentinel-2有13个波段）</li>
</ol>
<p>这些特性使得直接将自然图像领域的自监督学习方法（如MAE）迁移到遥感领域存在根本性挑战。</p>
<h3 id="现有方法的局限" class="headerLink">
    <a href="#%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>现有方法的局限</h3><table>
  <thead>
      <tr>
          <th>方法类型</th>
          <th>局限性</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>单模态MAE</strong></td>
          <td>忽略多模态互补信息，无法充分利用SAR、DEM等数据</td>
      </tr>
      <tr>
          <td><strong>简单拼接融合</strong></td>
          <td>将所有模态/时相强行拼接，导致异质数据相互干扰</td>
      </tr>
      <tr>
          <td><strong>晚期融合</strong></td>
          <td>各模态独立编码后融合，丢失跨模态交互信息</td>
      </tr>
      <tr>
          <td><strong>统一tokenizer</strong></td>
          <td>用同一套tokenizer处理所有模态，忽略传感器特性差异</td>
      </tr>
  </tbody>
</table>
<h3 id="核心问题提炼" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e6%8f%90%e7%82%bc" class="header-mark"></a>核心问题提炼</h3><p><strong>如何设计一个统一的自监督学习框架，能够高效地融合多模态、多时相、多光谱的遥感数据，同时保持计算效率？</strong></p>]]></description></item><item><title>SatDINO：当DINO遇上遥感——对比学习在卫星图像预训练中的深度探索</title><link>https://spacetop.win/2026/06/20260601_223000_satdino_self_supervised/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_223000_satdino_self_supervised/</guid><description><![CDATA[<h1 id="satdino当dino遇上遥感对比学习在卫星图像预训练中的深度探索" class="headerLink">
    <a href="#satdino%e5%bd%93dino%e9%81%87%e4%b8%8a%e9%81%a5%e6%84%9f%e5%af%b9%e6%af%94%e5%ad%a6%e4%b9%a0%e5%9c%a8%e5%8d%ab%e6%98%9f%e5%9b%be%e5%83%8f%e9%a2%84%e8%ae%ad%e7%bb%83%e4%b8%ad%e7%9a%84%e6%b7%b1%e5%ba%a6%e6%8e%a2%e7%b4%a2" class="header-mark"></a>SatDINO：当DINO遇上遥感——对比学习在卫星图像预训练中的深度探索</h1><blockquote>
  <p><strong>论文解读</strong> | arXiv 2025 | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>SatDINO: A Deep Dive into Self-Supervised Pretraining for Remote Sensing</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Jakub Straka et al.</td>
      </tr>
      <tr>
          <td><strong>会议</strong></td>
          <td>arXiv 2025</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td><a href="https://arxiv.org/abs/2508.21402" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2508.21402</a></td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/strakaj/SatDINO" target="_blank" rel="noopener noreferrer">https://github.com/strakaj/SatDINO</a></td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>自监督学习、DINO、对比学习、GSD编码、遥感预训练</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>遥感领域存在一个有趣的现象：<strong>MAE（掩码自编码器）几乎垄断了自监督预训练的天下</strong>。从SatMAE到Scale-MAE，几乎所有主流的遥感基础模型都采用MAE范式——遮住图像的一部分，让模型去重建。</p>
<p>但这里有个根本性的问题被忽视了：</p>
<p><strong>遥感图像天生就是多尺度的。</strong></p>
<p>同一场景在不同传感器下，GSD（地面采样距离）可以从0.3米到几十米不等。一个建筑物在高分辨率下是清晰的矩形，在低分辨率下可能只是一个模糊的像素点。</p>
<h3 id="现有方法的局限" class="headerLink">
    <a href="#%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>现有方法的局限</h3><p>MAE的核心思路是<strong>重建被遮挡的像素</strong>。这个任务本质上是&quot;填补缺失&quot;，而不是&quot;理解尺度&quot;。具体来说：</p>
<ol>
<li><strong>MAE的尺度感知是被动的</strong>：Scale-MAE虽然引入了GSD信息作为位置编码，但这只是在输入端&quot;告诉&quot;模型当前图像的尺度，模型并没有主动学习尺度的能力</li>
<li><strong>MAE对GSD元数据有依赖</strong>：如果推理时没有GSD信息，性能会显著下降</li>
<li><strong>MAE的多尺度利用不充分</strong>：虽然可以处理不同分辨率的图像，但训练时并没有显式地利用多尺度信息</li>
</ol>
<h3 id="核心问题提炼" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e6%8f%90%e7%82%bc" class="header-mark"></a>核心问题提炼</h3><p><strong>能否用对比学习（DINO）替代MAE，让模型在预训练阶段就主动学习多尺度表示，而不依赖外部GSD元数据？</strong></p>
<h2 id="-解决方案" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88" class="header-mark"></a>💡 解决方案</h2><h3 id="核心洞察dino天然适合多尺度" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e6%b4%9e%e5%af%9fdino%e5%a4%a9%e7%84%b6%e9%80%82%e5%90%88%e5%a4%9a%e5%b0%ba%e5%ba%a6" class="header-mark"></a>核心洞察：DINO天然适合多尺度</h3><p>作者的核心洞察非常精妙：</p>
<blockquote>
  <p>DINO在训练时会生成<strong>多个不同尺度的视图</strong>（global views + local views），这些视图本身就是多尺度的。这与遥感图像的多尺度特性完美契合。</p>
</blockquote><p>具体来说，DINO的标准训练流程是：</p>
<ul>
<li><strong>Global views</strong>：覆盖图像25%-100%的区域</li>
<li><strong>Local views</strong>：覆盖图像5%-25%的区域</li>
</ul>
<p>这意味着模型在训练过程中，天然就会看到同一场景在不同&quot;缩放级别&quot;下的样子——这不正是遥感图像多尺度特性的完美模拟吗？</p>
<h3 id="创新点1gsd编码ground-sample-distance-encoding" class="headerLink">
    <a href="#%e5%88%9b%e6%96%b0%e7%82%b91gsd%e7%bc%96%e7%a0%81ground-sample-distance-encoding" class="header-mark"></a>创新点1：GSD编码（Ground Sample Distance Encoding）</h3><p><strong>设计动机</strong>：</p>
<p>现有的GSD编码方法（如Scale-MAE）将GSD作为位置编码的一部分注入模型。但这种方法有两个致命缺陷：</p>
<ol>
<li>训练时必须有GSD元数据</li>
<li>推理时如果GSD信息缺失，性能会崩溃</li>
</ol>
<p><strong>具体实现</strong>：</p>
<p>SatDINO提出了一种<strong>从图像本身学习GSD</strong>的优雅方案：</p>]]></description></item><item><title>SkySense V2：统一多模态遥感基础模型，一个Backbone搞定RGB/SAR/多光谱</title><link>https://spacetop.win/2026/06/20260601_220000_skysense_v2_multimodal/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_220000_skysense_v2_multimodal/</guid><description><![CDATA[<h1 id="skysense-v2统一多模态遥感基础模型一个backbone搞定rgbsar多光谱" class="headerLink">
    <a href="#skysense-v2%e7%bb%9f%e4%b8%80%e5%a4%9a%e6%a8%a1%e6%80%81%e9%81%a5%e6%84%9f%e5%9f%ba%e7%a1%80%e6%a8%a1%e5%9e%8b%e4%b8%80%e4%b8%aabackbone%e6%90%9e%e5%ae%9argbsar%e5%a4%9a%e5%85%89%e8%b0%b1" class="header-mark"></a>SkySense V2：统一多模态遥感基础模型，一个Backbone搞定RGB/SAR/多光谱</h1><blockquote>
  <p><strong>论文解读</strong> | ICCV 2025 | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>蚂蚁集团、武汉大学</td>
      </tr>
      <tr>
          <td><strong>会议</strong></td>
          <td>ICCV 2025</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td>待确认</td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/kang-wu/SkySensePlusPlus" target="_blank" rel="noopener noreferrer">https://github.com/kang-wu/SkySensePlusPlus</a></td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>遥感基础模型、多模态统一、Transformer、自监督学习、专家混合</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>在遥感领域，我们经常需要处理多种模态的数据：光学图像（RGB）、多光谱图像（MS）、合成孔径雷达（SAR）等。这些不同模态的数据各有优势——光学图像色彩丰富，SAR能穿透云雾，多光谱能捕捉植被健康状况。</p>
<h3 id="现有方法的局限" class="headerLink">
    <a href="#%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>现有方法的局限</h3><p>目前的多模态遥感基础模型存在一个尴尬的问题：</p>
<ol>
<li><strong>参数冗余</strong>：为每种模态训练单独的backbone，导致模型参数量爆炸</li>
<li><strong>效率低下</strong>：不同模态的模型无法共享特征，计算资源浪费严重</li>
<li><strong>语义不一致</strong>：不同模态提取的特征难以对齐，影响下游任务性能</li>
</ol>
<h3 id="核心问题提炼" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e6%8f%90%e7%82%bc" class="header-mark"></a>核心问题提炼</h3><p><strong>如何用一个统一的backbone高效处理多种遥感模态，同时保持各模态的独特特性？</strong></p>
<h2 id="-解决方案" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e6%96%b9%e6%a1%88" class="header-mark"></a>💡 解决方案</h2><h3 id="核心创新点1统一transformer骨干网络" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e5%88%9b%e6%96%b0%e7%82%b91%e7%bb%9f%e4%b8%80transformer%e9%aa%a8%e5%b9%b2%e7%bd%91%e7%bb%9c" class="header-mark"></a>核心创新点1：统一Transformer骨干网络</h3><p><strong>设计动机</strong>：既然不同模态的图像都是2D数据，为什么不共享一个backbone？</p>
<p><strong>具体实现</strong>：</p>
<div class="code-block highlight is-closed show-line-numbers  tw-group tw-my-2">
  <div class="
    
    tw-flex 
    tw-flex-row
    tw-flex-1 
    tw-justify-between 
    tw-w-full tw-bg-bgColor-secondary
    ">      
    <button 
      class="
        code-block-button
        tw-mx-2 
        tw-flex
        tw-flex-row
        tw-flex-1"
      aria-hidden="true">
          <div class="group-[.is-open]:tw-rotate-90 tw-transition-[transform] tw-duration-500 tw-ease-in-out print:!tw-hidden tw-w-min tw-h-min tw-my-1 tw-mx-1"><svg class="icon"
    xmlns="http://www.w3.org/2000/svg" viewBox="0 0 320 512"><!-- Font Awesome Free 5.15.4 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) --><path d="M285.476 272.971L91.132 467.314c-9.373 9.373-24.569 9.373-33.941 0l-22.667-22.667c-9.357-9.357-9.375-24.522-.04-33.901L188.505 256 34.484 101.255c-9.335-9.379-9.317-24.544.04-33.901l22.667-22.667c9.373-9.373 24.569-9.373 33.941 0L285.475 239.03c9.373 9.372 9.373 24.568.001 33.941z"/></svg></div>
          <p class="tw-select-none !tw-my-1">text</p>]]></description></item><item><title>TESSERA：用Barlow Twins从时序卫星影像中学习全球10米分辨率表示</title><link>https://spacetop.win/2026/06/20260601_120000_tessera_temporal_foundation_model/</link><pubDate>Mon, 01 Jun 2026 12:00:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260601_120000_tessera_temporal_foundation_model/</guid><description><![CDATA[<h1 id="tessera用barlow-twins从时序卫星影像中学习全球10米分辨率表示" class="headerLink">
    <a href="#tessera%e7%94%a8barlow-twins%e4%bb%8e%e6%97%b6%e5%ba%8f%e5%8d%ab%e6%98%9f%e5%bd%b1%e5%83%8f%e4%b8%ad%e5%ad%a6%e4%b9%a0%e5%85%a8%e7%90%8310%e7%b1%b3%e5%88%86%e8%be%a8%e7%8e%87%e8%a1%a8%e7%a4%ba" class="header-mark"></a>TESSERA：用Barlow Twins从时序卫星影像中学习全球10米分辨率表示</h1><blockquote>
  <p><strong>论文解读</strong> | CVPR 2026 | 2026-06-01</p>
</blockquote><h2 id="-论文信息" class="headerLink">
    <a href="#-%e8%ae%ba%e6%96%87%e4%bf%a1%e6%81%af" class="header-mark"></a>📄 论文信息</h2><table>
  <thead>
      <tr>
          <th>项目</th>
          <th>内容</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>标题</strong></td>
          <td>TESSERA: Temporal Embeddings of Surface Spectra for Earth Representation and Analysis</td>
      </tr>
      <tr>
          <td><strong>作者</strong></td>
          <td>Z. Feng, C. Atzberger, S. Jaffer, J. Knezevic, S. Sormunen, R. Young, M.C. Lisaius, M. Immitzer, T. Jackson, J. Ball, D.A. Coomes, A. Madhavapeddy, A. Blake, S. Keshav</td>
      </tr>
      <tr>
          <td><strong>会议</strong></td>
          <td>CVPR 2026</td>
      </tr>
      <tr>
          <td><strong>arXiv</strong></td>
          <td><a href="https://arxiv.org/abs/2506.20380" target="_blank" rel="noopener noreferrer">https://arxiv.org/abs/2506.20380</a></td>
      </tr>
      <tr>
          <td><strong>GitHub</strong></td>
          <td><a href="https://github.com/ucam-eo/tessera" target="_blank" rel="noopener noreferrer">https://github.com/ucam-eo/tessera</a> (594 stars)</td>
      </tr>
      <tr>
          <td><strong>关键词</strong></td>
          <td>时序遥感、自监督学习、Barlow Twins、基础模型、像素级表示</td>
      </tr>
  </tbody>
</table>
<h2 id="-解决的核心问题" class="headerLink">
    <a href="#-%e8%a7%a3%e5%86%b3%e7%9a%84%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98" class="header-mark"></a>🎯 解决的核心问题</h2><h3 id="问题背景" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e8%83%8c%e6%99%af" class="header-mark"></a>问题背景</h3><p>卫星遥感是监测地球表面变化的重要工具，广泛应用于栖息地制图、碳核算、农业监测等领域。然而，卫星时序数据面临两大挑战：</p>
<ol>
<li><strong>数据量巨大</strong>：全球范围的卫星时序数据达到PB级别，处理和存储成本极高</li>
<li><strong>云遮挡严重</strong>：光学卫星影像经常被云层遮挡，导致时序数据不完整</li>
</ol>
<h3 id="现有方法的局限" class="headerLink">
    <a href="#%e7%8e%b0%e6%9c%89%e6%96%b9%e6%b3%95%e7%9a%84%e5%b1%80%e9%99%90" class="header-mark"></a>现有方法的局限</h3><ul>
<li><strong>传统方法</strong>：通常对时序数据取平均或选择无云影像，丢失了重要的时序信息</li>
<li><strong>现有基础模型</strong>：大多基于单时相影像训练，无法捕捉时序变化模式</li>
<li><strong>像素级方法</strong>：计算成本高，难以扩展到全球范围</li>
</ul>
<h3 id="核心问题提炼" class="headerLink">
    <a href="#%e6%a0%b8%e5%bf%83%e9%97%ae%e9%a2%98%e6%8f%90%e7%82%bc" class="header-mark"></a>核心问题提炼</h3><p><strong>如何从云遮挡严重的卫星时序数据中，高效学习保留时序物候信号的像素级表示？</strong></p>]]></description></item></channel></rss>