<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>可信评测 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E5%8F%AF%E4%BF%A1%E8%AF%84%E6%B5%8B/</link><description>可信评测 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Mon, 15 Jun 2026 17:00:03 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E5%8F%AF%E4%BF%A1%E8%AF%84%E6%B5%8B/" rel="self" type="application/rss+xml"/><item><title>GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名</title><link>https://spacetop.win/2026/06/20260615_170003_twohour_remote_sensing_radar/</link><pubDate>Mon, 15 Jun 2026 17:00:03 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260615_170003_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="geofm-迁移评测不要只看最后一层decoder-也会改写排名" class="headerLink">
    <a href="#geofm-%e8%bf%81%e7%a7%bb%e8%af%84%e6%b5%8b%e4%b8%8d%e8%a6%81%e5%8f%aa%e7%9c%8b%e6%9c%80%e5%90%8e%e4%b8%80%e5%b1%82decoder-%e4%b9%9f%e4%bc%9a%e6%94%b9%e5%86%99%e6%8e%92%e5%90%8d" class="header-mark"></a>GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名</h1><p><strong>结论：这一轮最值得补进雷达的是 2026-06-11 提交到 arXiv 的 <em>How do Self-Supervised Remote Sensing Vision Models Transfer to Downstream Tasks?</em>。它不是再提出一个遥感基础模型，而是系统追问一个更容易被忽略的问题：GeoFM 到底把下游任务需要的信息放在了哪一层，评测时用最后一层 embedding、轻量 decoder、UPerNet 或 fine-tuning，会不会直接改变模型排名？论文比较 MoCo、MAE、DINO v1、Prithvi v1、CROMA 和 TerraMind，结论很直接：GeoFM 的“强弱”不是一个固定标签，而是任务、标签量、特征层、decoder 和微调策略共同作用的结果。</strong></p>
<p>我按 2026-06-15 17:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是 GeoFM 迁移评测论文。虽然被比较的 CROMA 来自跨传感器预训练家族，论文的下游评测明确使用 optical/Sentinel-2 encoder；这里也只讨论光学/多光谱迁移、dense prediction 和评测协议，不把雷达分支作为主线。</p>
<p>它和前几轮的 Flexible GeoFM 不同。Flexible GeoFM 关心的是 band 配置、tokenization 和 missing-band 鲁棒性；本篇关心的是 <strong>同一个预训练模型被怎样读取和适配</strong>。换句话说，前者问“输入谱段不齐时架构怎么设计”，这篇问“模型内部哪一层才真正对下游有用，以及评测 head 有没有读对”。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>遥感基础模型这两年很容易陷入一个简单叙事：更大的预训练数据、更复杂的多模态目标、更高的 benchmark 总分，似乎就代表更强的通用能力。但真实下游使用并不这么干净。</p>
<p>一个模型可能在 EuroSAT 这类图像级土地覆盖分类上很好，却在像素级分割里一般；另一个模型可能在低层回归任务上保留更多光谱和环境信息，却不擅长高层语义；还有一些模型在 10% 标签设置下有优势，但标签变多后优势消失。更麻烦的是，很多评测默认取最后一层 embedding 或套一个标准 UPerNet decoder，可 GeoFM 的信息未必集中在最后一层。</p>]]></description></item></channel></rss>