GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名

Mon, 15 Jun 2026 17:00:03 +0800

GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名

结论：这一轮最值得补进雷达的是 2026-06-11 提交到 arXiv 的 How do Self-Supervised Remote Sensing Vision Models Transfer to Downstream Tasks?。它不是再提出一个遥感基础模型，而是系统追问一个更容易被忽略的问题：GeoFM 到底把下游任务需要的信息放在了哪一层，评测时用最后一层 embedding、轻量 decoder、UPerNet 或 fine-tuning，会不会直接改变模型排名？论文比较 MoCo、MAE、DINO v1、Prithvi v1、CROMA 和 TerraMind，结论很直接：GeoFM 的“强弱”不是一个固定标签，而是任务、标签量、特征层、decoder 和微调策略共同作用的结果。

我按 2026-06-15 17:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是 GeoFM 迁移评测论文。虽然被比较的 CROMA 来自跨传感器预训练家族，论文的下游评测明确使用 optical/Sentinel-2 encoder；这里也只讨论光学/多光谱迁移、dense prediction 和评测协议，不把雷达分支作为主线。

它和前几轮的 Flexible GeoFM 不同。Flexible GeoFM 关心的是 band 配置、tokenization 和 missing-band 鲁棒性；本篇关心的是 同一个预训练模型被怎样读取和适配。换句话说，前者问“输入谱段不齐时架构怎么设计”，这篇问“模型内部哪一层才真正对下游有用，以及评测 head 有没有读对”。

背景

遥感基础模型这两年很容易陷入一个简单叙事：更大的预训练数据、更复杂的多模态目标、更高的 benchmark 总分，似乎就代表更强的通用能力。但真实下游使用并不这么干净。

一个模型可能在 EuroSAT 这类图像级土地覆盖分类上很好，却在像素级分割里一般；另一个模型可能在低层回归任务上保留更多光谱和环境信息，却不擅长高层语义；还有一些模型在 10% 标签设置下有优势，但标签变多后优势消失。更麻烦的是，很多评测默认取最后一层 embedding 或套一个标准 UPerNet decoder，可 GeoFM 的信息未必集中在最后一层。

可信评测 - Tag - 堂堂一跑堂

GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名

GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名

背景