GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名

WangTong included in category 遥感基础模型与多模态理解

2026-06-15 17:00:03 2026-06-15 17:00:03 676 words 3 minutes

Contents

GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名

结论：这一轮最值得补进雷达的是 2026-06-11 提交到 arXiv 的 How do Self-Supervised Remote Sensing Vision Models Transfer to Downstream Tasks?。它不是再提出一个遥感基础模型，而是系统追问一个更容易被忽略的问题：GeoFM 到底把下游任务需要的信息放在了哪一层，评测时用最后一层 embedding、轻量 decoder、UPerNet 或 fine-tuning，会不会直接改变模型排名？论文比较 MoCo、MAE、DINO v1、Prithvi v1、CROMA 和 TerraMind，结论很直接：GeoFM 的“强弱”不是一个固定标签，而是任务、标签量、特征层、decoder 和微调策略共同作用的结果。

我按 2026-06-15 17:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是 GeoFM 迁移评测论文。虽然被比较的 CROMA 来自跨传感器预训练家族，论文的下游评测明确使用 optical/Sentinel-2 encoder；这里也只讨论光学/多光谱迁移、dense prediction 和评测协议，不把雷达分支作为主线。

它和前几轮的 Flexible GeoFM 不同。Flexible GeoFM 关心的是 band 配置、tokenization 和 missing-band 鲁棒性；本篇关心的是 同一个预训练模型被怎样读取和适配。换句话说，前者问“输入谱段不齐时架构怎么设计”，这篇问“模型内部哪一层才真正对下游有用，以及评测 head 有没有读对”。

背景

遥感基础模型这两年很容易陷入一个简单叙事：更大的预训练数据、更复杂的多模态目标、更高的 benchmark 总分，似乎就代表更强的通用能力。但真实下游使用并不这么干净。

一个模型可能在 EuroSAT 这类图像级土地覆盖分类上很好，却在像素级分割里一般；另一个模型可能在低层回归任务上保留更多光谱和环境信息，却不擅长高层语义；还有一些模型在 10% 标签设置下有优势，但标签变多后优势消失。更麻烦的是，很多评测默认取最后一层 embedding 或套一个标准 UPerNet decoder，可 GeoFM 的信息未必集中在最后一层。

这对遥感很关键。卫星影像不是 ImageNet 式的中心物体图片。地物尺度跨度很大，语义有时来自光谱，有时来自纹理，有时来自时序，有时来自地理上下文。像农田、火烧迹地、水体、云、海面污染、城市绿地这类任务，对特征层级的需求并不相同。如果评测协议只读 final embedding，就可能把“模型没有学到”误判成“评测头没有读到”。

这篇论文的价值就在这里：它把 GeoFM 评测从单榜排名推进到 representation-aware evaluation，也就是把问题拆成三层：预训练目标学到了什么，信息在 ViT 深度上怎么分布，下游 adapter/decoder 能不能取到这些信息。

论文/项目

论文比较了六个 12-block ViT 系列遥感自监督模型。

第一组是通用 SSL 目标在 SSL4EO 上训练的模型：MoCo、MAE 和 DINO v1。它们分别代表 contrastive、masked reconstruction 和 self-distillation。

第二组是带地理先验或多模态预训练目标的 GeoFM：Prithvi v1、CROMA 和 TerraMind。Prithvi v1 代表时序重建式 HLS/光学基础模型；CROMA 代表跨传感器对齐与 masked autoencoding；TerraMind 代表更大规模的多模态 token prediction 和 pixel-token 双尺度学习。论文为了比较深度分布，把所有模型都放在 12 个 transformer block 的框架下观察。

下游任务覆盖三个层级。

图像级分类使用 EuroSAT，用 kNN 评估 embedding space。图像级回归使用 NeuCo-Bench，包含 biomass、cloud、heat-island 等低层任务，以及 crop、agriculture、forest coverage 等语义任务。像素级分割使用 PANGAEA 任务，并进一步用 PASTIS 和 Sen1Floods11 做 decoder、label availability、fine-tuning 和 layerwise case study。这里需要注意：本文关注的是论文中使用的 optical/Sentinel-2 输入协议，不展开任何雷达-only 方向。

代码侧我没有确认到这篇论文自己的独立 GitHub 仓库。它引用并使用了 NeuCo-Bench、PANGAEA、PASTIS 等公开评测资源，因此当前更适合作为评测协议和后续复现实验的蓝图，而不是马上可运行的一站式工具包。

方法

论文的核心不是发明新模型，而是做三类诊断。

第一类是 frozen encoder downstream evaluation。作者固定 optical encoder，用不同任务和不同标签量评估模型表现，观察排名是否稳定。这个设置回答的是：如果我只把 GeoFM 当 feature extractor，用轻量下游头，它在不同任务上是否仍然可靠？

第二类是 layerwise probing。作者不只看最后一层，而是在不同 ViT block 上做 probe，判断任务相关信息在哪一层变得线性可访问。这个设计很重要，因为遥感的低层光谱/纹理信息和高层地物语义不一定同步出现在同一深度。

第三类是 segmentation adaptation study。作者在 PASTIS 和 Sen1Floods11 上比较 frozen vs fine-tuned、10% vs 100% labels、UPerNet vs Light Multi-Scale decoder vs single-level upsampler。这里的关键不是“哪个 decoder 名气最大”，而是看 decoder 设计是否匹配 GeoFM 的深度信息组织方式。

最后，论文用 CKA 分析 fine-tuning 前后各层 representation space 的变化。这个分析回答的是：fine-tuning 到底是重写整个 encoder，还是只集中修改某些层和某些模块？

实验

最重要的结果是：模型排名非常不稳定。

在 Table 4 的 frozen encoder 综合评测中，MoCo、MAE、DINO、Prithvi、CROMA、TerraMind 在不同任务上的排序会明显变化。EuroSAT、NeuCo 低层回归、NeuCo 语义回归、PANGAEA 分割并没有给出一个统一冠军。论文观察到，MoCo 和 DINO 这类 joint embedding 方法在 EuroSAT 这类高层分类任务上较强，但在 NeuCo 的低层和语义回归上相对弱；MAE 和 Prithvi 这类 reconstruction 目标更偏低层任务；CROMA 和 TerraMind 这类跨模态/多目标模型在 NeuCo semantic regression 上更强。

这说明不同自监督目标确实在保留不同信息。问题不是简单地说 reconstruction 好还是 contrastive 好，而是要看任务到底需要什么：语义类别、连续环境变量、细粒度边界、时序模式，还是像素级空间结构。

PASTIS 的结果更能说明 decoder 的影响。使用 Light Multi-Scale decoder 和 10% 标签时，六个 GeoFM 的 frozen mean mIoU 是 37.34；fine-tuning 后提升到 41.67，平均增益约 +5.06 mIoU。PASTIS 是 18 类作物时序分割，需要语义和时间信息，因此 fine-tuning 明显有用。

但 Sen1Floods11 上 fine-tuning 平均不是正收益。论文报告在所有相关设置上，Frozen -> Fine-tuned 平均变化为 -0.19 mIoU。原因可能是这个任务在当前设置下更接近水/非水二分类，任务复杂度较低，冻结特征已经足够；强行 fine-tuning 反而可能破坏可泛化表征。

decoder 结论也很反直觉。UPerNet 是很多 dense prediction 论文里的标准多尺度 decoder，但这篇发现轻量 decoder 甚至 single-level upsampler 经常能匹配或超过 UPerNet。PASTIS 上从 Light Multi-Scale 换到 UPerNet，平均变化是 -1.38 mIoU；Sen1Floods11 上也为 -0.33。论文还指出，single-level upsampler 常常在中间层 block 5 或 block 7 取特征时更好，而不是最后一层 block 11。

效率结果同样有意义。从 UPerNet 换到 single-level upsampler，decoder 参数减少 82% 到 93%，训练时间减少约 26%；更大的节省来自 frozen setup，相比 fine-tuning 平均减少约 52% 训练时间。也就是说，表示层选择和 decoder 简化不只是研究诊断，还可能直接降低遥感下游部署成本。

CKA 结果给出更细的解释。fine-tuning 并不是均匀重写所有 GeoFM。多数模型的 representation shift 随深度增加，但 Prithvi 在中间层变化更明显，CROMA 在多个层都有较大变化，TerraMind 的变化更集中在最后一个 ViT block。更具体地，论文观察到最大变化常集中在 ViT block 的 MLP 第一线性层。这提示后续做 PEFT 或 selective fine-tuning 时，不必盲目全量微调。

亮点

第一，它把 GeoFM 评测从“排行榜”推进到“读模型内部”。很多遥感基础模型论文只报告最终任务分数，但这篇问的是分数为什么变、信息在哪一层、adapter 有没有取对。

第二，它提醒我们不要迷信 final embedding。中间层对遥感 dense prediction 很可能更有价值，尤其是作物、边界、水体、建筑、道路这类需要空间细节的任务。

第三，它把 decoder 从附属工程变成评测变量。遥感论文经常把 UPerNet、SegFormer head 或简单线性头当默认配置，但这篇说明 decoder 会改变模型排名，甚至让轻量单层 decoder 赢过重型多尺度 decoder。

第四，它给 parameter-efficient adaptation 提供了方向。CKA 显示 fine-tuning 的变化集中在特定层和 MLP 子模块，这比泛泛地套 LoRA 更有指导意义。后续可以基于层级诊断选择 adapter 插入位置。

第五，它适合构建更可信的 GeoFM benchmark。一个 benchmark 如果只报总体 mIoU，很难解释模型差异；如果同时报告 layerwise probe、decoder sensitivity、label efficiency 和 fine-tuning shift，就能更接近真实下游决策。

不足

第一，这篇仍是评测和诊断论文，不是完整 benchmark 平台。它没有释放一个统一可复现的工程仓库，短期复现实验需要自己把模型权重、数据预处理和下游头串起来。

第二，模型比较仍存在不可完全控制的混杂。六个模型的预训练数据规模、参数规模、输入协议和训练目标并不完全一致。作者已经尽量用 12-block ViT 观察深度行为，但这不能消除所有差异。

第三，dense prediction case study 还不够广。PASTIS 代表农业时序分割，Sen1Floods11 代表较简单二分类水体任务，但建筑、道路、开放词表分割、变化检测、灾害损毁评估、城市跨域迁移还需要单独验证。

第四，ImageNet baseline 的结果值得更深入处理。论文发现 fine-tuned ImageNet ViT-B/16 在若干 segmentation 设置中能接近甚至超过部分 GeoFM，这说明遥感基础模型的优势边界还不够清楚。后续评测必须更严格地区分 frozen transfer、label efficiency、OOD robustness 和 full fine-tuning。

第五，和 VLM 的连接还没有展开。当前分析主要面向视觉 encoder 和 dense prediction decoder；但遥感 VLM 的视觉塔同样面临层选择、token pooling、空间 grounding 和多尺度信息读取问题。这篇的诊断方法可以迁移过去，但论文尚未直接验证 RS-VLM。

启发

一个值得做成论文的方向是：Layer-aware GeoFM adaptation benchmark for dense remote sensing prediction。

问题可以定义为：给定一组公开 GeoFM，不再只比较最后一层 + 固定 decoder 的分数，而是系统评估不同层、不同 token pooling、不同 decoder、不同 PEFT 插入位置在遥感 dense prediction 上的表现。目标是回答一个实际问题：当我拿到一个 GeoFM，应该从哪一层读特征，接什么 head，微调哪些模块，才能在少标签和跨域场景下稳定工作？

核心假设是：GeoFM 的下游失败很多不是因为 backbone 没学到信息，而是因为评测和适配协议没有访问到正确层级；layer-aware adapter 可以在更少参数、更少训练时间下，达到或超过全量微调和重型 decoder。

方法可以分四步。

第一步，固定一批代表性 backbone：Prithvi-EO、SatMAE、DINOv2/SSL4EO、CROMA、TerraMind、Clay、Galileo 或 SkySense。每个模型抽取多个 block 的 patch token、CLS token 和 pooled token。

第二步，在同一遥感任务上比较四类读取方式：final embedding、best single layer、multi-layer learned fusion、layer-gated adapter。dense prediction head 只保留几种明确复杂度等级，例如 linear upsampler、轻量多尺度 decoder、UPerNet 和 task-specific decoder。

第三步，构造任务矩阵。至少包括 PASTIS/作物时序、LoveDA/OpenEarthMap/土地覆盖、SpaceNet/建筑、DeepGlobe/道路、LEVIR-CD/变化检测和一个跨城市或跨季节 OOD split。指标不只用 mIoU/F1，还要报告 boundary F1、worst-domain score、ECE 校准误差、训练时间、decoder 参数量和 feature extraction 成本。

第四步，把 CKA 或 SVCCA 诊断和 adapter 策略绑定。比如如果某模型在中层保留空间细节，就只在中层插 adapter；如果 fine-tuning shift 集中在 MLP 第一线性层，就优先测试 MLP-LoRA、LayerNorm tuning、partial fine-tuning，而不是全量更新。

一个可直接用于这类工作的 VLM/LLM 实验审计 prompt 可以写成：

你是遥感 GeoFM 下游适配实验审计器。
给定一个实验配置，包括 backbone、输入模态、抽取层、token pooling、decoder、微调策略、训练标签比例、数据集 split 和评价指标，请判断这个实验是否能公平支持“模型 A 优于模型 B”的结论。

必须逐项检查：
1. 两个模型是否使用相同输入谱段、空间分辨率、归一化方式和训练/验证/测试 split。
2. 是否只比较 final embedding；如果是，标记为 layer-risk。
3. decoder 参数量是否差异过大；如果 decoder 比 backbone 差异更可能解释性能，标记为 decoder-confound。
4. 是否同时报告 frozen、PEFT 和 full fine-tuning；若只报告其中一种，标记为 adaptation-incomplete。
5. 是否包含低标签和跨域/OOD 测试；若只有随机 split，标记为 deployment-risk。
6. dense prediction 是否报告边界、校准和最差域指标，而不是只报平均 mIoU。
7. 输出 accept / revise / reject 三选一，并给出最主要的混杂因素。

不要因为某个模型在单一任务上分数最高就判定它是更强 GeoFM。
不要忽略 decoder、层选择和标签比例对排名的影响。
如果结论依赖单一 final-layer 设置，优先要求补充 layerwise probe。

这条线对遥感 AI 的意义很现实。未来不缺新的 GeoFM 名字，缺的是知道什么时候该用它、怎么用它、为什么它在某个任务上失败。把 GeoFM benchmark 从“模型排行榜”升级成“表示层 + 适配器 + 任务结构”的诊断协议，比继续堆一个新 backbone 更容易形成可复现、可投稿、可落地的贡献。

Contents

GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名

GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名

背景

论文/项目

方法

实验

亮点

不足

启发

参考

Related Content

评论

GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名

GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名

背景

论文/项目

方法

实验

亮点

不足

启发

参考

Related Content

DEO：用双教师蒸馏把 DINOv3 的 RGB 语义注入多光谱 GeoFM

过去 24 小时遥感 AI 雷达：VLM 要看对区域，GeoFM 要接对任务，TTA 要有证据

Clay-CNN Hybrids：GeoFM 做滑坡制图，别急着替换 U-Net

OSMGraphCLIP：位置表征不一定要从卫星像素开始

过去 24 小时遥感 AI 雷达：GeoFM 比架构，VLM 比证据，Agent 比执行

评论