DEO:用双教师蒸馏把 DINOv3 的 RGB 语义注入多光谱 GeoFM
DEO:用双教师蒸馏把 DINOv3 的 RGB 语义注入多光谱 GeoFM
结论:这一轮最值得补进雷达的是 CVPR 2026 Highlight 论文 Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation。它提出 DEO,用一个多光谱 EMA teacher 学 Sentinel-2 10 通道表示,再用冻结的光学 VFM teacher(默认 DINOv3)把 RGB 语义和 patch-level 结构蒸馏到同一个学生模型里。论文的关键信号不是“再训练一个遥感 backbone”,而是把通用视觉基础模型和多光谱 EO 基础模型之间的接口说清楚:如果目标是让 RGB 光学语义迁移到多光谱,预训练目标最好和 DINO/DINOv3 这类 contrastive self-distillation 范式对齐,而不是只靠 masked image modeling 做局部重建。
我按 2026-06-16 15:00 +08 检索公开来源,并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。DEO 的训练主线是 fMoW-Sentinel / fMoW-RGB 的光学与 Sentinel-2 多光谱数据;论文确实在相关工作和对比方法中提到含雷达路线,但本篇只讨论它对非 SAR 光学/多光谱 GeoFM 的价值。同期本地文章已经覆盖 FusionRS、RATS、Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、CoastlineVLM、Stateful Visual Encoders、LG-SAM、VecLang、TerraBench、OSTB 等方向,因此这里不重复已有条目。
背景
遥感基础模型现在有一个很实际的分叉:一边是 DINOv2、DINOv3、RADIO 这类通用视觉基础模型,RGB 语义强、patch 特征好、下游 dense prediction 适配成熟;另一边是 Prithvi、SatMAE、CROMA、Copernicus-FM、TerraFM、AnySat 这类 EO foundation models,能处理多光谱、多传感器、时序或地理场景,但不少模型仍然依赖 masked image modeling,学到的表示更偏局部重建,未必有足够强的全局语义结构。
这个矛盾在多光谱任务里尤其明显。Sentinel-2 的 NIR、red-edge、SWIR 等波段对作物、洪水、植被、水体、裸地和灾害监测很重要,但 DINOv3 这类视觉模型只吃 RGB。直接把 RGB VFM 用到多光谱,会丢掉非 RGB 波段;只在 Sentinel-2 上做 MIM,又可能学不到 DINOv3 那种适合分割和迁移的语义空间。
DEO 的切入点是:不要假设一个“万能 EO 模型”一次解决所有传感器,而是把不同 teacher 的知识放在一个兼容的训练目标里。多光谱 teacher 负责传感器内的 representation learning,光学 VFM teacher 负责把成熟的 RGB 语义先验和 patch structure 转给学生模型。
论文/项目
论文标题是 Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation,arXiv 编号 2602.19863,作者来自 University of Ljubljana。arXiv 页面显示论文 2026-02-23 提交、2026-02-24 修订;CVF Open Access 页面显示该论文发表于 CVPR 2026,页码 27815-27826,项目页标注为 CVPR 2026 Highlight。
主源链接如下:
- 论文 arXiv:https://arxiv.org/abs/2602.19863
- CVF Open Access:https://openaccess.thecvf.com/content/CVPR2026/html/Wolf_Brewing_Stronger_Features_Dual-Teacher_Distillation_for_Multispectral_Earth_Observation_CVPR_2026_paper.html
- 项目页:https://wolfilip.github.io/DEO/
- 官方代码:https://github.com/wolfilip/DEO-FM
- Hugging Face 权重:https://huggingface.co/SolaireTheSun/DEO
已验证事实是:官方 GitHub 仓库公开 PyTorch 实现,MIT license;README 显示已释放 pretraining code、Swin-B 和 ViT-B 预训练权重,权重也可在 Hugging Face 获取;模型可输入 3 通道 RGB 或 10 通道 Sentinel-2 多光谱(不含 60m atmospheric bands)。仓库说明运行环境偏 Linux,要求 Python 3.11+、PyTorch 2.4+ 和 xFormers 0.0.29+,目前没有 GitHub release。
方法
DEO 是一个双教师学生模型。第一条分支是多光谱 contrastive self-distillation:学生和 EMA teacher 都看 Sentinel-2 多通道图像的不同 crop/view,用 DINO 风格的对齐目标学习多光谱表征。作者还使用 coding-rate regularizer 来避免表示坍缩,让特征空间保持维度多样性。
第二条分支是光学 VFM distillation:冻结的 DINOv3 teacher 只看 RGB/optical view,学生也通过单独的 3 通道 patch embedding 处理 optical input。蒸馏不只对齐 class token,还对齐最后层和中间层 patch tokens。这个设计很关键,因为遥感分割、变化检测和制图不是 image-level 分类,patch-level 结构往往比全局类别 token 更重要。
最终学生模型同时优化多光谱 self-distillation loss 和光学 VFM distillation loss。论文强调,这和 Copernicus-FM 这类 MIM + VFM distillation 的组合不同:DEO 把学生的训练范式直接对齐到 DINO/DINOv3 的 contrastive self-distillation 逻辑,所以更容易继承 DINOv3 的语义结构。
架构上,论文主推 Swin backbone。理由是 Swin 的层级结构和小 patch size 更适合高分辨率 dense prediction,而 DINOv3 等 VFM 常用 ViT patch size 16,特征分辨率受限。DEO 等于把 ViT-style optical teacher 的知识蒸馏到更适合遥感密集预测的 Swin 学生里。
数据与实验
预训练使用 50 万张 fMoW-Sentinel 与 fMoW-RGB 图像,训练 100 epoch,16 张 NVIDIA A100,Adam optimizer。作者从 fMoW-Sentinel 中去掉 3 个 60m atmospheric bands,保留 10 个 Sentinel-2 波段;同时用同位置 fMoW-RGB 中的高分辨率 aerial image 替换 15 万个低空间分辨率 optical bands,以提供更细的光学 privileged knowledge。
下游任务覆盖三类。
第一类是语义分割。论文使用 frozen backbone + UPerNet,评估 GEO-Bench 中多个 optical / multispectral 数据集,并加入 SpaceNetv1、Sen1Floods11 和 PASTIS 等任务。表 1 显示 DEO 在 optical 平均 81.98、multispectral 平均 57.45、overall 平均 69.72;相比 SatDiFuser、Copernicus-FM、TerraFM、DINOv3-LS 等基线,整体排名第一。论文摘要和 CVF 页面报告语义分割平均提升 3.64 个百分点。
第二类是变化检测。论文在 LEVIR 和 OSCD 上使用二值 F1,做法是提取 pre/post image 的 backbone features,再用 element-wise subtraction 融合,接 UPerNet decoder 输出 change map。DEO 的平均 F1 为 75.9,在 multispectral OSCD 上尤其强,论文报告变化检测平均提升 1.2 个点。
第三类是多光谱分类。论文在 GEO-Bench 的 m-BigEarthNet、m-So2Sat、m-EuroSAT 上做 linear probing。DEO 的平均结果为 69.22,优于 TerraFM、DINOv3-B、DINOv3-LS、CROMA、Copernicus-FM 等对比;论文摘要报告分类平均提升 1.31 个点。
消融实验也有直接指导意义。先只做 MS contrastive baseline,再逐步加入 DINOv3 class-token distillation、separate optical path、DINOv3 patch-token distillation、optical augmentations、高分辨率 optical data。整体从 69.16 提升到 72.87。也就是说,提升不是单个 trick,而是“目标对齐 + 光学单独路径 + patch 蒸馏 + 高分辨率 privileged optical data”共同作用。
亮点
第一,DEO 明确挑战了遥感 GeoFM 过度依赖 MIM 的惯性。MIM 很适合学局部重建和波段补全,但不一定自然形成适合跨任务迁移的全局语义空间。DEO 把 DINOv3 这种通用 VFM 的训练范式搬进多光谱,而不是简单把 DINO 特征当额外 loss。
第二,它把 RGB 到多光谱的迁移做得比较克制。模型没有假装 DINOv3 能理解 NIR/SWIR,而是让多光谱 teacher 学 MS 表示,让 optical teacher 传 RGB 语义,两者通过学生模型统一。这比“把多光谱压成 RGB 再喂 VFM”更合理。
第三,代码和权重已经公开。对遥感基础模型论文来说,这一点很重要。官方仓库提供 pretraining code、feature loading 示例和 Swin-B / ViT-B 权重,Hugging Face 模型卡也能找到 Swin-B 权重入口,适合做复现实验或作为下游 baseline。
第四,实验覆盖 optical-only 和 multispectral 两种输入。很多多光谱模型会牺牲 RGB 高分辨率任务表现,DEO 的卖点是 MS 任务提升,同时 optical-only 任务不明显掉队。对实际系统来说,这意味着一个 backbone 可以同时处理 UAV/aerial RGB 与 Sentinel-2 MS 场景。
第五,低标注实验有价值。论文在 10% labeled data setting 下仍保持强结果,尤其对灾害响应、作物制图、区域迁移这类标注昂贵任务有现实意义。
不足
第一,DEO 仍依赖 optical teacher 的强度。论文自己的 limitation 也指出,光学特征是通过蒸馏转移,不是显式重新预训练出来的。如果 teacher 对某些遥感结构、季节、地物或区域有偏差,学生可能继承这些偏差。
第二,它假设输入空间对齐。光学和多光谱在 fMoW/Sentinel-2 语境中相对可控,但跨平台、跨分辨率、跨时相、跨投影误差会让蒸馏信号变脏。这个问题在城市高分辨率 aerial image 与 Sentinel-2 coarse MS 对齐时尤其明显。
第三,SAR 不在它当前能力范围内。论文 limitation 明确说缺少 SAR 等模态的强 teacher 会限制扩展性。本篇按你的要求不把 SAR 纳入方向;如果未来有人把 DEO 扩到 SAR,也必须单独处理 teacher、配准和 speckle/statistics 问题。
第四,benchmark 仍偏标准任务。分割、变化检测、分类是必要验证,但还不能说明模型能支撑开放词汇分割、VLM grounding、跨国家制图、长期时序作物监测或不确定性估计。
第五,算力门槛不低。100 epoch、16 张 A100 的预训练配置对个人实验室不轻。虽然官方公开权重降低了使用门槛,但如果要换区域、换传感器、换波段组合重新预训练,需要设计更轻量的 LoRA/adapters 或 teacher-free adaptation。
遥感迁移方案
最直接的用法是把 DEO 作为多光谱下游 backbone,替换现有 SatMAE/Prithvi/Copernicus-FM/GeoRSCLIP 特征,先做 frozen-feature 对比,再做轻量 adapter 微调。任务可以选 PASTIS、EuroCrops、m-BigEarthNet、LoveDA 的 RGB 子集、OpenEarthMap、SpaceNet building、LEVIR-CD 和 OSCD 的非 SAR 光学/多光谱设置。
更有研究价值的方向是 DEO + VLM grounding。DEO 本身不是 VLM,但它能提供比 RGB-only VFM 更懂多光谱的 dense features。可以让 DEO 负责 pixel/region feature,RemoteCLIP/GeoRSCLIP 或通用 VLM 负责文本空间,再用一个轻量 cross-modal adapter 把“水体、农田、建筑、裸地、洪水淹没、作物类型”等类别词对齐到 DEO 的多光谱特征上。
另一个值得做的是 band-aware distillation audit。DEO 证明了 DINOv3 语义可以帮助多光谱,但还需要知道帮助来自哪里:是 RGB 高分辨率边界?是 DINOv3 的 patch separability?还是多光谱 teacher 学到的 NIR/SWIR 物理线索?可以做 band-drop、season-drop、resolution-drop 和 teacher-drop 实验,给每个下游任务输出贡献分解。
如果做变化检测,可以把 DEO 的 twin backbone 接到现有 change decoder,重点评估跨季节误报、非建筑变化误报、弱配准误差和低标注泛化。DEO 的多光谱特征理论上能减少纯 RGB appearance shift 的误报,但这需要在 OSCD、HLS/Sentinel-2 时间序列和自建跨季节 split 上验证。
可做的论文方向
第一,做 DEO-VG: Multispectral Feature Grounding for Remote Sensing VLMs。问题是遥感 VLM 多数仍偏 RGB,难以利用 NIR/SWIR 证据。假设是 DEO dense features 能作为多光谱视觉侧 grounding backbone,提升开放词汇分割和区域问答。方法是冻结 DEO,训练 text-region adapter,接 RemoteCLIP/GeoRSCLIP 或 Qwen2.5-VL-style decoder。数据可用 LoveDA/OpenEarthMap/PASTIS/m-BigEarthNet,再构造多光谱类别解释。指标包括 mIoU、text-to-region retrieval、region QA factuality 和跨区域泛化。
第二,做 Band Contribution Audit for Distilled GeoFM。问题是多光谱 foundation model 的性能提升经常无法解释。方法是对 DEO 做 band masking、teacher masking、optical-resolution masking 和 patch-token distillation ablation,输出任务级贡献矩阵。贡献可以是一个 benchmark protocol,而不是新模型。指标包括分割 mIoU、变化 F1、分类 F1/Top-1、ECE 校准误差和 OOD drop。
第三,做 Low-Label Disaster Mapping with Optical-to-MS Distillation。问题是灾害标注稀缺、时效要求高。方法是用 DEO 特征接轻量 decoder,在 1%、5%、10% 标签下比较 Prithvi、SatMAE、DINOv3-LS、Copernicus-FM。任务限定为非 SAR 的光学/多光谱洪水、烧毁区、建筑损毁或滑坡制图。必须报告跨事件、跨地区和跨季节泛化。
第四,做 Resolution-Misalignment Robust Distillation for EO。问题是 DEO 依赖 high-resolution optical privileged data,但真实配准常不完美。方法是在预训练或 adapter 阶段引入合成错位、尺度扰动和地理重采样噪声,让学生学会在 RGB aerial 与 Sentinel-2 MS 之间稳健对齐。指标看 dense task performance、边界误差、错位敏感曲线和 feature CKA。
第五,做 Teacher Ecosystem for GeoFM。问题是单一 teacher 无法覆盖 RGB、多光谱、时序、DSM、地图矢量等模态。方法是沿 DEO 的双教师思路扩展成可插拔 teacher routing:RGB teacher、MS teacher、temporal teacher、vector teacher 分别提供不同监督,学生通过 shared encoder + modality adapters 学统一特征。第一步不碰 SAR,先做 optical/MS/vector 三类。
实验建议
最小实验可以从官方权重开始,不需要重训 16 A100。
- 下载 DEO Swin-B 或 ViT-B 权重,固定 backbone。
- 选 3 个任务:SpaceNet/OpenEarthMap building,PASTIS crop segmentation,OSCD/LEVIR optical change detection。
- 对比 DINOv3-LS、SatMAE/Prithvi、Copernicus-FM、RemoteCLIP/GeoRSCLIP 的 frozen features。
- 统一 decoder 和训练预算,报告 mean/std,不只报最好一次。
- 做 band-drop:RGB only、RGB+NIR、RGB+red-edge、10-band full。
- 做 low-label:1%、5%、10%、100%。
- 做 cross-region split:不要只随机切 tile,否则空间泄漏会高估泛化。
最小成功标准应该设得很硬:DEO 不只要在完整标签训练下 mIoU/F1 更高,还要在低标注和跨区域设置下掉点更少;band-drop 实验必须显示非 RGB 波段给作物、水体、洪水、植被或裸地带来可解释增益。否则它只是一个更强 RGB teacher 蒸馏模型,而不是多光谱 GeoFM。
可直接用于论文审稿或内部复现实验的 prompt:
你是遥感基础模型复现实验审计器。
给定一个多光谱 GeoFM、官方权重、下游分割/变化检测/分类结果和训练脚本,请判断该模型是否真的利用了多光谱信息,而不是主要继承 RGB VFM 的语义先验。
必须检查:
1. 输入波段是否明确:RGB、NIR、red-edge、SWIR、是否去掉 60m atmospheric bands。
2. 是否同时报告 RGB-only、部分波段、full multispectral 的对照。
3. 是否有 cross-region / cross-season / low-label split,不能只看随机 tile split。
4. decoder、训练轮数、输入尺寸、数据增强和参数量是否与 baselines 公平。
5. 是否区分 optical-only 任务和 multispectral 任务,不能用一个平均分掩盖某类任务退化。
6. 是否检查 teacher bias:DINOv3/RGB teacher 是否导致模型过度依赖纹理、建筑边界或高分辨率 aerial cues。
7. 是否公开代码、权重、数据预处理、band order 和 feature loading 示例。
输出:
- 结论:strong / promising / inconclusive / weak
- 多光谱证据是否充分
- 最大性能来源推断
- 最大复现风险
- 必须补充的 3 个实验今日判断
DEO 值得作为 2026 年遥感基础模型的一条重要线索跟踪。它把“通用 RGB VFM 怎么帮助多光谱 EO”从经验迁移推进到目标函数层面的设计:用兼容 DINO/DINOv3 的 contrastive self-distillation 学多光谱,再用冻结光学 teacher 做 class-token 与 patch-token 蒸馏。论文、CVF 页面、项目页、GitHub 和 Hugging Face 权重都已公开,复现和下游迁移条件比很多 GeoFM 论文更好。
但它也不是遥感 VLM 的终点。DEO 解决的是多光谱 dense features,不直接解决文本 grounding、开放词汇类别、证据解释和对话式遥感解译。下一步更值得做的是把 DEO 当作多光谱视觉侧底座,接 VLM/CLIP 文本空间、区域级 grounding、band contribution audit 和跨区域低标注评估。这样才能判断它是否只是强 backbone,还是能成为多模态遥感 AI 系统里的可解释视觉编码器。
参考来源
- DEO arXiv:https://arxiv.org/abs/2602.19863
- DEO CVF Open Access:https://openaccess.thecvf.com/content/CVPR2026/html/Wolf_Brewing_Stronger_Features_Dual-Teacher_Distillation_for_Multispectral_Earth_Observation_CVPR_2026_paper.html
- DEO 项目页:https://wolfilip.github.io/DEO/
- DEO 官方 GitHub:https://github.com/wolfilip/DEO-FM
- DEO Hugging Face 权重:https://huggingface.co/SolaireTheSun/DEO
评论