多光谱 - Tag - 堂堂一跑堂

DEO：用双教师蒸馏把 DINOv3 的 RGB 语义注入多光谱 GeoFM

Tue, 16 Jun 2026 15:00:04 +0800

DEO：用双教师蒸馏把 DINOv3 的 RGB 语义注入多光谱 GeoFM

结论：这一轮最值得补进雷达的是 CVPR 2026 Highlight 论文 Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation。它提出 DEO，用一个多光谱 EMA teacher 学 Sentinel-2 10 通道表示，再用冻结的光学 VFM teacher（默认 DINOv3）把 RGB 语义和 patch-level 结构蒸馏到同一个学生模型里。论文的关键信号不是“再训练一个遥感 backbone”，而是把通用视觉基础模型和多光谱 EO 基础模型之间的接口说清楚：如果目标是让 RGB 光学语义迁移到多光谱，预训练目标最好和 DINO/DINOv3 这类 contrastive self-distillation 范式对齐，而不是只靠 masked image modeling 做局部重建。

我按 2026-06-16 15:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。DEO 的训练主线是 fMoW-Sentinel / fMoW-RGB 的光学与 Sentinel-2 多光谱数据；论文确实在相关工作和对比方法中提到含雷达路线，但本篇只讨论它对非 SAR 光学/多光谱 GeoFM 的价值。同期本地文章已经覆盖 FusionRS、RATS、Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、CoastlineVLM、Stateful Visual Encoders、LG-SAM、VecLang、TerraBench、OSTB 等方向，因此这里不重复已有条目。

Flexible GeoFM：缺 band 鲁棒性可能比单榜最高分更重要

Fri, 12 Jun 2026 21:00:02 +0800

Flexible GeoFM：缺 band 鲁棒性可能比单榜最高分更重要

结论：这一轮最值得单独跟踪的不是一个新遥感 VLM，而是一篇把 geospatial foundation model 架构放到同一预训练、同一 GeoBench 协议下比较的工作；它提醒我们，真正可落地的遥感基础模型必须能在 band 缺失、传感器切换和任务谱段偏好变化时“优雅退化”。

我按 2026-06-12 21:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 方向。本篇选择 2026-06-10 提交的 Emerging Flexible Designs for Geospatial Multimodal Foundation Models。论文中包含一个 Sentinel-1/Sentinel-2 扩展实验，但本文只讨论其 Sentinel-2 光学多光谱主实验和缺 band 结论，不把 SAR-only 结果作为推荐重点。

这篇的价值在于它不再只问“哪个 GeoFM 在某个下游任务上最高”，而是问一个更工程也更科学的问题：当下游数据只有 RGB+NIR，或者缺少 Red Edge / SWIR，或者从 Sentinel-2 迁移到商业四波段影像时，模型性能如何下降。这个问题直接关系到遥感基础模型能不能从论文 benchmark 进入真实生产管线。

背景

过去两年遥感基础模型的竞争很容易被三个指标带偏：模型参数量、预训练数据规模、单个 benchmark 的平均分。问题是，遥感应用的输入从来不稳定。不同卫星的光谱配置不同，同一地区可能因为云、传感器噪声、产品级别或采购成本导致某些 band 不可用；农业、城市、生态和灾害任务对谱段的依赖也不同。一个模型在完整 Sentinel-2 十波段上表现强，并不代表它在 RGB+NIR 或缺 SWIR 的场景里可靠。

这篇论文把 SatMAE、DOFA 和一个 ClimaX/Flex 风格架构放到同一实验条件下比较。作者统一了预训练目标、预训练数据、模型规模和 GeoBench 下游协议，尽量减少“每篇论文各自调参、各自选数据”的不可比问题。这个设定对后续做 GeoFM 很重要，因为很多所谓 SOTA 其实混杂了架构、数据、训练轮数、下游 head 和评测 split 的差异。

RS-35 Spectral-Text Alignment

Sun, 07 Jun 2026 09:34:00 +0800

RS-35 Spectral-Text Alignment

细问题：高光谱/多光谱与文本语义如何对齐，使文本中的“健康植被、裸土、浑浊水体、屋顶材料、湿润土壤、烧毁区域”等描述能对应到可验证的谱曲线、谱段组合或光谱指数，而不是只依赖 RGB 外观和语言先验。

摘要

Spectral-text alignment 是遥感 VLM 里一个很新的小切口。传统 RS-CLIP/RS-VLM 多把遥感图像当 RGB 或伪 RGB patch，与 caption/class name 做对比学习；但多光谱/高光谱真正有价值的信息在 NIR、red-edge、SWIR 和连续谱曲线里。2025-2026 已经出现三个强信号：

多光谱 CLIP 化：Llama3-MS-CLIP 将 CLIP 输入扩展到 Sentinel-2 多光谱，并在 zero-shot classification / retrieval 中验证多光谱比 RGB-only 更强。
光谱先验文本化：SPEX/SPIE 将 NDVI、NDWI、NDBI 等经典光谱指数转写成 LLM 可读的地物属性，用于 instruction-driven land cover extraction。
谱-时序到语义桥接：TimeSenCLIP 用 Sentinel-2 单像元 12 个月、10 个 band 的时序信号，与地面图像 CLIP 语义做 cross-view contrastive alignment，减少对人工 caption 的依赖。

最值得做的小论文方向是：构建一个 spectral-text retrieval / grounding benchmark，并提出 spectral-index-aware contrastive pretraining。它不追求做一个全能遥感大模型，而是专门回答：一段文本描述的地物属性是否能在谱曲线/多光谱指数上被验证。

RS-34 Missing-Band Reconstruction vs Robust Adaptation

Sun, 07 Jun 2026 09:33:00 +0800

RS-34 Missing-Band Reconstruction vs Robust Adaptation

摘要

遥感模型遇到缺失 band 有两条路线：先重建缺失 band 再做下游任务，或让模型直接对缺失 band 鲁棒。2024-2026 的光谱 foundation model、masked spectral modeling 和扩散式 band repair 让这个问题重新变得有研究价值。核心判断是：如果下游任务需要物理可解释的光谱曲线，重建路线更强；如果目标是分类/分割泛化，鲁棒适配可能更简单、更稳。

问题由来

真实遥感输入经常不完整：传感器原生 band 不同、云和质量控制屏蔽部分波段、不同产品处理级别不一致、商业卫星只提供少数通道。直接补零或丢弃样本会造成信息浪费；但盲目重建 band 也可能生成光谱上好看、下游却有害的伪信号。

代表论文与项目

工作	年份	链接	相关性
SatMAE++	2024	arXiv, GitHub	masked pretraining 的固定/多光谱基线。
DOFA	2024	arXiv, GitHub	动态适配不同观测通道。
SpectralEarth	2025	arXiv, GitHub	大规模 EnMAP 高光谱预训练数据和基准。
HyperFree	2025	CVF	channel-adaptive/tuning-free，适合作为直接鲁棒适配基线。
Multispectral to Hyperspectral using Pretrained FM	2025	arXiv	MSI 到 HSI 重建路线代表。
AnyBand-Diff	2026	arXiv	spectral-prior-guided diffusion band repair。
Any-Optical-Model	2026	AAAI PDF	直接评估 missing bands、cross-sensor、cross-resolution 鲁棒性。
SpectralEarth-FM	2026	arXiv	多模态 EO 预训练中接入 HSI。

两条路线

先重建再推理

优点：输出完整光谱，适合光谱指数、物理反演、材料识别和可解释分析。
缺点：重建误差会传播到下游；生成模型可能产生看似合理但物理不真实的 band。

RS-33 Hyperspectral Foundation Model Transfer

Sun, 07 Jun 2026 09:32:00 +0800

RS-33 Hyperspectral Foundation Model Transfer

1. 核心判断

高光谱 foundation model 的迁移问题，本质上不是“有没有预训练模型”，而是“预训练域、传感器谱段、空间分辨率、标注粒度和下游小样本协议是否一致”。2024-2026 的代表性工作已经从单数据集 HSI 分类，推进到 HyperGlobal-450K、SpectralEarth/EnMAP、HyperSeg、HyperFM250K 这类大规模预训练数据。但下游仍常落回 Indian Pines、Pavia University、Houston 2013、Salinas、WHU-Hi 等小数据集，导致两个矛盾：

大模型有谱-空表示能力，但小数据全量微调很容易记住局部空间纹理和 train/test split。
大规模卫星 HSI 与经典机载 HSI 的光谱响应、空间分辨率和地物类别差异很大，简单 fine-tune 不一定是真的 transfer。

最值得做的小论文切口：建立一个 HSI-FM transfer protocol，用统一 split、统一预算和统一参数量比较 linear probe、adapter、LoRA、prompt/tuning-free、full fine-tuning，并增加 leave-dataset-out / leave-sensor-out / few-shot 曲线和过拟合诊断。

2. 代表论文与资源

论文/项目	年份/venue	链接	代码/数据	和 RS-33 的关系
SpectralGPT: Spectral Remote Sensing Foundation Model	TPAMI 2024	GitHub paper page	GitHub, Zenodo	早期谱域 FM，使用 3D token 和多目标重建，适合做 full fine-tune 与 linear probe 基线。
S2MAE: A Spatial-Spectral Pretraining Foundation Model for Spectral Remote Sensing Data	CVPR 2024	CVF PDF	代码状态需再核验	3D masked transformer + 高 mask ratio，适合研究少样本 HSI 分类迁移。
HSIMAE: A Unified Masked Autoencoder with Large-scale Pretraining for Hyperspectral Image Classification	JSTARS 2024	GitHub	GitHub	官方结果覆盖 Salinas、Pavia University、Houston 2013、WHU-Hi-LongKou，并报告 5/10/15/20 samples per class。
HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model	TPAMI 2025	arXiv	GitHub, HyperGlobal-450K	十亿级 HSI FM，提供 spatial/spectral MAE 权重，覆盖多任务多数据集，是主要迁移基座。
SpectralEarth: Training Hyperspectral Foundation Models at Scale	JSTARS 2025 / arXiv 2024	arXiv	GitHub, DLR dataset	基于 EnMAP 的全球多时相 HSI 预训练集，带 land-cover、crop-type、tree-species 下游数据，适合研究卫星 HSI 到任务数据迁移。
HyperFree: A Channel-adaptive and Tuning-free Foundation Model for HSI	CVPR 2025	CVF	Project, HF	0.4-2.5 μm weight dictionary，强调 tuning-free 与变通道适配，是“少/免微调”强基线。
SpecAware: Spectral-content Aware FM for Multi-sensor HSI Mapping	ISPRS JPRS 2026	ScienceDirect, arXiv	GitHub planned	用 sensor meta-attributes + image semantic features 做统一 embedding，直接对应 cross-sensor transfer。
Cross-Domain Transfer of Hyperspectral Foundation Models	ICPR 2026 / arXiv	arXiv	未见官方代码	明确比较 in-domain training、cross-modality transfer 和 cross-domain transfer；为“遥感 HSI FM 迁移到新域”提供研究框架。
SpectralEarth-FM: Bringing Hyperspectral Imagery into Multimodal EO Pretraining	arXiv 2026	arXiv	待核验	将 EnMAP/EMIT/DESIS 与 Sentinel-2、Landsat 等共址，对跨模态/跨传感器迁移很关键。
HyperFM: Efficient HSI FM with Spectral Grouping	CVPR 2026 Findings / arXiv	arXiv	待核验	面向 PACE-OCI 等长谱段 HSI，突出 spectral grouping 和高效 transfer。
HyperspectralMAE: Fourier-Encoded Dual-Branch MAE	arXiv 2025	arXiv	待核验	在 Hyperion/EnMAP 预训练后迁移到 Indian Pines，适合放入“classic benchmark transfer”比较。

3. 问题由来

3.1 经典 HSI 数据集太小，容易高估迁移能力

Indian Pines、Pavia University、Houston 2013、Salinas 等经典数据集常用于 HSI classification，但它们通常是单场景、单传感器、空间相邻样本强相关。随机抽样时，训练和测试像素可能来自同一地块或相邻区域，模型可以靠局部纹理和空间平滑拿高分。这会掩盖 foundation model 是否真的学到了可迁移谱-空表示。

RS-32 Spectral Configuration Shift

Sun, 07 Jun 2026 09:31:00 +0800

RS-32 Spectral Configuration Shift

摘要

Spectral configuration shift 指训练和测试时的谱段数量、中心波长、带宽、spectral response function、预处理级别或缺失模式不同。它是高光谱/多光谱基础模型落地的硬问题：模型不是只要“能吃很多 band”，而是要知道不同传感器的 band 不是同一个物理观测。2024-2026 的代表路线包括 SpectralGPT、S2MAE、DOFA、HyperSIGMA、HyperFree、Panopticon、SpecAware、LESSViT、Any-Optical-Model 和 SpectralEarth-FM。

问题由来

RGB 模型默认通道固定；遥感中 Sentinel-2、Landsat/HLS、Planet、NAIP、EnMAP、PACE、AVIRIS 等传感器的谱段配置差异很大。高光谱数据还会遇到坏 band、噪声 band、不同大气校正链和空间分辨率差异。若模型只记住通道序号，到了未见传感器或缺 band 输入时就会退化。

代表论文与项目

工作	年份	链接	核心机制
SpectralGPT	2024 TPAMI	arXiv, GitHub	3D token 与多目标重建，强调空间-光谱耦合。
S2MAE	2024 CVPR	CVF PDF	spatial-spectral masked pretraining。
DOFA	2024	arXiv, GitHub	通过 wavelength-conditioned hypernetwork 处理多传感器输入。
HyperSIGMA	2025 TPAMI	Project, GitHub	大规模高光谱 foundation model，覆盖多任务。
HyperFree	2025 CVPR	CVF, Project	channel-adaptive、tuning-free，高光谱变波段输入。
Panopticon	2025 CVPRW	arXiv, GitHub	wavelength encoding、channel subsampling、channel cross-attention。
SpecAware	2025/2026 ISPRS JPRS	arXiv	sensor meta-attributes + image content 条件化。
LESSViT	2026	arXiv	明确针对 spectral configuration shift 的鲁棒 HSI 表征。
Any-Optical-Model	2026 AAAI	AAAI PDF	spectrum-independent tokenizer，测试 missing/cross-sensor/cross-resolution。
SpectralEarth-FM	2026	arXiv	将高光谱带入多模态 EO 预训练。

方法比较

固定通道模型：训练稳定，但无法自然处理未见传感器。
band id / wavelength embedding：简单，但中心波长不足以表示完整 SRF。
hypernetwork tokenizer：由 wavelength 或 sensor metadata 生成输入投影，跨传感器更灵活。
channel cross-attention：将 band 作为 token，让模型学习谱段间关系。
spectral grouping：先按物理连续性或传感器响应分组，降低 HSI token 爆炸。

当前问题

很多 benchmark 的 missing band 是人工 mask，不等价于真实传感器缺测。
cross-sensor 测试常同时混入地理区域、季节和空间分辨率差异，因果不干净。
中心波长被过度使用，完整 SRF、带宽和辐射定标很少进入模型。
HSI 数据集小而碎，预训练数据与下游标签分布差异很大。
缺少统一 leave-sensor-out protocol。

可执行研究方案

题目：SRF-Aware Evaluation for Spectral Configuration Shift

RS-31 Band-Adaptive Tokenizer

Sun, 07 Jun 2026 09:30:00 +0800

RS-31 Band-Adaptive Tokenizer

细问题：当输入可能来自 Sentinel-2、Landsat/HLS、NAIP、Planet 或高光谱 cube 时，如何把不同 band 数量、中心波长、带宽、响应函数和空间分辨率映射到统一 token，使同一个遥感基础模型能跨传感器、缺失 band 和未见谱段泛化。

摘要

Band-adaptive tokenizer 是 2024-2026 遥感 foundation model 里很值得做“小而硬”的方向。它解决的不是“Transformer 怎么更大”，而是更底层的输入表示问题：遥感影像不是自然图像的 RGB 三通道，不同传感器的 band 数、中心波长、带宽、响应函数、GSD 和辐射处理链都不同。如果 patch embedding 固定在某个传感器上，模型在跨传感器、缺失 band、任意波段组合和高光谱输入时就会出现结构性失配。

当前方法大致分成五类：

固定多光谱 tokenizer：如 SatMAE++、Prithvi-EO-2.0，更适合固定 HLS/Sentinel-2/Landsat 配置。
波长条件化动态 embedding：如 DOFA、Clay、Panopticon、Any-Optical-Model，把 band identity 或 wavelength 注入 tokenizer。
高光谱变长通道 tokenizer：如 HyperFree、SpectralEarth、LESSViT、SpecAware，关注几十到数百 band 的高光谱 cube。
物理/光谱指数引导 tokenizer：如 PhySwin、SIGMAE，把辐射约束、NDVI/NDWI/NDBI 或 spectral response 作为先验。
跨传感器融合 tokenizer：如 SpectralEarth-FM，把高光谱、多光谱和其他 EO 观测映射到共享层级编码器。

我认为最有潜力的小论文切口是：SRF-aware band-adaptive tokenizer。现有多数方法只用中心波长或 band id，较少完整使用 spectral response function（SRF）。可以把每个 band 的响应曲线压缩成少量 basis coefficients，再由 hypernetwork 生成通道投影权重，使 tokenizer 同时支持 Sentinel-2/Landsat/HLS/NAIP/Planet/EnMAP，并在 missing-band、leave-sensor-out 和 cross-resolution 设置下评测。