RS-31 Band-Adaptive Tokenizer

Series - 2024-2026 遥感 AI 细分研究方向

RS-31 Band-Adaptive Tokenizer

细问题:当输入可能来自 Sentinel-2、Landsat/HLS、NAIP、Planet 或高光谱 cube 时,如何把不同 band 数量、中心波长、带宽、响应函数和空间分辨率映射到统一 token,使同一个遥感基础模型能跨传感器、缺失 band 和未见谱段泛化。

Band-adaptive tokenizer 是 2024-2026 遥感 foundation model 里很值得做“小而硬”的方向。它解决的不是“Transformer 怎么更大”,而是更底层的输入表示问题:遥感影像不是自然图像的 RGB 三通道,不同传感器的 band 数、中心波长、带宽、响应函数、GSD 和辐射处理链都不同。如果 patch embedding 固定在某个传感器上,模型在跨传感器、缺失 band、任意波段组合和高光谱输入时就会出现结构性失配。

当前方法大致分成五类:

  1. 固定多光谱 tokenizer:如 SatMAE++、Prithvi-EO-2.0,更适合固定 HLS/Sentinel-2/Landsat 配置。
  2. 波长条件化动态 embedding:如 DOFA、Clay、Panopticon、Any-Optical-Model,把 band identity 或 wavelength 注入 tokenizer。
  3. 高光谱变长通道 tokenizer:如 HyperFree、SpectralEarth、LESSViT、SpecAware,关注几十到数百 band 的高光谱 cube。
  4. 物理/光谱指数引导 tokenizer:如 PhySwin、SIGMAE,把辐射约束、NDVI/NDWI/NDBI 或 spectral response 作为先验。
  5. 跨传感器融合 tokenizer:如 SpectralEarth-FM,把高光谱、多光谱和其他 EO 观测映射到共享层级编码器。

我认为最有潜力的小论文切口是:SRF-aware band-adaptive tokenizer。现有多数方法只用中心波长或 band id,较少完整使用 spectral response function(SRF)。可以把每个 band 的响应曲线压缩成少量 basis coefficients,再由 hypernetwork 生成通道投影权重,使 tokenizer 同时支持 Sentinel-2/Landsat/HLS/NAIP/Planet/EnMAP,并在 missing-band、leave-sensor-out 和 cross-resolution 设置下评测。

自然图像模型默认输入为 RGB,patch embedding 通常是固定的 Conv2d(3, D, kernel_size=P, stride=P)。遥感中这个假设很脆:

  • Sentinel-2 有 13 个 band,且 10m/20m/60m 空间分辨率混合。
  • Landsat/HLS 与 Sentinel-2 有相近但不完全一致的 band,中心波长和响应函数不同。
  • NAIP 常是 RGB/NIR,Planet/商业卫星有自己的 band 定义。
  • 高光谱传感器可能有几十到数百个 band,band 数和 wavelength sampling 因传感器而异。
  • 实际输入可能缺 band、云污染、质量 mask 不一致、不同处理级别 L1/L2 混用。

因此,band-adaptive tokenizer 的核心目标是:让输入层不再绑定固定通道顺序,而是让每个 band 带着自己的物理身份进入模型。

方法年份/来源Tokenizer/输入适配机制代码/资源对 RS-31 的启发
S2MAECVPR 20243D/cube 风格 spatial-spectral masked pretraining,显式学习空间-光谱局部结构CVF PDF强调 spectral-spatial reconstruction,但对任意传感器 tokenization 的支持有限。
SatMAE++CVPR 2024多尺度 MAE 预训练,适配 RGB 和多光谱卫星影像arXiv, GitHub是强基线,但更像固定/半固定 band 配置下的多尺度 tokenizer。
DOFAarXiv 2024Dynamic One-For-All:用动态 hypernetwork 适配多模态/多传感器 EO 输入arXiv, GitHub, HFband-adaptive 的关键参考:输入层权重由条件动态生成。
Prithvi-EO-2.0arXiv 2024 / IBM-NASA面向 HLS 多时相多光谱的固定传感器配置,强在时序和任务迁移arXiv, HF适合作为固定 HLS tokenizer 强基线,检验 band-adaptive 是否值得。
Clay v1.52024-2025 open modeldynamic embedding block,可使用 sensor metadata/wavelength/time/latlonDocs, GitHub工程上很实用;支持新增传感器时定义 band/wavelength/normalization。
PanopticonCVPRW EarthVision 2025扩展 DINOv2:channel subsampling、wavelength/mode encoding、channel cross-attentionarXiv, GitHub, CVF PDF任意通道组合的直接参考;channel cross-attention 比简单 band embedding 更灵活。
HyperFreeCVPR 2025覆盖 0.4-2.5 μm 的 learned weight dictionary,动态构建 embedding layerCVF, arXiv, Project/Code, HF对变长高光谱输入最直接;“字典覆盖连续谱段”是 SRF-aware 方案的近邻。
PhySwinNeurIPS 2025token-efficient spectral embedding + radiometric/physical priors + MixMAE/SwinV2OpenReview说明 tokenizer 不能只做结构适配,也应保留物理约束和计算效率。
SpectralEarthJSTARS/arXiv 2025基于 EnMAP 的大规模高光谱预训练数据与基准arXiv, GitHub, Dataset可作为高光谱 tokenizer 的预训练/评测数据源。
AnySatCVPR 2025多分辨率、多尺度、多模态 EO 编码器,强调 scale-adaptive 表示CVF, GitHub更偏多尺度/多模态统一;可作为 cross-resolution 对照。
LESSViTarXiv 2026channel-agnostic patch embedding + wavelength-aware positional encoding + low-rank spatial-spectral attentionarXiv明确把 spectral configuration shift 定义成核心问题,适合做评测基线。
SpecAwareISPRS JPRS 2026sensor meta-attributes + image semantic content 驱动的 multi-sensor HSI FMScienceDirect, arXiv指向 sensor metadata 和 image content 双条件化,而不只是 wavelength。
SpectralEarth-FMarXiv 2026spectral tokenization、sensor-specific encoders、cross-sensor fusion、shared hierarchical encoderarXiv适合比较“统一 tokenizer”与“sensor-specific encoder + fusion”的取舍。
Any-Optical-ModelarXiv 2025/2026spectrum-independent tokenizer,为每个 channel 分配 dedicated band embedding,并处理 missing/cross-sensor/cross-resolutionarXiv直接对准 RS-31:任意 optical band composition。

做法:固定传感器、固定 band 顺序、固定输入通道数。

优点:实现简单,预训练稳定,适合 HLS/Sentinel-2 这样的标准数据源。
缺点:遇到 NAIP/Planet/Landsat/EnMAP 或缺 band 就需要重训练、补零、投影或启发式重采样。

适合基线:Prithvi-EO-2.0、SatMAE++。

做法:每个 channel 对应一个 band id 或中心波长 embedding,与 patch token 相加或拼接。

优点:工程成本低,能处理不同 band 组合。
缺点:中心波长不能完整表示带宽和 SRF;同名 band 在不同传感器上的响应曲线仍不同。

适合基线:Any-Optical-Model、LESSViT 的 wavelength-aware positional encoding。

做法:把 wavelength/band metadata 输入 hypernetwork,生成 patch embedding 的通道投影权重。

优点:可以连续插值到未见波段;比查表式 band embedding 更灵活。
缺点:如果条件只有中心波长,仍可能忽略响应曲线、辐射定标和 band 宽度。

适合基线:DOFA、Clay dynamic embedding、HyperFree learned weight dictionary。

做法:先对每个 band 或 band group 建 token,再用 channel-wise attention 融合。

优点:支持任意通道集合,也能显式建模 band 间关系。
缺点:高光谱时通道 token 数大,注意力成本和内存压力明显;需要通道采样或低秩近似。

适合基线:Panopticon、LESSViT、SpectralEarth-FM。

做法:用完整 spectral response function 作为 band 条件,而不是只用中心波长。可将 SRF 曲线投影到 Fourier/RBF/PCA basis,生成 band descriptor,再由 hypernetwork 产生通道投影。

优点:物理意义更强,能区分“中心波长相近但响应曲线不同”的传感器。
缺点:公开数据集常缺完整 SRF;需要处理 SRF 元数据质量和传感器版本差异。

这是本文建议的未来研究主线。

  1. 中心波长近似太粗:很多方法只编码中心波长,忽略带宽、响应曲线形状和传感器辐射处理链。
  2. 缺 band 测试不真实:随机 dropout 一个 band 不等价于真实传感器没有该 band,也不等价于云/质量 mask 导致的局部缺失。
  3. 跨传感器评测混杂因素多:传感器变化常与地区、季节、GSD、标签体系一起变化,很难判断 tokenizer 是否真的解决了 spectral shift。
  4. 高光谱 token 成本高:对 100-300 个 band 做 full spatial-spectral attention 成本很大,必须做 channel grouping、low-rank attention 或 band sampling。
  5. GSD 与 band 适配耦合:Sentinel-2 不同 band 自身分辨率不同,跨传感器时 spectral shift 和 spatial-resolution shift 同时发生。
  6. 物理一致性指标不足:下游 mIoU/F1 不能说明模型是否保留了 NDVI/NDWI、spectral angle、辐射一致性等物理信息。

如果 tokenizer 使用完整 SRF 描述每个 band,而不仅是 band id 或中心波长,那么模型在 missing-band、leave-sensor-out 和 cross-sensor fusion 中会更稳定,尤其是在 Sentinel-2/Landsat/HLS/EnMAP 等光谱响应相近但不完全一致的数据之间。

输入:

  • 影像张量:X in R^{C x H x W}
  • 每个 band 的元信息:中心波长、带宽、SRF 曲线、GSD、质量 mask、可选的传感器 id

模块:

  1. SRF encoder:把每个 band 的 SRF 曲线投影为 b_i,可用 RBF/Fourier basis、PCA basis 或小 MLP。
  2. Band hypernetwork:用 b_i + gsd_i + sensor_embed 生成该 band 的 patch projection 权重或 gating 向量。
  3. Channel grouping:高光谱输入按连续波段或学习到的聚类分组,避免通道注意力爆炸。
  4. Spectral-spatial mixer:先在 band/group 维度做轻量 cross-attention,再进入 ViT/Swin/Mamba 主干。
  5. Physics-preserving losses:MAE reconstruction 外,加入 NDVI/NDWI、spectral angle mapper、band-order consistency 或 SRF-convolved reconstruction。
  • Channel-wise masked reconstruction:随机 mask band/group,并重建观测 band。
  • Sensor translation:用同区域同时间的 HLS/Sentinel-2/Landsat/EnMAP 对齐样本,预测被另一传感器 SRF 卷积后的观测。
  • Downstream supervised heads:土地覆盖、作物分类、建筑/道路分割、变化检测。
  • Consistency loss:同一区域不同传感器 embedding 应接近,但保留传感器特有 uncertainty。
实验数据Baseline指标目的
固定传感器 in-domainSentinel-2/HLSPrithvi-EO-2.0, SatMAE++, ClaymIoU/F1/accuracy确保新 tokenizer 不牺牲标准配置性能。
Missing-bandSentinel-2 13 bands, HLSfixed embedding, band dropout, AOM-like band embeddingmIoU/F1 + missing-band degradation测试随机缺失和真实 band 子集下的鲁棒性。
Leave-sensor-outtrain Sentinel-2/HLS, test Landsat/NAIP/PlanetDOFA, Clay, Panopticon, AOMzero-shot/linear probe performance评估跨传感器泛化。
MSI-to-HSI alignmentSentinel-2/EnMAP 或 HLS/EMIT pairingHyperFree, SpectralEarth, LESSViTSAM spectral angle, RMSE, downstream F1评估 SRF-aware 表示能否桥接多光谱和高光谱。
Cross-resolution10m/20m/30m/sub-meterAnySat, AOM, PhySwinaccuracy vs GSD shift分离 band shift 与 GSD shift。
低样本适配LoveDA/DeepGlobe/EuroSAT/BigEarthNet/EnMAP subsetsfull fine-tune, LoRA, adapter, linear proben-shot curve看 tokenizer 是否减少下游标注需求。
  • 多光谱:Sentinel-2、HLS、Landsat、BigEarthNet、EuroSAT、fMoW-Sentinel、LoveDA、DeepGlobe。
  • 高光谱:SpectralEarth/EnMAP、Pavia、Houston、Indian Pines、EMIT/EnMAP 配对数据。
  • 航空/VHR:NAIP,必要时只用于 RGB/NIR 跨传感器测试。
  • 任务:scene classification、land-cover segmentation、crop mapping、change detection、MSI-to-HSI reconstruction。

第一阶段不建议一上来预训练超大模型。更稳的最小实验是:

  1. 选一个小主干:ViT-S/Swin-T 或轻量 Mamba encoder。
  2. 实现三种 tokenizer:
    • Fixed Conv tokenizer
    • Center-wavelength band embedding tokenizer
    • SRF-aware hypernetwork tokenizer
  3. 在 Sentinel-2/HLS 上做 masked reconstruction 预训练。
  4. 在 Landsat/NAIP/EnMAP 子集上做 leave-sensor-out linear probe。
  5. 对比 missing-band degradation curve:缺 1/3/5 个 band、只保留 RGB、只保留 NIR/SWIR、真实传感器 band 子集。
  1. 建立 data/sensor_specs/:收集 Sentinel-2 MSI、Landsat OLI、HLS、NAIP、PlanetScope、EnMAP/EMIT 的 band 表、中心波长、带宽、SRF 下载链接和引用来源。
  2. 写一个 SensorBandSpec 数据结构:字段至少包含 sensor_nameband_namecenter_nmfwhm_nmgsd_msrf_curvenormalization
  3. 先实现三种 tokenizer baseline:fixed Conv、center-wavelength embedding、SRF-aware hypernetwork。
  4. 用同一主干和同一训练 budget 做 ablation,避免把 tokenizer 收益和主干规模混在一起。
  5. 先做 linear probe + missing-band curve,再做 full fine-tuning;如果 linear probe 没有稳定收益,不建议扩大预训练。
  6. 记录每个实验的传感器、band 子集、GSD、地区、季节和 split,防止 cross-sensor 结果被地理偏差污染。

SRF-Tokenizer: Spectral Response Function Aware Tokenization for Cross-Sensor Remote Sensing Foundation Models

预期贡献:

  1. 提出用完整 SRF 而非中心波长的 band-adaptive tokenizer。
  2. 构建 missing-band 与 leave-sensor-out 的标准实验协议。
  3. 证明 SRF-aware tokenizer 在跨 Sentinel-2/Landsat/HLS/EnMAP 时降低性能退化。
  4. 给出物理一致性指标,说明模型不只是下游精度高,也保留光谱结构。
  • SRF 元数据难收集:先从 Sentinel-2、Landsat、HLS、EnMAP/EMIT 这些公开传感器做起。
  • 数据配对不干净:把“严格同地同时间配对”和“弱配对”分开报告。
  • 新 tokenizer 增益可能小:必须设置 strong baselines,尤其是 Clay/DOFA/Panopticon/HyperFree。
  • 计算成本高:先做小模型和 linear probe,再扩展到大规模预训练。
  • 审稿人可能认为只是 engineering:把贡献放在 SRF-aware 表示、真实 missing-band benchmark 和物理一致性评估上。
  1. DOFA: Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation
  2. SatMAE++: Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery
  3. S2MAE: A Spatial-Spectral Pretraining Foundation Model
  4. Clay Foundation Model documentation
  5. Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation
  6. HyperFree: A Channel-adaptive and Tuning-free Foundation Model for HSI
  7. PhySwin: An Efficient and Physically-Informed Foundation Model for Multispectral EO
  8. SpectralEarth: Training Hyperspectral Foundation Models at Scale
  9. LESSViT: Robust Hyperspectral Representation Learning under Spectral Configuration Shift
  10. SpecAware: A Spectral-Content Aware Foundation Model
  11. SpectralEarth-FM
  12. Any-Optical-Model

Related Content

评论