RS-31 Band-Adaptive Tokenizer

WangTong included in category 遥感基础模型与多模态理解 and series 2024-2026 遥感 AI 细分研究方向

2026-06-07 09:30:00 2026-06-07 09:30:00 948 words 5 minutes

Series - 2024-2026 遥感 AI 细分研究方向

RS-31 Band-Adaptive Tokenizer

细问题：当输入可能来自 Sentinel-2、Landsat/HLS、NAIP、Planet 或高光谱 cube 时，如何把不同 band 数量、中心波长、带宽、响应函数和空间分辨率映射到统一 token，使同一个遥感基础模型能跨传感器、缺失 band 和未见谱段泛化。

摘要

Band-adaptive tokenizer 是 2024-2026 遥感 foundation model 里很值得做“小而硬”的方向。它解决的不是“Transformer 怎么更大”，而是更底层的输入表示问题：遥感影像不是自然图像的 RGB 三通道，不同传感器的 band 数、中心波长、带宽、响应函数、GSD 和辐射处理链都不同。如果 patch embedding 固定在某个传感器上，模型在跨传感器、缺失 band、任意波段组合和高光谱输入时就会出现结构性失配。

当前方法大致分成五类：

固定多光谱 tokenizer：如 SatMAE++、Prithvi-EO-2.0，更适合固定 HLS/Sentinel-2/Landsat 配置。
波长条件化动态 embedding：如 DOFA、Clay、Panopticon、Any-Optical-Model，把 band identity 或 wavelength 注入 tokenizer。
高光谱变长通道 tokenizer：如 HyperFree、SpectralEarth、LESSViT、SpecAware，关注几十到数百 band 的高光谱 cube。
物理/光谱指数引导 tokenizer：如 PhySwin、SIGMAE，把辐射约束、NDVI/NDWI/NDBI 或 spectral response 作为先验。
跨传感器融合 tokenizer：如 SpectralEarth-FM，把高光谱、多光谱和其他 EO 观测映射到共享层级编码器。

我认为最有潜力的小论文切口是：SRF-aware band-adaptive tokenizer。现有多数方法只用中心波长或 band id，较少完整使用 spectral response function（SRF）。可以把每个 band 的响应曲线压缩成少量 basis coefficients，再由 hypernetwork 生成通道投影权重，使 tokenizer 同时支持 Sentinel-2/Landsat/HLS/NAIP/Planet/EnMAP，并在 missing-band、leave-sensor-out 和 cross-resolution 设置下评测。

问题由来

自然图像模型默认输入为 RGB，patch embedding 通常是固定的 Conv2d(3, D, kernel_size=P, stride=P)。遥感中这个假设很脆：

Sentinel-2 有 13 个 band，且 10m/20m/60m 空间分辨率混合。
Landsat/HLS 与 Sentinel-2 有相近但不完全一致的 band，中心波长和响应函数不同。
NAIP 常是 RGB/NIR，Planet/商业卫星有自己的 band 定义。
高光谱传感器可能有几十到数百个 band，band 数和 wavelength sampling 因传感器而异。
实际输入可能缺 band、云污染、质量 mask 不一致、不同处理级别 L1/L2 混用。

因此，band-adaptive tokenizer 的核心目标是：让输入层不再绑定固定通道顺序，而是让每个 band 带着自己的物理身份进入模型。

代表论文与项目

方法	年份/来源	Tokenizer/输入适配机制	代码/资源	对 RS-31 的启发
S2MAE	CVPR 2024	3D/cube 风格 spatial-spectral masked pretraining，显式学习空间-光谱局部结构	CVF PDF	强调 spectral-spatial reconstruction，但对任意传感器 tokenization 的支持有限。
SatMAE++	CVPR 2024	多尺度 MAE 预训练，适配 RGB 和多光谱卫星影像	arXiv, GitHub	是强基线，但更像固定/半固定 band 配置下的多尺度 tokenizer。
DOFA	arXiv 2024	Dynamic One-For-All：用动态 hypernetwork 适配多模态/多传感器 EO 输入	arXiv, GitHub, HF	band-adaptive 的关键参考：输入层权重由条件动态生成。
Prithvi-EO-2.0	arXiv 2024 / IBM-NASA	面向 HLS 多时相多光谱的固定传感器配置，强在时序和任务迁移	arXiv, HF	适合作为固定 HLS tokenizer 强基线，检验 band-adaptive 是否值得。
Clay v1.5	2024-2025 open model	dynamic embedding block，可使用 sensor metadata/wavelength/time/latlon	Docs, GitHub	工程上很实用；支持新增传感器时定义 band/wavelength/normalization。
Panopticon	CVPRW EarthVision 2025	扩展 DINOv2：channel subsampling、wavelength/mode encoding、channel cross-attention	arXiv, GitHub, CVF PDF	任意通道组合的直接参考；channel cross-attention 比简单 band embedding 更灵活。
HyperFree	CVPR 2025	覆盖 0.4-2.5 μm 的 learned weight dictionary，动态构建 embedding layer	CVF, arXiv, Project/Code, HF	对变长高光谱输入最直接；“字典覆盖连续谱段”是 SRF-aware 方案的近邻。
PhySwin	NeurIPS 2025	token-efficient spectral embedding + radiometric/physical priors + MixMAE/SwinV2	OpenReview	说明 tokenizer 不能只做结构适配，也应保留物理约束和计算效率。
SpectralEarth	JSTARS/arXiv 2025	基于 EnMAP 的大规模高光谱预训练数据与基准	arXiv, GitHub, Dataset	可作为高光谱 tokenizer 的预训练/评测数据源。
AnySat	CVPR 2025	多分辨率、多尺度、多模态 EO 编码器，强调 scale-adaptive 表示	CVF, GitHub	更偏多尺度/多模态统一；可作为 cross-resolution 对照。
LESSViT	arXiv 2026	channel-agnostic patch embedding + wavelength-aware positional encoding + low-rank spatial-spectral attention	arXiv	明确把 spectral configuration shift 定义成核心问题，适合做评测基线。
SpecAware	ISPRS JPRS 2026	sensor meta-attributes + image semantic content 驱动的 multi-sensor HSI FM	ScienceDirect, arXiv	指向 sensor metadata 和 image content 双条件化，而不只是 wavelength。
SpectralEarth-FM	arXiv 2026	spectral tokenization、sensor-specific encoders、cross-sensor fusion、shared hierarchical encoder	arXiv	适合比较“统一 tokenizer”与“sensor-specific encoder + fusion”的取舍。
Any-Optical-Model	arXiv 2025/2026	spectrum-independent tokenizer，为每个 channel 分配 dedicated band embedding，并处理 missing/cross-sensor/cross-resolution	arXiv	直接对准 RS-31：任意 optical band composition。

方法比较

1. 固定通道 patch embedding

做法：固定传感器、固定 band 顺序、固定输入通道数。

优点：实现简单，预训练稳定，适合 HLS/Sentinel-2 这样的标准数据源。
缺点：遇到 NAIP/Planet/Landsat/EnMAP 或缺 band 就需要重训练、补零、投影或启发式重采样。

适合基线：Prithvi-EO-2.0、SatMAE++。

2. Band embedding / wavelength embedding

做法：每个 channel 对应一个 band id 或中心波长 embedding，与 patch token 相加或拼接。

优点：工程成本低，能处理不同 band 组合。
缺点：中心波长不能完整表示带宽和 SRF；同名 band 在不同传感器上的响应曲线仍不同。

适合基线：Any-Optical-Model、LESSViT 的 wavelength-aware positional encoding。

3. Hypernetwork 动态生成输入权重

做法：把 wavelength/band metadata 输入 hypernetwork，生成 patch embedding 的通道投影权重。

优点：可以连续插值到未见波段；比查表式 band embedding 更灵活。
缺点：如果条件只有中心波长，仍可能忽略响应曲线、辐射定标和 band 宽度。

适合基线：DOFA、Clay dynamic embedding、HyperFree learned weight dictionary。

4. Channel cross-attention / channel tokenizer

做法：先对每个 band 或 band group 建 token，再用 channel-wise attention 融合。

优点：支持任意通道集合，也能显式建模 band 间关系。
缺点：高光谱时通道 token 数大，注意力成本和内存压力明显；需要通道采样或低秩近似。

适合基线：Panopticon、LESSViT、SpectralEarth-FM。

5. SRF-aware tokenizer

做法：用完整 spectral response function 作为 band 条件，而不是只用中心波长。可将 SRF 曲线投影到 Fourier/RBF/PCA basis，生成 band descriptor，再由 hypernetwork 产生通道投影。

优点：物理意义更强，能区分“中心波长相近但响应曲线不同”的传感器。
缺点：公开数据集常缺完整 SRF；需要处理 SRF 元数据质量和传感器版本差异。

这是本文建议的未来研究主线。

当前问题

中心波长近似太粗：很多方法只编码中心波长，忽略带宽、响应曲线形状和传感器辐射处理链。
缺 band 测试不真实：随机 dropout 一个 band 不等价于真实传感器没有该 band，也不等价于云/质量 mask 导致的局部缺失。
跨传感器评测混杂因素多：传感器变化常与地区、季节、GSD、标签体系一起变化，很难判断 tokenizer 是否真的解决了 spectral shift。
高光谱 token 成本高：对 100-300 个 band 做 full spatial-spectral attention 成本很大，必须做 channel grouping、low-rank attention 或 band sampling。
GSD 与 band 适配耦合：Sentinel-2 不同 band 自身分辨率不同，跨传感器时 spectral shift 和 spatial-resolution shift 同时发生。
物理一致性指标不足：下游 mIoU/F1 不能说明模型是否保留了 NDVI/NDWI、spectral angle、辐射一致性等物理信息。

未来研究方向：SRF-Aware Band-Adaptive Tokenizer

核心假设

如果 tokenizer 使用完整 SRF 描述每个 band，而不仅是 band id 或中心波长，那么模型在 missing-band、leave-sensor-out 和 cross-sensor fusion 中会更稳定，尤其是在 Sentinel-2/Landsat/HLS/EnMAP 等光谱响应相近但不完全一致的数据之间。

方法草图

输入：

影像张量：X in R^{C x H x W}
每个 band 的元信息：中心波长、带宽、SRF 曲线、GSD、质量 mask、可选的传感器 id

模块：

SRF encoder：把每个 band 的 SRF 曲线投影为 b_i，可用 RBF/Fourier basis、PCA basis 或小 MLP。
Band hypernetwork：用 b_i + gsd_i + sensor_embed 生成该 band 的 patch projection 权重或 gating 向量。
Channel grouping：高光谱输入按连续波段或学习到的聚类分组，避免通道注意力爆炸。
Spectral-spatial mixer：先在 band/group 维度做轻量 cross-attention，再进入 ViT/Swin/Mamba 主干。
Physics-preserving losses：MAE reconstruction 外，加入 NDVI/NDWI、spectral angle mapper、band-order consistency 或 SRF-convolved reconstruction。

训练目标

Channel-wise masked reconstruction：随机 mask band/group，并重建观测 band。
Sensor translation：用同区域同时间的 HLS/Sentinel-2/Landsat/EnMAP 对齐样本，预测被另一传感器 SRF 卷积后的观测。
Downstream supervised heads：土地覆盖、作物分类、建筑/道路分割、变化检测。
Consistency loss：同一区域不同传感器 embedding 应接近，但保留传感器特有 uncertainty。

实验矩阵

实验	数据	Baseline	指标	目的
固定传感器 in-domain	Sentinel-2/HLS	Prithvi-EO-2.0, SatMAE++, Clay	mIoU/F1/accuracy	确保新 tokenizer 不牺牲标准配置性能。
Missing-band	Sentinel-2 13 bands, HLS	fixed embedding, band dropout, AOM-like band embedding	mIoU/F1 + missing-band degradation	测试随机缺失和真实 band 子集下的鲁棒性。
Leave-sensor-out	train Sentinel-2/HLS, test Landsat/NAIP/Planet	DOFA, Clay, Panopticon, AOM	zero-shot/linear probe performance	评估跨传感器泛化。
MSI-to-HSI alignment	Sentinel-2/EnMAP 或 HLS/EMIT pairing	HyperFree, SpectralEarth, LESSViT	SAM spectral angle, RMSE, downstream F1	评估 SRF-aware 表示能否桥接多光谱和高光谱。
Cross-resolution	10m/20m/30m/sub-meter	AnySat, AOM, PhySwin	accuracy vs GSD shift	分离 band shift 与 GSD shift。
低样本适配	LoveDA/DeepGlobe/EuroSAT/BigEarthNet/EnMAP subsets	full fine-tune, LoRA, adapter, linear probe	n-shot curve	看 tokenizer 是否减少下游标注需求。

最小可复现实验

第一阶段不建议一上来预训练超大模型。更稳的最小实验是：

选一个小主干：ViT-S/Swin-T 或轻量 Mamba encoder。
实现三种 tokenizer：
- Fixed Conv tokenizer
- Center-wavelength band embedding tokenizer
- SRF-aware hypernetwork tokenizer
在 Sentinel-2/HLS 上做 masked reconstruction 预训练。
在 Landsat/NAIP/EnMAP 子集上做 leave-sensor-out linear probe。
对比 missing-band degradation curve：缺 1/3/5 个 band、只保留 RGB、只保留 NIR/SWIR、真实传感器 band 子集。

下一步执行清单

建立 data/sensor_specs/：收集 Sentinel-2 MSI、Landsat OLI、HLS、NAIP、PlanetScope、EnMAP/EMIT 的 band 表、中心波长、带宽、SRF 下载链接和引用来源。
写一个 SensorBandSpec 数据结构：字段至少包含 sensor_name、band_name、center_nm、fwhm_nm、gsd_m、srf_curve、normalization。
先实现三种 tokenizer baseline：fixed Conv、center-wavelength embedding、SRF-aware hypernetwork。
用同一主干和同一训练 budget 做 ablation，避免把 tokenizer 收益和主干规模混在一起。
先做 linear probe + missing-band curve，再做 full fine-tuning；如果 linear probe 没有稳定收益，不建议扩大预训练。
记录每个实验的传感器、band 子集、GSD、地区、季节和 split，防止 cross-sensor 结果被地理偏差污染。

可能的论文题目

SRF-Tokenizer: Spectral Response Function Aware Tokenization for Cross-Sensor Remote Sensing Foundation Models

预期贡献：

提出用完整 SRF 而非中心波长的 band-adaptive tokenizer。
构建 missing-band 与 leave-sensor-out 的标准实验协议。
证明 SRF-aware tokenizer 在跨 Sentinel-2/Landsat/HLS/EnMAP 时降低性能退化。
给出物理一致性指标，说明模型不只是下游精度高，也保留光谱结构。

风险与规避

SRF 元数据难收集：先从 Sentinel-2、Landsat、HLS、EnMAP/EMIT 这些公开传感器做起。
数据配对不干净：把“严格同地同时间配对”和“弱配对”分开报告。
新 tokenizer 增益可能小：必须设置 strong baselines，尤其是 Clay/DOFA/Panopticon/HyperFree。
计算成本高：先做小模型和 linear probe，再扩展到大规模预训练。
审稿人可能认为只是 engineering：把贡献放在 SRF-aware 表示、真实 missing-band benchmark 和物理一致性评估上。

Contents

RS-31 Band-Adaptive Tokenizer

RS-31 Band-Adaptive Tokenizer

摘要

问题由来

代表论文与项目

方法比较

1. 固定通道 patch embedding

2. Band embedding / wavelength embedding

3. Hypernetwork 动态生成输入权重

4. Channel cross-attention / channel tokenizer

5. SRF-aware tokenizer

当前问题

未来研究方向：SRF-Aware Band-Adaptive Tokenizer

核心假设

方法草图

训练目标

实验矩阵

推荐数据与任务

最小可复现实验

下一步执行清单

可能的论文题目

风险与规避

阅读队列

Related Content

评论

RS-31 Band-Adaptive Tokenizer

RS-31 Band-Adaptive Tokenizer

摘要

问题由来

代表论文与项目

方法比较

1. 固定通道 patch embedding

2. Band embedding / wavelength embedding

3. Hypernetwork 动态生成输入权重

4. Channel cross-attention / channel tokenizer

5. SRF-aware tokenizer

当前问题

未来研究方向：SRF-Aware Band-Adaptive Tokenizer

核心假设

方法草图

训练目标

实验矩阵

推荐数据与任务

最小可复现实验

下一步执行清单

可能的论文题目

风险与规避

阅读队列

Related Content

DEO：用双教师蒸馏把 DINOv3 的 RGB 语义注入多光谱 GeoFM

Mag1c-SAS + LinkNet：星上甲烷检测先别急着上大模型

Flexible GeoFM：缺 band 鲁棒性可能比单榜最高分更重要

RS-35 Spectral-Text Alignment

RS-34 Missing-Band Reconstruction vs Robust Adaptation

评论