RS-20 Temporal Foundation Model for Cloud/Season Robustness
RS-20 Temporal Foundation Model for Cloud/Season Robustness
细问题:多时相 foundation model 如何对云、缺测和季节变化鲁棒?能否设计一个 masked temporal reconstruction + downstream change/crop mapping 的小论文方案?
1. 方向概述
光学/多光谱遥感时序的关键困难不是“没有时间维度”,而是时间维度经常不干净:云、云影、雪、薄雾、传感器缺测、不同重访周期、物候周期和真实地物变化混在一起。传统做法常用云掩膜、最佳像元合成、插值、时序平滑或单任务云去除,但 foundation model 时代的机会是:把“缺测、遮挡、季节变化”变成预训练任务本身,让模型学会在不完整、多季节、多区域、多传感器序列中形成稳定表示。
本方向可被压成一个很具体的论文问题:
在 Sentinel-2 / HLS 多时相序列中,用真实或模拟云缺测做 masked temporal reconstruction 预训练,是否能同时提升云遮挡条件下的 crop mapping 和真实变化检测,并减少把季节变化误判为变化的错误?
2. 问题由来
遥感时序和普通视频不同。视频帧通常时间间隔密集、同一相机、视角连续;卫星时序是稀疏、不规则、多传感器、多大气条件,而且同一像元的语义可能因物候周期而显著变化。对于 crop mapping,模型必须理解不同作物的物候曲线,而不是只看单期纹理。对于 change detection,模型必须区分真实建设/灾害/砍伐变化与季节性植被变化、云影、观测角和配准误差。
因此,单期 MAE 或普通图像 encoder 不够;只做云去除也不够。更有价值的是把 temporal masking、cloud-aware reconstruction、seasonal contrastive learning 和 downstream robustness 放在同一个评测框架里。
3. 代表论文与项目
| 论文/项目 | 年份/venue | 链接 | 代码/模型/数据 | 与本问题的关系 |
|---|---|---|---|---|
| Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications | 2024 arXiv / NASA-IBM | arXiv, NASA NTRS PDF | GitHub, HF 300M | HLS 多时相 MAE,使用 3D spatiotemporal patch embedding、time/geolocation encoding;是本课题最直接基线。 |
| SkySense: A Multi-Modal Remote Sensing Foundation Model | 2024 CVPR | CVF, arXiv | GitHub | 使用大规模时序遥感数据和 factorized spatiotemporal encoder;说明 temporal sequence 已是 RSFM 核心能力。 |
| SkySense++: A semantic-enhanced multi-modal RSFM for EO | 2025 Nature Machine Intelligence | Nature | GitHub | 加入语义增强多模态建模,可作为“时序表示 + 语义任务”参照。 |
| Galileo: Learning Global and Local Features in Pretrained Remote Sensing Models | 2025 arXiv / OpenReview | arXiv, OpenReview PDF | GitHub, HF | 设计为灵活处理不同空间和时间形状的多模态 RS 输入;适合做可变长度/不规则时序基线。 |
| TerraMind: Large-Scale Generative Multimodality for Earth Observation | 2025 ICCV/arXiv | arXiv, CVF PDF | GitHub, HF | 任意模态生成和 Thinking-in-Modalities 可转化为“缺测时生成辅助模态/时间片”的鲁棒方案。 |
| ChronoEarth-492K | 2026 arXiv | arXiv | 待确认官方代码/数据 | 长时间跨度 hyperspectral 时序 benchmark,强调 temporal calibration,可启发长期时序评测。 |
| UniTS: Unified Time Series Generative Model for Remote Sensing | 2025 arXiv | arXiv | 待确认官方代码 | 统一时序重建、云去除、语义变化检测、预测;与本课题的生成式预训练目标很接近。 |
| SatSwinMAE: Efficient Autoencoding for Multiscale Time-series Satellite Imagery | 2024 arXiv | arXiv | 待确认官方代码 | 3D masked autoencoder + Video Swin,直接支持多尺度时序影像自编码。 |
| SatMAE | 2022 NeurIPS, 仍是时间/多光谱 MAE 基线 | Project, PDF | 项目页 | 虽早于目标窗口,但 temporal/multispectral MAE 设计仍是所有 2024-2026 方法的重要参照。 |
| Reconstruction of seamless HLS time series via self-supervised learning | 2024 RSE | ScienceDirect | 论文页 | HLS 时序无缝重建与 gap filling 是 masked temporal reconstruction 的应用前身。 |
| AnytimeFormer | 2025 RSE | ScienceDirect | 论文页 | 目标是任意时间 reflectance reconstruction;含 SAR-optical 融合,本文只借鉴异步时序重建思想,不把 SAR 作为主线。 |
| RESTORE-DiT | 2025 RSE | ScienceDirect | 论文页 | 时序重建/云去除的 diffusion transformer 代表;同样含 SAR-optical,作为生成式重建参照。 |
| AgriFM: A Multi-source Temporal RSFM for Crop Mapping | 2025 arXiv | arXiv, HF paper | GitHub planned | 面向 crop mapping 的多源长时序 foundation model,适合作为下游农业任务对比。 |
| Spatiotemporal masked pre-training for crop mapping with limited labels | 2025 ISPRS JPRS | ScienceDirect | 论文页 | 明确验证 spatiotemporal masking 对低标签 crop mapping 的价值。 |
| SITS-MoCo: Self-supervised pre-training for large-scale crop mapping | 2024/2023 ISPRS JPRS | ScienceDirect | GitHub | 对 temporal shift、spectral noise、irregular length 做鲁棒表示学习,是 contrastive baseline。 |
4. 方法脉络
4.1 多时相 MAE 路线
代表:Prithvi-EO-2.0、SatSwinMAE、SatMAE。
核心思想是 mask 掉空间、谱段或时间 patch,让模型重建缺失观测。优点是简单、可扩展,能自然模拟云遮挡和缺测。问题是像素重建质量不一定等价于下游语义鲁棒性,尤其容易学到“平滑插值”而不是物候语义。
4.2 多模态/任意模态生成路线
代表:TerraMind、UniTS、RESTORE-DiT、AnytimeFormer。
核心是用其他时间片、其他模态或辅助产品生成缺失时间/模态。对云去除很有吸引力,但如果引入 SAR,论文主线会变成 SAR-optical fusion;本任务建议把 SAR 设为可选辅助,不作为核心贡献。
4.3 时序对比/不变性路线
代表:SITS-MoCo、crop mapping temporal SSL。
目标不是重建像素,而是让同一地块在轻微云噪声、时间错位、观测缺失下表示稳定。优点是更贴近分类/制图,缺点是难以处理真实变化,因为模型可能把有意义变化也压成不变。
4.4 任务驱动长时序路线
代表:AgriFM、crop mapping ViT、ChronoEarth benchmark。
强调物候、长期趋势和作物/生态下游任务。优点是应用价值强;风险是模型可能过度贴合农业标签,泛化到灾害变化或城市变化时不稳。
5. 当前未解决的问题
- 云 mask 不等于真实缺测。很多实验用随机 mask 或矩形 mask,和云的空间形态、薄云、云影、雪混淆不一致。
- 重建指标与下游指标脱节。PSNR/SSIM/MAE 好,不代表 crop F1 或 change F1 好。
- 季节变化和真实变化容易混淆。模型需要知道“同一作物春夏秋变化是正常的”,但建筑新增、火烧、水体扩张是真变化。
- 不规则时间间隔处理不足。Sentinel-2/HLS 在不同地区、云量和纬度下有效观测间隔差异大。
- 跨区域物候偏移明显。同一作物在不同气候带的生长期不同,固定 positional/month embedding 可能引入区域偏差。
- 公开 benchmark 缺少“云遮挡鲁棒性曲线”。多数论文只在干净 split 或固定云量下报告单点分数。
- 多模态生成容易引入伪细节。生成出来的云下像元如果只为了好看,可能污染变化检测和物候判断。
6. 推荐小论文方案
题目草案
Cloud- and Season-Robust Temporal Foundation Models via Masked Phenological Reconstruction
核心假设
如果预训练时使用真实云形态/云影形态的 temporal masking,并同时约束像素重建、物候曲线一致性和语义下游稳定性,那么模型在云遮挡和季节偏移条件下的 crop mapping 与 change detection 会比普通 MAE、随机 temporal masking 和单期 GeoFM 更稳。
方法模块
Cloud-aware temporal masking
使用 Sentinel-2 SCL、s2cloudless、Fmask/HLS QA 或真实云 mask 构造遮挡;额外加入薄云、云影、局部缺测和整期缺测。mask 策略包括 random patch、cloud-shaped patch、full-date dropout、phenology-critical-date dropout。Masked temporal reconstruction
backbone 可从 Prithvi-EO-2.0、Galileo 或轻量 Temporal ViT 开始。输入为T x C x H x W,输出被遮挡时间片/波段的 reflectance 或 latent token。推荐比较 pixel reconstruction、latent reconstruction 和 index reconstruction(NDVI/NDWI/NBR)。Phenology consistency loss
对植被相关区域,约束重建后的 NDVI/EVI/NBR 曲线形状与可见观测一致;避免只优化 RGB/reflectance 平滑。Seasonal contrastive regularization
同一地块在相邻季节或同物候阶段为正样本,不同作物/不同变化状态为负样本。注意不能把真实变化样本错误拉近。Downstream robustness head
在 crop mapping 和 change detection 上微调,训练时保留 cloud dropout;评测时报告随云量、缺测期数、季节偏移变化的性能曲线。
数据集建议
| 用途 | 数据 | 说明 |
|---|---|---|
| 预训练 | HLS / Sentinel-2 L2A 全球多时相 patch | 优先选含 QA/cloud mask 的区域;可从 Prithvi-EO-2.0/HLS 工作流复用思路。 |
| crop mapping | PASTIS, CropHarvest, NASA HLS crop classification, AgriFM 相关数据 | 适合评估物候和缺测鲁棒性。 |
| change detection | S2Looking, SECOND, DynamicEarthNet, OSCD, xBD 部分光学任务 | 需构造季节 hard negatives,避免只测建筑变化。 |
| cloud reconstruction | HLS seamless reconstruction 数据、Sentinel-2 多时相云遮挡样本 | 用真实云 mask 做重建评测。 |
| OOD | leave-region/leave-year/leave-season split | 必须报告跨区域和跨年份。 |
Baselines
| 类别 | Baseline |
|---|---|
| 单期 GeoFM | Prithvi-EO-1.0 / Clay / SatMAE feature + downstream head |
| 多时相 GeoFM | Prithvi-EO-2.0, SkySense, Galileo |
| 时序 SSL | SITS-MoCo, SatSwinMAE, spatiotemporal masked crop pretraining |
| 云去除/重建 | HLS SSL reconstruction, CloudTran++, RESTORE-DiT, AnytimeFormer |
| 下游任务模型 | U-TAE/TempCNN/Transformer crop mapping, ChangeFormer/BIT/DSIFN 等变化检测模型 |
指标
- Reconstruction: MAE/RMSE、SAM spectral angle、NDVI/EVI/NBR error、cloud-region-only error。
- Crop mapping: macro-F1、per-class F1、mIoU、early-season accuracy、missing-date robustness curve。
- Change detection: F1/IoU、seasonal false positive rate、cloud-shadow false positive rate、boundary F1。
- Robustness: performance vs cloud ratio、performance vs missing dates、leave-year/leave-region drop。
- Calibration: ECE、uncertainty-error correlation、cloud-mask-conditioned confidence。
7. 实验矩阵
| 实验 | 变量 | 目的 |
|---|---|---|
| E1 Mask 策略 | random patch / cloud-shaped / full-date dropout / phenology-critical-date dropout | 验证真实云形态是否比随机 mask 更有用。 |
| E2 重建目标 | reflectance / latent / NDVI+reflectance / spectral indices only | 判断像素重建与语义鲁棒性的关系。 |
| E3 时间编码 | absolute date / day-of-year / relative interval / learned temporal embedding | 处理不规则时间间隔和跨地区物候偏移。 |
| E4 Backbone | Temporal ViT / Prithvi-EO-2.0 frozen+adapter / Galileo / lightweight MAE | 比较从头训练与基于 GeoFM 适配。 |
| E5 下游任务 | crop mapping / binary change / semantic change | 验证是否从重建迁移到语义任务。 |
| E6 OOD split | leave-year / leave-region / leave-crop-zone / high-cloud region | 测真实鲁棒性,而不是随机 split。 |
| E7 生成辅助 | no generation / TerraMind-style auxiliary modality / diffusion reconstruction | 检查生成补全是否带来伪细节风险。 |
8. 可能的创新点
- 云形态感知的 temporal masking:用真实云/云影分布替代随机 mask,目标更贴近部署。
- 物候一致性重建:不仅重建 reflectance,还约束 vegetation index curve 和关键物候阶段。
- 下游鲁棒性驱动的预训练评测:把 cloud ratio / missing dates / season shift 作为主指标。
- 变化检测中的季节 hard negatives:专门测模型是否把正常季节变化误判为真实变化。
- GeoFM adapter 路线:不重新训练大模型,而是在 Prithvi/Galileo 上加 temporal-cloud adapter,降低算力门槛。
9. 风险与规避
| 风险 | 规避 |
|---|---|
| 预训练数据过大,算力不够 | 使用 Prithvi-EO-2.0/Galileo frozen backbone + adapter;先做区域级 HLS 子集。 |
| 云去除重建看起来好但下游无收益 | 将 crop/change downstream robustness 设为主实验,重建指标只做辅助。 |
| SAR-optical 融合偏离本方向 | 将 SAR 只作为 optional ablation;主线保持 optical/HLS/Sentinel-2。 |
| 生成模型产生伪细节 | 使用 uncertainty、spectral index consistency 和 change false positive rate 约束。 |
| 物候差异导致模型记住地区 | 使用 leave-region/leave-climate-zone split,并比较 day-of-year vs phenology-stage encoding。 |
10. 最小可行实验
- 选 3 个区域、2 年 Sentinel-2/HLS 时序,保留真实 cloud mask。
- 构造 4 种 masking:random patch、cloud-shaped、full-date dropout、cloud+shadow。
- 用轻量 Temporal ViT 或 Prithvi-EO-2.0 frozen encoder + adapter 做 masked temporal reconstruction。
- 下游只做两个任务:PASTIS/CropHarvest crop mapping 和 OSCD/S2Looking binary change。
- 报告 clean、30% cloud、60% cloud、missing 2 dates、leave-year 的性能曲线。
- 若 cloud-shaped masking 在高云量和 leave-year 下明显优于 random masking,即可支持继续扩展为完整论文。
评论