RS-20 Temporal Foundation Model for Cloud/Season Robustness

WangTong included in category and series 2024-2026 遥感 AI 细分研究方向

2026-06-07 09:19:00 2026-06-07 09:19:00 869 words 4 minutes

Series - 2024-2026 遥感 AI 细分研究方向

RS-20 Temporal Foundation Model for Cloud/Season Robustness

细问题：多时相 foundation model 如何对云、缺测和季节变化鲁棒？能否设计一个 masked temporal reconstruction + downstream change/crop mapping 的小论文方案？

1. 方向概述

光学/多光谱遥感时序的关键困难不是“没有时间维度”，而是时间维度经常不干净：云、云影、雪、薄雾、传感器缺测、不同重访周期、物候周期和真实地物变化混在一起。传统做法常用云掩膜、最佳像元合成、插值、时序平滑或单任务云去除，但 foundation model 时代的机会是：把“缺测、遮挡、季节变化”变成预训练任务本身，让模型学会在不完整、多季节、多区域、多传感器序列中形成稳定表示。

本方向可被压成一个很具体的论文问题：

在 Sentinel-2 / HLS 多时相序列中，用真实或模拟云缺测做 masked temporal reconstruction 预训练，是否能同时提升云遮挡条件下的 crop mapping 和真实变化检测，并减少把季节变化误判为变化的错误？

2. 问题由来

遥感时序和普通视频不同。视频帧通常时间间隔密集、同一相机、视角连续；卫星时序是稀疏、不规则、多传感器、多大气条件，而且同一像元的语义可能因物候周期而显著变化。对于 crop mapping，模型必须理解不同作物的物候曲线，而不是只看单期纹理。对于 change detection，模型必须区分真实建设/灾害/砍伐变化与季节性植被变化、云影、观测角和配准误差。

因此，单期 MAE 或普通图像 encoder 不够；只做云去除也不够。更有价值的是把 temporal masking、cloud-aware reconstruction、seasonal contrastive learning 和 downstream robustness 放在同一个评测框架里。

3. 代表论文与项目

论文/项目	年份/venue	链接	代码/模型/数据	与本问题的关系
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications	2024 arXiv / NASA-IBM	arXiv, NASA NTRS PDF	GitHub, HF 300M	HLS 多时相 MAE，使用 3D spatiotemporal patch embedding、time/geolocation encoding；是本课题最直接基线。
SkySense: A Multi-Modal Remote Sensing Foundation Model	2024 CVPR	CVF, arXiv	GitHub	使用大规模时序遥感数据和 factorized spatiotemporal encoder；说明 temporal sequence 已是 RSFM 核心能力。
SkySense++: A semantic-enhanced multi-modal RSFM for EO	2025 Nature Machine Intelligence	Nature	GitHub	加入语义增强多模态建模，可作为“时序表示 + 语义任务”参照。
Galileo: Learning Global and Local Features in Pretrained Remote Sensing Models	2025 arXiv / OpenReview	arXiv, OpenReview PDF	GitHub, HF	设计为灵活处理不同空间和时间形状的多模态 RS 输入；适合做可变长度/不规则时序基线。
TerraMind: Large-Scale Generative Multimodality for Earth Observation	2025 ICCV/arXiv	arXiv, CVF PDF	GitHub, HF	任意模态生成和 Thinking-in-Modalities 可转化为“缺测时生成辅助模态/时间片”的鲁棒方案。
ChronoEarth-492K	2026 arXiv	arXiv	待确认官方代码/数据	长时间跨度 hyperspectral 时序 benchmark，强调 temporal calibration，可启发长期时序评测。
UniTS: Unified Time Series Generative Model for Remote Sensing	2025 arXiv	arXiv	待确认官方代码	统一时序重建、云去除、语义变化检测、预测；与本课题的生成式预训练目标很接近。
SatSwinMAE: Efficient Autoencoding for Multiscale Time-series Satellite Imagery	2024 arXiv	arXiv	待确认官方代码	3D masked autoencoder + Video Swin，直接支持多尺度时序影像自编码。
SatMAE	2022 NeurIPS, 仍是时间/多光谱 MAE 基线	Project, PDF	项目页	虽早于目标窗口，但 temporal/multispectral MAE 设计仍是所有 2024-2026 方法的重要参照。
Reconstruction of seamless HLS time series via self-supervised learning	2024 RSE	ScienceDirect	论文页	HLS 时序无缝重建与 gap filling 是 masked temporal reconstruction 的应用前身。
AnytimeFormer	2025 RSE	ScienceDirect	论文页	目标是任意时间 reflectance reconstruction；含 SAR-optical 融合，本文只借鉴异步时序重建思想，不把 SAR 作为主线。
RESTORE-DiT	2025 RSE	ScienceDirect	论文页	时序重建/云去除的 diffusion transformer 代表；同样含 SAR-optical，作为生成式重建参照。
AgriFM: A Multi-source Temporal RSFM for Crop Mapping	2025 arXiv	arXiv, HF paper	GitHub planned	面向 crop mapping 的多源长时序 foundation model，适合作为下游农业任务对比。
Spatiotemporal masked pre-training for crop mapping with limited labels	2025 ISPRS JPRS	ScienceDirect	论文页	明确验证 spatiotemporal masking 对低标签 crop mapping 的价值。
SITS-MoCo: Self-supervised pre-training for large-scale crop mapping	2024/2023 ISPRS JPRS	ScienceDirect	GitHub	对 temporal shift、spectral noise、irregular length 做鲁棒表示学习，是 contrastive baseline。

4. 方法脉络

4.1 多时相 MAE 路线

代表：Prithvi-EO-2.0、SatSwinMAE、SatMAE。
核心思想是 mask 掉空间、谱段或时间 patch，让模型重建缺失观测。优点是简单、可扩展，能自然模拟云遮挡和缺测。问题是像素重建质量不一定等价于下游语义鲁棒性，尤其容易学到“平滑插值”而不是物候语义。

4.2 多模态/任意模态生成路线

代表：TerraMind、UniTS、RESTORE-DiT、AnytimeFormer。
核心是用其他时间片、其他模态或辅助产品生成缺失时间/模态。对云去除很有吸引力，但如果引入 SAR，论文主线会变成 SAR-optical fusion；本任务建议把 SAR 设为可选辅助，不作为核心贡献。

4.3 时序对比/不变性路线

代表：SITS-MoCo、crop mapping temporal SSL。
目标不是重建像素，而是让同一地块在轻微云噪声、时间错位、观测缺失下表示稳定。优点是更贴近分类/制图，缺点是难以处理真实变化，因为模型可能把有意义变化也压成不变。

4.4 任务驱动长时序路线

代表：AgriFM、crop mapping ViT、ChronoEarth benchmark。
强调物候、长期趋势和作物/生态下游任务。优点是应用价值强；风险是模型可能过度贴合农业标签，泛化到灾害变化或城市变化时不稳。

5. 当前未解决的问题

云 mask 不等于真实缺测。很多实验用随机 mask 或矩形 mask，和云的空间形态、薄云、云影、雪混淆不一致。
重建指标与下游指标脱节。PSNR/SSIM/MAE 好，不代表 crop F1 或 change F1 好。
季节变化和真实变化容易混淆。模型需要知道“同一作物春夏秋变化是正常的”，但建筑新增、火烧、水体扩张是真变化。
不规则时间间隔处理不足。Sentinel-2/HLS 在不同地区、云量和纬度下有效观测间隔差异大。
跨区域物候偏移明显。同一作物在不同气候带的生长期不同，固定 positional/month embedding 可能引入区域偏差。
公开 benchmark 缺少“云遮挡鲁棒性曲线”。多数论文只在干净 split 或固定云量下报告单点分数。
多模态生成容易引入伪细节。生成出来的云下像元如果只为了好看，可能污染变化检测和物候判断。

6. 推荐小论文方案

题目草案

Cloud- and Season-Robust Temporal Foundation Models via Masked Phenological Reconstruction

核心假设

如果预训练时使用真实云形态/云影形态的 temporal masking，并同时约束像素重建、物候曲线一致性和语义下游稳定性，那么模型在云遮挡和季节偏移条件下的 crop mapping 与 change detection 会比普通 MAE、随机 temporal masking 和单期 GeoFM 更稳。

方法模块

Cloud-aware temporal masking
使用 Sentinel-2 SCL、s2cloudless、Fmask/HLS QA 或真实云 mask 构造遮挡；额外加入薄云、云影、局部缺测和整期缺测。mask 策略包括 random patch、cloud-shaped patch、full-date dropout、phenology-critical-date dropout。
Masked temporal reconstruction
backbone 可从 Prithvi-EO-2.0、Galileo 或轻量 Temporal ViT 开始。输入为 T x C x H x W，输出被遮挡时间片/波段的 reflectance 或 latent token。推荐比较 pixel reconstruction、latent reconstruction 和 index reconstruction（NDVI/NDWI/NBR）。
Phenology consistency loss
对植被相关区域，约束重建后的 NDVI/EVI/NBR 曲线形状与可见观测一致；避免只优化 RGB/reflectance 平滑。
Seasonal contrastive regularization
同一地块在相邻季节或同物候阶段为正样本，不同作物/不同变化状态为负样本。注意不能把真实变化样本错误拉近。
Downstream robustness head
在 crop mapping 和 change detection 上微调，训练时保留 cloud dropout；评测时报告随云量、缺测期数、季节偏移变化的性能曲线。

数据集建议

用途	数据	说明
预训练	HLS / Sentinel-2 L2A 全球多时相 patch	优先选含 QA/cloud mask 的区域；可从 Prithvi-EO-2.0/HLS 工作流复用思路。
crop mapping	PASTIS, CropHarvest, NASA HLS crop classification, AgriFM 相关数据	适合评估物候和缺测鲁棒性。
change detection	S2Looking, SECOND, DynamicEarthNet, OSCD, xBD 部分光学任务	需构造季节 hard negatives，避免只测建筑变化。
cloud reconstruction	HLS seamless reconstruction 数据、Sentinel-2 多时相云遮挡样本	用真实云 mask 做重建评测。
OOD	leave-region/leave-year/leave-season split	必须报告跨区域和跨年份。

Baselines

类别	Baseline
单期 GeoFM	Prithvi-EO-1.0 / Clay / SatMAE feature + downstream head
多时相 GeoFM	Prithvi-EO-2.0, SkySense, Galileo
时序 SSL	SITS-MoCo, SatSwinMAE, spatiotemporal masked crop pretraining
云去除/重建	HLS SSL reconstruction, CloudTran++, RESTORE-DiT, AnytimeFormer
下游任务模型	U-TAE/TempCNN/Transformer crop mapping, ChangeFormer/BIT/DSIFN 等变化检测模型

指标

Reconstruction: MAE/RMSE、SAM spectral angle、NDVI/EVI/NBR error、cloud-region-only error。
Crop mapping: macro-F1、per-class F1、mIoU、early-season accuracy、missing-date robustness curve。
Change detection: F1/IoU、seasonal false positive rate、cloud-shadow false positive rate、boundary F1。
Robustness: performance vs cloud ratio、performance vs missing dates、leave-year/leave-region drop。
Calibration: ECE、uncertainty-error correlation、cloud-mask-conditioned confidence。

7. 实验矩阵

实验	变量	目的
E1 Mask 策略	random patch / cloud-shaped / full-date dropout / phenology-critical-date dropout	验证真实云形态是否比随机 mask 更有用。
E2 重建目标	reflectance / latent / NDVI+reflectance / spectral indices only	判断像素重建与语义鲁棒性的关系。
E3 时间编码	absolute date / day-of-year / relative interval / learned temporal embedding	处理不规则时间间隔和跨地区物候偏移。
E4 Backbone	Temporal ViT / Prithvi-EO-2.0 frozen+adapter / Galileo / lightweight MAE	比较从头训练与基于 GeoFM 适配。
E5 下游任务	crop mapping / binary change / semantic change	验证是否从重建迁移到语义任务。
E6 OOD split	leave-year / leave-region / leave-crop-zone / high-cloud region	测真实鲁棒性，而不是随机 split。
E7 生成辅助	no generation / TerraMind-style auxiliary modality / diffusion reconstruction	检查生成补全是否带来伪细节风险。

8. 可能的创新点

云形态感知的 temporal masking：用真实云/云影分布替代随机 mask，目标更贴近部署。
物候一致性重建：不仅重建 reflectance，还约束 vegetation index curve 和关键物候阶段。
下游鲁棒性驱动的预训练评测：把 cloud ratio / missing dates / season shift 作为主指标。
变化检测中的季节 hard negatives：专门测模型是否把正常季节变化误判为真实变化。
GeoFM adapter 路线：不重新训练大模型，而是在 Prithvi/Galileo 上加 temporal-cloud adapter，降低算力门槛。

9. 风险与规避

风险	规避
预训练数据过大，算力不够	使用 Prithvi-EO-2.0/Galileo frozen backbone + adapter；先做区域级 HLS 子集。
云去除重建看起来好但下游无收益	将 crop/change downstream robustness 设为主实验，重建指标只做辅助。
SAR-optical 融合偏离本方向	将 SAR 只作为 optional ablation；主线保持 optical/HLS/Sentinel-2。
生成模型产生伪细节	使用 uncertainty、spectral index consistency 和 change false positive rate 约束。
物候差异导致模型记住地区	使用 leave-region/leave-climate-zone split，并比较 day-of-year vs phenology-stage encoding。

10. 最小可行实验

选 3 个区域、2 年 Sentinel-2/HLS 时序，保留真实 cloud mask。
构造 4 种 masking：random patch、cloud-shaped、full-date dropout、cloud+shadow。
用轻量 Temporal ViT 或 Prithvi-EO-2.0 frozen encoder + adapter 做 masked temporal reconstruction。
下游只做两个任务：PASTIS/CropHarvest crop mapping 和 OSCD/S2Looking binary change。
报告 clean、30% cloud、60% cloud、missing 2 dates、leave-year 的性能曲线。
若 cloud-shaped masking 在高云量和 leave-year 下明显优于 random masking，即可支持继续扩展为完整论文。

Contents

RS-20 Temporal Foundation Model for Cloud/Season Robustness

RS-20 Temporal Foundation Model for Cloud/Season Robustness

1. 方向概述

2. 问题由来

3. 代表论文与项目

4. 方法脉络

4.1 多时相 MAE 路线

4.2 多模态/任意模态生成路线

4.3 时序对比/不变性路线

4.4 任务驱动长时序路线

5. 当前未解决的问题

6. 推荐小论文方案

题目草案

核心假设

方法模块

数据集建议

Baselines

指标

7. 实验矩阵

8. 可能的创新点

9. 风险与规避

10. 最小可行实验

11. 下一步阅读队列

Related Content

评论

RS-20 Temporal Foundation Model for Cloud/Season Robustness

RS-20 Temporal Foundation Model for Cloud/Season Robustness

1. 方向概述

2. 问题由来

3. 代表论文与项目

4. 方法脉络

4.1 多时相 MAE 路线

4.2 多模态/任意模态生成路线

4.3 时序对比/不变性路线

4.4 任务驱动长时序路线

5. 当前未解决的问题

6. 推荐小论文方案

题目草案

核心假设

方法模块

数据集建议

Baselines

指标

7. 实验矩阵

8. 可能的创新点

9. 风险与规避

10. 最小可行实验

11. 下一步阅读队列

Related Content

TUE-CD：震后建筑变化检测真正难的是短时间隔下的侧视错位

CSI-Net：变化检测里真正难的是压住伪变化

SST-CD：把无标签建筑变化检测从差异图变成自训练

RS-19 Change Caption Evidence Grounding

RS-18 Temporal Hard Negatives for Change Models

评论