RS-20 Temporal Foundation Model for Cloud/Season Robustness

Series - 2024-2026 遥感 AI 细分研究方向

RS-20 Temporal Foundation Model for Cloud/Season Robustness

细问题:多时相 foundation model 如何对云、缺测和季节变化鲁棒?能否设计一个 masked temporal reconstruction + downstream change/crop mapping 的小论文方案?

光学/多光谱遥感时序的关键困难不是“没有时间维度”,而是时间维度经常不干净:云、云影、雪、薄雾、传感器缺测、不同重访周期、物候周期和真实地物变化混在一起。传统做法常用云掩膜、最佳像元合成、插值、时序平滑或单任务云去除,但 foundation model 时代的机会是:把“缺测、遮挡、季节变化”变成预训练任务本身,让模型学会在不完整、多季节、多区域、多传感器序列中形成稳定表示。

本方向可被压成一个很具体的论文问题:

在 Sentinel-2 / HLS 多时相序列中,用真实或模拟云缺测做 masked temporal reconstruction 预训练,是否能同时提升云遮挡条件下的 crop mapping 和真实变化检测,并减少把季节变化误判为变化的错误?

遥感时序和普通视频不同。视频帧通常时间间隔密集、同一相机、视角连续;卫星时序是稀疏、不规则、多传感器、多大气条件,而且同一像元的语义可能因物候周期而显著变化。对于 crop mapping,模型必须理解不同作物的物候曲线,而不是只看单期纹理。对于 change detection,模型必须区分真实建设/灾害/砍伐变化与季节性植被变化、云影、观测角和配准误差。

因此,单期 MAE 或普通图像 encoder 不够;只做云去除也不够。更有价值的是把 temporal masking、cloud-aware reconstruction、seasonal contrastive learning 和 downstream robustness 放在同一个评测框架里。

论文/项目年份/venue链接代码/模型/数据与本问题的关系
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications2024 arXiv / NASA-IBMarXiv, NASA NTRS PDFGitHub, HF 300MHLS 多时相 MAE,使用 3D spatiotemporal patch embedding、time/geolocation encoding;是本课题最直接基线。
SkySense: A Multi-Modal Remote Sensing Foundation Model2024 CVPRCVF, arXivGitHub使用大规模时序遥感数据和 factorized spatiotemporal encoder;说明 temporal sequence 已是 RSFM 核心能力。
SkySense++: A semantic-enhanced multi-modal RSFM for EO2025 Nature Machine IntelligenceNatureGitHub加入语义增强多模态建模,可作为“时序表示 + 语义任务”参照。
Galileo: Learning Global and Local Features in Pretrained Remote Sensing Models2025 arXiv / OpenReviewarXiv, OpenReview PDFGitHub, HF设计为灵活处理不同空间和时间形状的多模态 RS 输入;适合做可变长度/不规则时序基线。
TerraMind: Large-Scale Generative Multimodality for Earth Observation2025 ICCV/arXivarXiv, CVF PDFGitHub, HF任意模态生成和 Thinking-in-Modalities 可转化为“缺测时生成辅助模态/时间片”的鲁棒方案。
ChronoEarth-492K2026 arXivarXiv待确认官方代码/数据长时间跨度 hyperspectral 时序 benchmark,强调 temporal calibration,可启发长期时序评测。
UniTS: Unified Time Series Generative Model for Remote Sensing2025 arXivarXiv待确认官方代码统一时序重建、云去除、语义变化检测、预测;与本课题的生成式预训练目标很接近。
SatSwinMAE: Efficient Autoencoding for Multiscale Time-series Satellite Imagery2024 arXivarXiv待确认官方代码3D masked autoencoder + Video Swin,直接支持多尺度时序影像自编码。
SatMAE2022 NeurIPS, 仍是时间/多光谱 MAE 基线Project, PDF项目页虽早于目标窗口,但 temporal/multispectral MAE 设计仍是所有 2024-2026 方法的重要参照。
Reconstruction of seamless HLS time series via self-supervised learning2024 RSEScienceDirect论文页HLS 时序无缝重建与 gap filling 是 masked temporal reconstruction 的应用前身。
AnytimeFormer2025 RSEScienceDirect论文页目标是任意时间 reflectance reconstruction;含 SAR-optical 融合,本文只借鉴异步时序重建思想,不把 SAR 作为主线。
RESTORE-DiT2025 RSEScienceDirect论文页时序重建/云去除的 diffusion transformer 代表;同样含 SAR-optical,作为生成式重建参照。
AgriFM: A Multi-source Temporal RSFM for Crop Mapping2025 arXivarXiv, HF paperGitHub planned面向 crop mapping 的多源长时序 foundation model,适合作为下游农业任务对比。
Spatiotemporal masked pre-training for crop mapping with limited labels2025 ISPRS JPRSScienceDirect论文页明确验证 spatiotemporal masking 对低标签 crop mapping 的价值。
SITS-MoCo: Self-supervised pre-training for large-scale crop mapping2024/2023 ISPRS JPRSScienceDirectGitHub对 temporal shift、spectral noise、irregular length 做鲁棒表示学习,是 contrastive baseline。

代表:Prithvi-EO-2.0、SatSwinMAE、SatMAE。
核心思想是 mask 掉空间、谱段或时间 patch,让模型重建缺失观测。优点是简单、可扩展,能自然模拟云遮挡和缺测。问题是像素重建质量不一定等价于下游语义鲁棒性,尤其容易学到“平滑插值”而不是物候语义。

代表:TerraMind、UniTS、RESTORE-DiT、AnytimeFormer。
核心是用其他时间片、其他模态或辅助产品生成缺失时间/模态。对云去除很有吸引力,但如果引入 SAR,论文主线会变成 SAR-optical fusion;本任务建议把 SAR 设为可选辅助,不作为核心贡献。

代表:SITS-MoCo、crop mapping temporal SSL。
目标不是重建像素,而是让同一地块在轻微云噪声、时间错位、观测缺失下表示稳定。优点是更贴近分类/制图,缺点是难以处理真实变化,因为模型可能把有意义变化也压成不变。

代表:AgriFM、crop mapping ViT、ChronoEarth benchmark。
强调物候、长期趋势和作物/生态下游任务。优点是应用价值强;风险是模型可能过度贴合农业标签,泛化到灾害变化或城市变化时不稳。

  1. 云 mask 不等于真实缺测。很多实验用随机 mask 或矩形 mask,和云的空间形态、薄云、云影、雪混淆不一致。
  2. 重建指标与下游指标脱节。PSNR/SSIM/MAE 好,不代表 crop F1 或 change F1 好。
  3. 季节变化和真实变化容易混淆。模型需要知道“同一作物春夏秋变化是正常的”,但建筑新增、火烧、水体扩张是真变化。
  4. 不规则时间间隔处理不足。Sentinel-2/HLS 在不同地区、云量和纬度下有效观测间隔差异大。
  5. 跨区域物候偏移明显。同一作物在不同气候带的生长期不同,固定 positional/month embedding 可能引入区域偏差。
  6. 公开 benchmark 缺少“云遮挡鲁棒性曲线”。多数论文只在干净 split 或固定云量下报告单点分数。
  7. 多模态生成容易引入伪细节。生成出来的云下像元如果只为了好看,可能污染变化检测和物候判断。

Cloud- and Season-Robust Temporal Foundation Models via Masked Phenological Reconstruction

如果预训练时使用真实云形态/云影形态的 temporal masking,并同时约束像素重建、物候曲线一致性和语义下游稳定性,那么模型在云遮挡和季节偏移条件下的 crop mapping 与 change detection 会比普通 MAE、随机 temporal masking 和单期 GeoFM 更稳。

  1. Cloud-aware temporal masking
    使用 Sentinel-2 SCL、s2cloudless、Fmask/HLS QA 或真实云 mask 构造遮挡;额外加入薄云、云影、局部缺测和整期缺测。mask 策略包括 random patch、cloud-shaped patch、full-date dropout、phenology-critical-date dropout。

  2. Masked temporal reconstruction
    backbone 可从 Prithvi-EO-2.0、Galileo 或轻量 Temporal ViT 开始。输入为 T x C x H x W,输出被遮挡时间片/波段的 reflectance 或 latent token。推荐比较 pixel reconstruction、latent reconstruction 和 index reconstruction(NDVI/NDWI/NBR)。

  3. Phenology consistency loss
    对植被相关区域,约束重建后的 NDVI/EVI/NBR 曲线形状与可见观测一致;避免只优化 RGB/reflectance 平滑。

  4. Seasonal contrastive regularization
    同一地块在相邻季节或同物候阶段为正样本,不同作物/不同变化状态为负样本。注意不能把真实变化样本错误拉近。

  5. Downstream robustness head
    在 crop mapping 和 change detection 上微调,训练时保留 cloud dropout;评测时报告随云量、缺测期数、季节偏移变化的性能曲线。

用途数据说明
预训练HLS / Sentinel-2 L2A 全球多时相 patch优先选含 QA/cloud mask 的区域;可从 Prithvi-EO-2.0/HLS 工作流复用思路。
crop mappingPASTIS, CropHarvest, NASA HLS crop classification, AgriFM 相关数据适合评估物候和缺测鲁棒性。
change detectionS2Looking, SECOND, DynamicEarthNet, OSCD, xBD 部分光学任务需构造季节 hard negatives,避免只测建筑变化。
cloud reconstructionHLS seamless reconstruction 数据、Sentinel-2 多时相云遮挡样本用真实云 mask 做重建评测。
OODleave-region/leave-year/leave-season split必须报告跨区域和跨年份。
类别Baseline
单期 GeoFMPrithvi-EO-1.0 / Clay / SatMAE feature + downstream head
多时相 GeoFMPrithvi-EO-2.0, SkySense, Galileo
时序 SSLSITS-MoCo, SatSwinMAE, spatiotemporal masked crop pretraining
云去除/重建HLS SSL reconstruction, CloudTran++, RESTORE-DiT, AnytimeFormer
下游任务模型U-TAE/TempCNN/Transformer crop mapping, ChangeFormer/BIT/DSIFN 等变化检测模型
  1. Reconstruction: MAE/RMSE、SAM spectral angle、NDVI/EVI/NBR error、cloud-region-only error。
  2. Crop mapping: macro-F1、per-class F1、mIoU、early-season accuracy、missing-date robustness curve。
  3. Change detection: F1/IoU、seasonal false positive rate、cloud-shadow false positive rate、boundary F1。
  4. Robustness: performance vs cloud ratio、performance vs missing dates、leave-year/leave-region drop。
  5. Calibration: ECE、uncertainty-error correlation、cloud-mask-conditioned confidence。
实验变量目的
E1 Mask 策略random patch / cloud-shaped / full-date dropout / phenology-critical-date dropout验证真实云形态是否比随机 mask 更有用。
E2 重建目标reflectance / latent / NDVI+reflectance / spectral indices only判断像素重建与语义鲁棒性的关系。
E3 时间编码absolute date / day-of-year / relative interval / learned temporal embedding处理不规则时间间隔和跨地区物候偏移。
E4 BackboneTemporal ViT / Prithvi-EO-2.0 frozen+adapter / Galileo / lightweight MAE比较从头训练与基于 GeoFM 适配。
E5 下游任务crop mapping / binary change / semantic change验证是否从重建迁移到语义任务。
E6 OOD splitleave-year / leave-region / leave-crop-zone / high-cloud region测真实鲁棒性,而不是随机 split。
E7 生成辅助no generation / TerraMind-style auxiliary modality / diffusion reconstruction检查生成补全是否带来伪细节风险。
  1. 云形态感知的 temporal masking:用真实云/云影分布替代随机 mask,目标更贴近部署。
  2. 物候一致性重建:不仅重建 reflectance,还约束 vegetation index curve 和关键物候阶段。
  3. 下游鲁棒性驱动的预训练评测:把 cloud ratio / missing dates / season shift 作为主指标。
  4. 变化检测中的季节 hard negatives:专门测模型是否把正常季节变化误判为真实变化。
  5. GeoFM adapter 路线:不重新训练大模型,而是在 Prithvi/Galileo 上加 temporal-cloud adapter,降低算力门槛。
风险规避
预训练数据过大,算力不够使用 Prithvi-EO-2.0/Galileo frozen backbone + adapter;先做区域级 HLS 子集。
云去除重建看起来好但下游无收益将 crop/change downstream robustness 设为主实验,重建指标只做辅助。
SAR-optical 融合偏离本方向将 SAR 只作为 optional ablation;主线保持 optical/HLS/Sentinel-2。
生成模型产生伪细节使用 uncertainty、spectral index consistency 和 change false positive rate 约束。
物候差异导致模型记住地区使用 leave-region/leave-climate-zone split,并比较 day-of-year vs phenology-stage encoding。
  1. 选 3 个区域、2 年 Sentinel-2/HLS 时序,保留真实 cloud mask。
  2. 构造 4 种 masking:random patch、cloud-shaped、full-date dropout、cloud+shadow。
  3. 用轻量 Temporal ViT 或 Prithvi-EO-2.0 frozen encoder + adapter 做 masked temporal reconstruction。
  4. 下游只做两个任务:PASTIS/CropHarvest crop mapping 和 OSCD/S2Looking binary change。
  5. 报告 clean、30% cloud、60% cloud、missing 2 dates、leave-year 的性能曲线。
  6. 若 cloud-shaped masking 在高云量和 leave-year 下明显优于 random masking,即可支持继续扩展为完整论文。

Related Content

评论