时序变化、跨域泛化与可信评测 - Category - 堂堂一跑堂

TTABC：遥感 VLM 的测试时自适应，先别急着调参

Mon, 15 Jun 2026 23:00:02 +0800

TTABC：遥感 VLM 的测试时自适应，先别急着调参

结论：这一轮最值得补进雷达的是 2026-06-12 提交到 arXiv 的 What Drives Test-Time Adaptation for CLIP? A Controlled Empirical Study from an Update Perspective。它不是遥感专用模型，但对遥感 VLM 很有用：论文把 CLIP 测试时自适应方法按“更新什么”分成 parameter-based、state-based、inference-based 三类，并提出 TTABC 这个开源 TTA Benchmark for CLIP，统一评测 20 多个代表性方法。最关键的结论不是谁刷到最高分，而是：很多收益来自测试时证据和可靠代理信号，而不是更重的梯度更新；不同分布偏移下没有通吃方案。对遥感来说，这正好对应跨地区、跨季节、跨传感器、开放词表类别漂移这些真实部署问题。

我按 2026-06-15 23:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择 TTABC，是因为今天前几轮已经覆盖了 OSMGraphCLIP、TUE-CD、GeoFM layer probing、MaskWAM、ShearFuse、LALE 等遥感条目；继续找一个新遥感 backbone 的边际价值不高。TTABC 虽然来自通用 CV/VLM，但它给遥感 VLM 一个更紧的问题：模型到新地区、新季节、新类别组合时，应该怎么自适应，应该怎么评测，什么时候不该自适应。

需要先说明边界：TTABC 当前评测主体是 CLIP 图像分类，不是遥感分割、检测、VQA 或 grounding。它纳入 EuroSAT，但不是遥感全任务 benchmark。因此本文把它作为 CV-to-RS 迁移项，而不是遥感论文。它的价值在于评测协议和机制拆解，可以被迁移到 RemoteCLIP、GeoRSCLIP、SkySense、VHM、GeoChat、Earth-Agent 这类遥感 VLM 或 GeoFM+文本系统上。

ShearFuse-UNet：火势蔓延预测不一定要更大模型，方向边界更重要

Mon, 15 Jun 2026 15:00:02 +0800

ShearFuse-UNet：火势蔓延预测不一定要更大模型，方向边界更重要

结论：这一轮最值得补进雷达的是 2026-06-12 提交到 arXiv 的 ShearFuse-UNet: Hadamard, DCT, and Shearlet Transform Fusion for Next-Day Wildfire Spread Prediction。它不是遥感 VLM，也不是新的 GeoFM，而是把次日野火蔓延预测里一个很具体的结构先验说清楚了：火线不是普通纹理，而是受风、地形、植被和既有燃烧边界共同约束的方向性边界。ShearFuse-UNet 用 WHT、DCT 和 Shearlet 三类固定变换替代一部分 learned attention，在 267k 参数下达到 WildfireSpreadTS 上 F1 0.596，比 14M 参数 ResNet18 U-Net baseline 的 0.589 略高，重点价值在“轻量、可部署、面向边界几何”。

我按 2026-06-15 15:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇使用的是多模态卫星、气象、地形和火点时序数据，不以雷达或微波成像为核心输入。它和历史里的 wildfire GeoFM LoRA 方向不同：那条线更偏火烧迹地/灾后制图和基础模型微调，本篇聚焦 次日火势蔓延预测，也就是应急响应里更关心的“明天哪里可能烧到”。

背景

遥感灾害 AI 很容易被两个方向吸走注意力。

一个方向是大模型化。我们会自然想到用 GeoFM、VLM、SAM 或多模态 Agent 来做灾害识别、火烧迹地制图、风险问答和报告生成。这条线重要，但它并不直接解决应急预测里的延迟和资源约束。

另一个方向是物理模拟。火势蔓延受燃料、湿度、风速、坡度、地表覆盖、历史火点和人工干预影响，传统模型通常需要大量参数、专家校准和高质量输入。它可解释，但在真实应急环境中，快速更新、缺失数据和区域泛化都很难。

ShearFuse-UNet 切在两者之间：保留 U-Net 这种轻量 dense prediction 框架，但把火线几何放进网络结构里。它不追求用 Transformer 学出一切，而是问一个更工程的问题：如果火势边界天然有方向性，能不能用固定的频域和方向变换，把这种先验便宜地注入模型？

MaskWAM：遥感时序模型也该预测 mask，而不只是预测影像

Mon, 15 Jun 2026 13:00:03 +0800

MaskWAM：遥感时序模型也该预测 mask，而不只是预测影像

结论：这一轮最值得补进雷达的是 2026-06-11 提交到 arXiv 的 MaskWAM: Unifying Mask Prompting and Prediction for World-Action Models。它本身是机器人 World-Action Model，不是遥感论文；但它给遥感 AI 一个很直接的启发：如果模型要理解“哪里会变、哪个对象重要、未来应该关注什么”，就不应只重建 RGB 或多光谱影像，还应该显式预测任务相关 mask。对光学遥感变化检测、灾害扩散、农田物候、道路/建筑增量更新和 VLM 空间指代来说，mask 既可以是 prompt，也可以是监督目标。

我按 2026-06-15 13:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是一个 CV/机器人方向的可迁移方法，不涉及雷达输入。它和前几轮已经写过的 SpatialClaw、Earth-Agent、TerraBench、Plan2Map、VecLang、CoastlineVLM、Stateful Visual Encoder 等不同：重点不是工具调用或 VLM 答题，而是把 mask prompt 和 future mask prediction 合并成一个可训练的时空接口。

背景

遥感时序建模里有一个长期问题：我们经常让模型预测像素、预测差异图、预测类别图，或者直接输出变化检测结果，但很少追问模型内部到底在“跟踪哪个对象”。

这在简单二时相变化检测里还可以靠差分特征糊过去。一旦场景变复杂，问题就出来了。比如同一张超高分影像里有多栋相似建筑，文本说“新建的厂房”并不能精确指向目标；农田时序里作物、裸地、阴影和云边界经常混在一起；灾害前后影像中，真正应该关注的是滑坡体、受损建筑、淹没边界或道路阻断，而不是整幅图的外观重建。

现有遥感基础模型和 VLM 很擅长做全局表征、caption、VQA 或开放词表识别，但它们仍容易把“语义上相关”和“空间上对准”混为一谈。用户问的是某个目标、某片区域、某条边界，模型却可能靠上下文猜测。更麻烦的是，如果训练目标只是 RGB/多光谱重建，模型会把云影、纹理、背景和无关地物也当成同等重要的预测对象。

MaskWAM 的价值就在这里。它虽然来自机器人操作，但提出了一个可以迁移到遥感的原则：不要只让模型预测未来画面，也要让它预测未来的任务相关 mask；不要只用文字描述目标，也要允许首帧 mask 作为空间锚点。

论文/项目

MaskWAM 的 arXiv 页面显示论文于 2026-06-11 提交，主题包括 computer vision、machine learning 和 robotics。作者来自香港科技大学、Tencent Robotics X 和清华大学。官方项目页和 GitHub 仓库已经开放，仓库说明这是官方实现，但截至本轮检索，训练、推理、模型权重、数据准备和评测脚本仍在准备发布。

RS-34 Missing-Band Reconstruction vs Robust Adaptation

Sun, 07 Jun 2026 09:33:00 +0800

RS-34 Missing-Band Reconstruction vs Robust Adaptation

摘要

遥感模型遇到缺失 band 有两条路线：先重建缺失 band 再做下游任务，或让模型直接对缺失 band 鲁棒。2024-2026 的光谱 foundation model、masked spectral modeling 和扩散式 band repair 让这个问题重新变得有研究价值。核心判断是：如果下游任务需要物理可解释的光谱曲线，重建路线更强；如果目标是分类/分割泛化，鲁棒适配可能更简单、更稳。

问题由来

真实遥感输入经常不完整：传感器原生 band 不同、云和质量控制屏蔽部分波段、不同产品处理级别不一致、商业卫星只提供少数通道。直接补零或丢弃样本会造成信息浪费；但盲目重建 band 也可能生成光谱上好看、下游却有害的伪信号。

代表论文与项目

工作	年份	链接	相关性
SatMAE++	2024	arXiv, GitHub	masked pretraining 的固定/多光谱基线。
DOFA	2024	arXiv, GitHub	动态适配不同观测通道。
SpectralEarth	2025	arXiv, GitHub	大规模 EnMAP 高光谱预训练数据和基准。
HyperFree	2025	CVF	channel-adaptive/tuning-free，适合作为直接鲁棒适配基线。
Multispectral to Hyperspectral using Pretrained FM	2025	arXiv	MSI 到 HSI 重建路线代表。
AnyBand-Diff	2026	arXiv	spectral-prior-guided diffusion band repair。
Any-Optical-Model	2026	AAAI PDF	直接评估 missing bands、cross-sensor、cross-resolution 鲁棒性。
SpectralEarth-FM	2026	arXiv	多模态 EO 预训练中接入 HSI。

两条路线

先重建再推理

优点：输出完整光谱，适合光谱指数、物理反演、材料识别和可解释分析。
缺点：重建误差会传播到下游；生成模型可能产生看似合理但物理不真实的 band。

RS-25 OOD Split Design for Remote Sensing Benchmarks

Sun, 07 Jun 2026 09:24:00 +0800

RS-25 OOD Split Design for Remote Sensing Benchmarks

默认范围：光学/多光谱/高分辨率遥感为主；不把 SAR-only 作为主线。

摘要

遥感 benchmark 的最大风险是“随机划分高分，真实部署掉分”。影像瓦片具有强空间自相关，同一区域相邻 patch、同一城市不同裁片、同一季节同一传感器采样出来的数据，常常让训练集和测试集在纹理、建筑形态、植被物候、成像条件上高度相似。OOD split 的研究价值在于把这种相似性有意打散，分别测试模型面对新地理区域、新时间窗口、新传感器、新空间分辨率和新数据源时是否仍可靠。

2024-2026 的趋势很明确：PANGAEA 和 PhilEO Bench 试图统一 GeoFM 评测；REOBench 开始系统评估高分辨率光学任务在真实扰动下的鲁棒性；EarthShift 进一步把 OOD 从“单一 corruption”推进到 location、temporal、sensor、scale、data-source 等真实分布偏移；RWDS 专门把卫星目标检测放到真实空间域偏移下评测；Distribution Shifts at Scale/TARDIS 则关注如何在部署阶段检测 ID/OOD。

代表论文和项目

项目	年份/来源	链接	代码/数据	与 OOD split 的关系
EarthShift: a benchmark for measuring robustness to real-world distribution shifts in Earth observation	2026 arXiv	paper, project	GitHub	明确覆盖 location、temporal、sensor、scale、data-source shift；适合作为 RS OOD split 的总框架。
PANGAEA: A Global and Inclusive Benchmark for Geospatial Foundation Models	2024 arXiv / 2025 rev.	paper	GitHub	标准化多任务、多分辨率、多传感器、多时相 GeoFM 评测；提醒单一地区/任务评测过窄。
PhilEO Bench: Evaluating Geo-Spatial Foundation Models	2024 IGARSS/arXiv	paper, project	HF	全球 stratified Sentinel-2 benchmark，支持 n-shot 和统一测试框架；可借鉴地理分层采样。
REOBench: Benchmarking Robustness of Earth Observation Foundation Models	2025 arXiv	paper	GitHub, HF	高分辨率光学影像 6 类任务、12 类扰动；不是严格 geographic OOD，但适合做 corruption OOD 辅助维度。
Benchmarking Object Detectors under Real-World Distribution Shifts in Satellite Imagery	2025 CVPR	paper, CVF	GitHub	RWDS 针对卫星目标检测构造真实 DG benchmark，重点是气候区、灾害类型、地理区域 shift。
Distribution Shifts at Scale: Out-of-distribution Detection in Earth Observation	2024 arXiv / 2025 CVPRW EarthVision	paper, CVF	GitHub	TARDIS 在 EuroSAT、xBD 和 Fields of the World 上做 covariate/semantic shift OOD 检测；适合部署时发现 split 外样本。
Analysing Satellite Imagery Classification under Spatial Domain Shift across Geographic Regions	2025 IJCV	paper	GitHub	构造 DSGR 大规模区域域偏移分类数据集，直接针对跨地理区域空间 domain shift。

Split 类型到底测什么

Split	设计方式	测到的能力	容易误判的地方	适用任务
Random split	在 image/patch 级随机划分	同分布插值、模型拟合能力、常规训练稳定性	空间泄漏严重；相邻 patch 可同时进入 train/test；高分不代表可部署	sanity check、debug、低风险基线
Spatial block split	按空间网格或 buffer 后的地理块划分	局部空间自相关之外的泛化；接近真实制图部署	block 太小仍泄漏；block 太大可能导致类别缺失	land cover、road/building segmentation、crop mapping
Leave-city-out	按城市/区域训练，留一个或多个城市测试	城市形态、建筑风格、道路结构、采集条件迁移	城市标签粒度不一；训练城市数量少时方差大	VHR semantic segmentation、building/road extraction、urban detection
Leave-country-out / leave-region-out	按国家、大洲、生态区、气候带留出	大尺度地理、社会经济、气候和景观差异	类别先验变化会混入 semantic shift；需报告类别覆盖	global land cover、crop、settlement、population proxy
Leave-season-out / temporal split	按月份、季节、年份、灾前灾后窗口划分	物候、季节、太阳高度、云影、灾害时序迁移	若地点完全相同，仍可能记住地理纹理；需和 spatial split 组合	crop mapping、change detection、flood/wildfire、phenology
Leave-sensor-out	训练传感器 A，测试传感器 B	光谱响应、GSD、噪声、辐射定标差异	传感器 shift 常和分辨率/时间/地区混在一起	multispectral/hyperspectral、GeoFM adapter、cloud/flood mapping
Leave-GSD/resolution-out	按空间分辨率或重采样尺度划分	尺度鲁棒性、小目标尺度理解	人工重采样不等于真实传感器；需区分 native GSD 与 resampled GSD	detection、segmentation、VLM grounding、大图推理
Leave-data-source-out	训练数据源/供应商/标注规范 A，测试 B	标注规范、影像处理链、数据提供方差异	很难判断是 label shift 还是 image shift	多源 benchmark、GeoFM 评测、地图产品迁移
Corruption split	对 test 注入 haze/blur/noise/rotation/scale 等扰动	成像/环境扰动和几何扰动鲁棒性	不等同真实 geographic OOD；可作为补充	REOBench 风格多任务鲁棒性评测

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

Sun, 07 Jun 2026 09:21:00 +0800

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

1. 结论先行

跨城市遥感语义分割的 TTA 不是“把 TENT 跑一下”这么简单。遥感目标具有强空间自相关、类别长尾、城市/农村类别先验差异、GSD 和成像条件差异；这些因素会让熵最小化、自训练和 BN adaptation 在无标签测试流上发生负迁移。当前 2024-2026 的直接 RS-TTA 工作仍少，更成熟的是两条邻近线：遥感 UDA/source-free/one-shot domain adaptation，以及通用 CV 的 continual TTA / segmentation TTA / uncertainty-aware TTA。

最有价值的小课题是：Uncertainty-Constrained Test-Time Adaptation for Cross-City Remote Sensing Semantic Segmentation。核心假设是：只在可靠像素、可靠 tile 和可靠类别原型上更新少量参数，并用空间一致性、类别先验和回滚机制约束更新，可以减少跨城市 TTA 的 model collapse 和 rare-class forgetting。

2. 问题由来

遥感语义分割常在一个城市、一个传感器或一个采样策略上训练，然后部署到另一个城市。城市之间的差异不是简单色彩变化，而是多因素叠加：

地理景观差异：武汉、南京、长春、Potsdam、Vaihingen 的建筑密度、道路宽度、植被形态不同。
类别先验差异：LoveDA rural 中 agriculture/forest 占比高，urban 中 building/road 占比高；熵最小化容易把主导类越推越强。
空间自相关：一个 1024 tile 中相邻像素高度相关，batch size 看似大，独立样本数其实很低。
边界和小目标：道路、水体边界、建筑阴影、车辆等区域的高不确定性往往正是最重要的区域。
测试流非平稳：真实大范围制图是从城区到郊区、从平原到山地、从晴天到阴影的连续流，单一 target distribution 假设不成立。

LoveDA 本身就是为了 land-cover segmentation 和 UDA 设计的遥感域适配数据集，其 GitHub 说明中也保留了 Semantic Segmentation Challenge 和 UDA Challenge；OpenReview 摘要强调城市级/国家级制图泛化不足。LoveDA 早于本时间窗，但仍是 RS-22 的核心实验场。
链接：LoveDA GitHub，LoveDA OpenReview。

RS-21 EarthShift-Style Robustness Suite

Sun, 07 Jun 2026 09:20:00 +0800

RS-21 EarthShift-Style Robustness Suite

细问题：以 EarthShift 为核心，设计一个遥感模型真实分布偏移评测套件，覆盖跨城市、跨国家、跨气候带、跨季节、跨 GSD、跨传感器，比较 GeoFM、传统监督模型、TTA 方法，并提出报告模板。
范围：光学/多光谱遥感优先；不把 SAR-only 设置作为主线。若某 benchmark 含 SAR 或多模态，只保留可用光学/多光谱任务或标注为 mixed-modality。

1. 结论先行

EarthShift 把 2024-2026 GeoFM 评测里最关键的问题挑明了：当前大量遥感 benchmark 主要测的是 in-distribution performance，但真实部署经常遇到新的时间窗口、地理区域、空间尺度和传感器。EarthShift 官方页说明其覆盖 5 类 shift、11 个任务和 8 个 geospatial foundation models；论文摘要报告 GFMs 在 OOD 上平均约 15-20% 性能下降，并且这种下降不因模型结构、尺寸、预训练或微调策略而自然消失。

因此，一个可投稿的小方向不是“再做一个平均精度更高的 GeoFM”，而是做一个更可解释、更可诊断、更贴近部署的 robustness suite：明确每类 shift 的因果来源，区分模型能力、数据泄漏、传感器差异和标签体系变化，并把结果报告成性能、鲁棒性、校准、效率和失败类型的组合。

2. 问题由来

遥感数据的分布偏移比自然图像更“结构化”：

地理偏移：同一类建筑、道路、农田、水体在不同城市、国家、气候带中的纹理和上下文不同。
时间偏移：季节、作物物候、施工进度、灾害前后、传感器重访周期都会改变表观。
尺度偏移：GSD 改变后，同一对象的像素大小和局部纹理完全不同。
传感器偏移：Sentinel-2、Landsat、Planet、NAIP、航空 RGB、无人机影像的谱段、响应函数、噪声和分辨率不同。
标注/任务偏移：land cover、land use、object、parcel-level label、行政产品标签之间语义不完全一致。

传统随机划分会高估模型泛化能力，因为相邻瓦片、同一城市、同一季节、同一传感器的数据往往同时进入训练和测试。GeoFM 的大规模预训练进一步放大了这个问题：模型可能在预训练阶段已经看过测试区域或同源影像，但 benchmark 报告并不总是给出地理/时间去重信息。

3. 代表论文与项目

项目/论文	年份/venue	链接	代码/数据	对 RS-21 的价值
EarthShift: a benchmark for measuring robustness to real-world distribution shifts in Earth observation	2026 arXiv	https://arxiv.org/abs/2605.29330	https://earthshift.github.io/	核心锚点；官方页称覆盖 realistic distribution shifts，论文摘要给出 8 个 GFM、11 任务、5 shift types 和 OOD 平均约 15-20% 下降。
REOBench: Benchmarking Robustness of Earth Observation Foundation Models	2025 NeurIPS D&B / arXiv	https://arxiv.org/abs/2505.16793	https://github.com/lx709/REOBench	关注高分辨率光学遥感下 6 类任务、12 类图像扰动；适合补 EarthShift 的 corruption/perturbation 维度。
PANGAEA: A Global and Inclusive Benchmark for Geospatial Foundation Models	2024/2025 arXiv	https://arxiv.org/abs/2412.04204	https://github.com/VMarsocci/pangaea-bench	指出 GFM 评测 narrow、地理偏向欧美、任务和分辨率覆盖不足；可作为 suite 的多任务基础框架。
Towards a Unified Copernicus Foundation Model for Earth Vision	2025 ICCV oral	https://arxiv.org/abs/2503.11849	https://github.com/zhu-xlab/Copernicus-FM	Copernicus-Bench 覆盖 Sentinel 多任务、多层级应用；适合做 cross-sensor / Sentinel-family shift 的对照。
Parameter Efficient Self-Supervised Geospatial Domain Adaptation	2024 CVPR	https://openaccess.thecvf.com/content/CVPR2024/html/Scheibenreif_Parameter_Efficient_Self-Supervised_Geospatial_Domain_Adaptation_CVPR_2024_paper.html	https://github.com/HSG-AIML/GDA	代表 PEFT/adapter 路线；官方 repo 描述了 SLR adapter、目标域自监督 MIM、再监督微调的三阶段适配。
LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic Segmentation	2021 NeurIPS D&B	https://arxiv.org/abs/2110.08733	https://github.com/Junjue-Wang/LoveDA	虽早于 2024，但仍是 cross-domain urban/rural segmentation 的常用基准，可作为 cross-city/cross-context split 的基础。
Benchmarking Object Detectors under Real-World Distribution Shifts in Satellite Imagery	2025 arXiv	https://arxiv.org/abs/2503.19202	https://github.com/RWGAI/RWDS	专门研究卫星目标检测中的真实空间 domain shift，补足 segmentation 之外的 detection 任务。
WILDS: A Benchmark of in-the-Wild Distribution Shifts	2021 ICML	https://proceedings.mlr.press/v139/koh21a.html	https://wilds.stanford.edu/	非 2024-2026，但其 shift reporting、leaderboard 和 fMoW satellite setting 是 robustness benchmark 设计的重要参照。
Decomposition-based UDA for Remote Sensing Semantic Segmentation	2024 arXiv	https://arxiv.org/abs/2404.04531	https://github.com/sstary/SSRS	代表 2024 segmentation UDA baseline，可纳入 TTA/UDA 对照组。
SegDesicNet: Lightweight Semantic Segmentation with Geo-Coordinate Embeddings for Domain Adaptation	2025 arXiv	https://arxiv.org/abs/2503.08290	待核验	将 geo-coordinate embeddings 用于 UDA，适合作为“坐标是帮助泛化还是造成记忆”的对照。
Domain generalization for semantic segmentation of remote sensing images via vision foundation model fine-tuning	2025 ISPRS JPRS	https://www.sciencedirect.com/science/article/pii/S0924271625003569	https://github.com/mmmll23/GeoSA-BaSA	代表 VFM fine-tuning + domain generalization；注意代码是否已发布需二次核验。

4. Shift taxonomy：建议的 6 类真实偏移

S1 跨城市 / 跨区域

定义：训练城市和测试城市不同，或训练区域与测试区域在城市形态、建筑密度、道路结构、植被覆盖上不同。
候选数据：LoveDA urban/rural、Vaihingen/Potsdam、SpaceNet cities、DeepGlobe/LoveDA transfer。
核心风险：模型学到城市纹理和标注风格，而不是类别本身。
报告指标：ID mIoU、OOD mIoU、relative drop、per-class drop、spatial calibration。

RS-20 Temporal Foundation Model for Cloud/Season Robustness

Sun, 07 Jun 2026 09:19:00 +0800

RS-20 Temporal Foundation Model for Cloud/Season Robustness

细问题：多时相 foundation model 如何对云、缺测和季节变化鲁棒？能否设计一个 masked temporal reconstruction + downstream change/crop mapping 的小论文方案？

1. 方向概述

光学/多光谱遥感时序的关键困难不是“没有时间维度”，而是时间维度经常不干净：云、云影、雪、薄雾、传感器缺测、不同重访周期、物候周期和真实地物变化混在一起。传统做法常用云掩膜、最佳像元合成、插值、时序平滑或单任务云去除，但 foundation model 时代的机会是：把“缺测、遮挡、季节变化”变成预训练任务本身，让模型学会在不完整、多季节、多区域、多传感器序列中形成稳定表示。

本方向可被压成一个很具体的论文问题：

在 Sentinel-2 / HLS 多时相序列中，用真实或模拟云缺测做 masked temporal reconstruction 预训练，是否能同时提升云遮挡条件下的 crop mapping 和真实变化检测，并减少把季节变化误判为变化的错误？

2. 问题由来

遥感时序和普通视频不同。视频帧通常时间间隔密集、同一相机、视角连续；卫星时序是稀疏、不规则、多传感器、多大气条件，而且同一像元的语义可能因物候周期而显著变化。对于 crop mapping，模型必须理解不同作物的物候曲线，而不是只看单期纹理。对于 change detection，模型必须区分真实建设/灾害/砍伐变化与季节性植被变化、云影、观测角和配准误差。

因此，单期 MAE 或普通图像 encoder 不够；只做云去除也不够。更有价值的是把 temporal masking、cloud-aware reconstruction、seasonal contrastive learning 和 downstream robustness 放在同一个评测框架里。

3. 代表论文与项目

论文/项目	年份/venue	链接	代码/模型/数据	与本问题的关系
Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications	2024 arXiv / NASA-IBM	arXiv, NASA NTRS PDF	GitHub, HF 300M	HLS 多时相 MAE，使用 3D spatiotemporal patch embedding、time/geolocation encoding；是本课题最直接基线。
SkySense: A Multi-Modal Remote Sensing Foundation Model	2024 CVPR	CVF, arXiv	GitHub	使用大规模时序遥感数据和 factorized spatiotemporal encoder；说明 temporal sequence 已是 RSFM 核心能力。
SkySense++: A semantic-enhanced multi-modal RSFM for EO	2025 Nature Machine Intelligence	Nature	GitHub	加入语义增强多模态建模，可作为“时序表示 + 语义任务”参照。
Galileo: Learning Global and Local Features in Pretrained Remote Sensing Models	2025 arXiv / OpenReview	arXiv, OpenReview PDF	GitHub, HF	设计为灵活处理不同空间和时间形状的多模态 RS 输入；适合做可变长度/不规则时序基线。
TerraMind: Large-Scale Generative Multimodality for Earth Observation	2025 ICCV/arXiv	arXiv, CVF PDF	GitHub, HF	任意模态生成和 Thinking-in-Modalities 可转化为“缺测时生成辅助模态/时间片”的鲁棒方案。
ChronoEarth-492K	2026 arXiv	arXiv	待确认官方代码/数据	长时间跨度 hyperspectral 时序 benchmark，强调 temporal calibration，可启发长期时序评测。
UniTS: Unified Time Series Generative Model for Remote Sensing	2025 arXiv	arXiv	待确认官方代码	统一时序重建、云去除、语义变化检测、预测；与本课题的生成式预训练目标很接近。
SatSwinMAE: Efficient Autoencoding for Multiscale Time-series Satellite Imagery	2024 arXiv	arXiv	待确认官方代码	3D masked autoencoder + Video Swin，直接支持多尺度时序影像自编码。
SatMAE	2022 NeurIPS, 仍是时间/多光谱 MAE 基线	Project, PDF	项目页	虽早于目标窗口，但 temporal/multispectral MAE 设计仍是所有 2024-2026 方法的重要参照。
Reconstruction of seamless HLS time series via self-supervised learning	2024 RSE	ScienceDirect	论文页	HLS 时序无缝重建与 gap filling 是 masked temporal reconstruction 的应用前身。
AnytimeFormer	2025 RSE	ScienceDirect	论文页	目标是任意时间 reflectance reconstruction；含 SAR-optical 融合，本文只借鉴异步时序重建思想，不把 SAR 作为主线。
RESTORE-DiT	2025 RSE	ScienceDirect	论文页	时序重建/云去除的 diffusion transformer 代表；同样含 SAR-optical，作为生成式重建参照。
AgriFM: A Multi-source Temporal RSFM for Crop Mapping	2025 arXiv	arXiv, HF paper	GitHub planned	面向 crop mapping 的多源长时序 foundation model，适合作为下游农业任务对比。
Spatiotemporal masked pre-training for crop mapping with limited labels	2025 ISPRS JPRS	ScienceDirect	论文页	明确验证 spatiotemporal masking 对低标签 crop mapping 的价值。
SITS-MoCo: Self-supervised pre-training for large-scale crop mapping	2024/2023 ISPRS JPRS	ScienceDirect	GitHub	对 temporal shift、spectral noise、irregular length 做鲁棒表示学习，是 contrastive baseline。

4. 方法脉络

4.1 多时相 MAE 路线

代表：Prithvi-EO-2.0、SatSwinMAE、SatMAE。
核心思想是 mask 掉空间、谱段或时间 patch，让模型重建缺失观测。优点是简单、可扩展，能自然模拟云遮挡和缺测。问题是像素重建质量不一定等价于下游语义鲁棒性，尤其容易学到“平滑插值”而不是物候语义。

RSCaMa：首次将Mamba引入遥感变化描述任务，实现高效时空建模

Mon, 01 Jun 2026 21:15:00 +0800

RSCaMa：首次将Mamba引入遥感变化描述任务，实现高效时空建模

论文解读 | IEEE GRSL 2024 | ESI高被引论文

📄 论文信息

项目	内容
标题	RSCaMa: Remote Sensing Image Change Captioning with State Space Model
作者	Chen-Yang Liu et al.
会议	IEEE Geoscience and Remote Sensing Letters (GRSL) 2024
arXiv	https://arxiv.org/abs/2405.13366
GitHub	https://github.com/Chen-Yang-Liu/RSCaMa
关键词	遥感变化描述、状态空间模型、Mamba、时序建模、多时相遥感

🎯 解决的核心问题

问题背景

遥感图像变化描述（Remote Sensing Image Change Captioning, RSICC）是一项新兴的多模态任务，旨在用自然语言描述多时相遥感图像之间的地表变化。与传统的二元变化检测（仅判断"变/不变"）不同，RSICC需要输出更丰富的语义信息：

变化对象：建筑物、道路、植被等
变化位置：在哪里发生了变化
变化动态：是新增还是消失

现有方法的局限

CNN-based方法：感受野有限，难以捕获长距离时空依赖关系
Transformer-based方法：自注意力机制的二次复杂度导致计算成本高昂，特别是在处理高分辨率遥感图像时
时序建模不足：现有方法多采用简单的双分支结构，缺乏对时序信息的深度交互

核心问题提炼

如何在保持线性计算复杂度的同时，实现双时相遥感图像之间的深度时空交互，从而生成更准确的变化描述？

💡 解决方案

核心创新点1：Temporal-Traversing SSM (TT-SSM)

设计动机： Mamba架构的时间扫描特性与RSICC任务的时序需求存在天然契合。传统SSM采用单向扫描，无法充分利用双时相图像之间的交互信息。

具体实现： TT-SSM采用时间交叉扫描策略，让两个时相的特征在网络中"交错前行"：

ChangeMamba：用状态空间模型革新遥感变化检测

Sun, 31 May 2026 21:58:00 +0800

ChangeMamba：用状态空间模型革新遥感变化检测

论文解读 | IEEE TGRS 2024 | 2026-05-31

📄 论文信息

项目	内容
标题	ChangeMamba: Remote Sensing Change Detection with Spatio-Temporal State Space Model
作者	Hongruixuan Chen, Jian Song, Chengxi Han, Junshi Xia, Naoto Yokoya
会议	IEEE Transactions on Geoscience and Remote Sensing (TGRS) 2024
arXiv	https://arxiv.org/abs/2404.03425
GitHub	https://github.com/ChenHongruixuan/MambaCD
关键词	遥感变化检测、Mamba、状态空间模型、时空建模

🎯 解决的核心问题

问题背景

遥感影像变化检测（Change Detection, CD）是地球观测领域的核心任务之一。想象一下：当你需要快速评估台风过后的建筑损毁情况，或是监测亚马逊雨林的砍伐进度时，传统人工判读方式不仅效率低下，而且容易受主观因素影响。这正是AI模型大显身手的场景——它能自动分析不同时相的卫星或航拍影像，精准定位地表变化。

现有方法的局限

CNN的"近视眼"问题：卷积神经网络受限于有限的感受野，难以捕捉大尺寸遥感影像中的长距离依赖关系。当变化区域跨越较大范围时，CNN容易漏检。
Transformer的"暴饮暴食"问题：虽然Transformer能够建模全局上下文，但其自注意力机制的计算复杂度随图像尺寸呈平方级增长。处理8000×8000像素的卫星影像时，显存消耗惊人。

核心问题提炼

如何设计一种既能高效处理大尺寸遥感影像，又能准确捕捉时空变化信息的网络架构？

💡 解决方案

核心创新点1：引入Mamba架构到遥感变化检测

设计动机：Mamba架构基于状态空间模型（State Space Model, SSM），通过选择性记忆机制，只保留关键信息，实现线性复杂度的全局感知。这就像给变化检测装上了兼具望远镜和显微镜功能的智能眼镜。

具体实现：

ChangeMamba将Mamba架构应用于遥感变化检测，提出了三种网络框架：

MambaBCD：二元变化检测（Binary Change Detection）
MambaSCD：语义变化检测（Semantic Change Detection）
MambaBDA：建筑损坏评估（Building Damage Assessment）

关键细节：

时序变化、跨域泛化与可信评测 - Category - 堂堂一跑堂

TTABC：遥感 VLM 的测试时自适应，先别急着调参

TTABC：遥感 VLM 的测试时自适应，先别急着调参

ShearFuse-UNet：火势蔓延预测不一定要更大模型，方向边界更重要

ShearFuse-UNet：火势蔓延预测不一定要更大模型，方向边界更重要

背景

MaskWAM：遥感时序模型也该预测 mask，而不只是预测影像

MaskWAM：遥感时序模型也该预测 mask，而不只是预测影像

背景

论文/项目

RS-34 Missing-Band Reconstruction vs Robust Adaptation

RS-34 Missing-Band Reconstruction vs Robust Adaptation

摘要

问题由来

代表论文与项目

两条路线

先重建再推理

RS-25 OOD Split Design for Remote Sensing Benchmarks

RS-25 OOD Split Design for Remote Sensing Benchmarks

摘要

代表论文和项目

Split 类型到底测什么

推荐复现实验协议

1. 数据元信息要求

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

1. 结论先行

2. 问题由来

RS-21 EarthShift-Style Robustness Suite

RS-21 EarthShift-Style Robustness Suite

1. 结论先行

2. 问题由来

3. 代表论文与项目

4. Shift taxonomy：建议的 6 类真实偏移

S1 跨城市 / 跨区域

RS-20 Temporal Foundation Model for Cloud/Season Robustness

RS-20 Temporal Foundation Model for Cloud/Season Robustness

1. 方向概述

2. 问题由来

3. 代表论文与项目

4. 方法脉络

4.1 多时相 MAE 路线

RSCaMa：首次将Mamba引入遥感变化描述任务，实现高效时空建模

RSCaMa：首次将Mamba引入遥感变化描述任务，实现高效时空建模

📄 论文信息

🎯 解决的核心问题

问题背景

现有方法的局限

核心问题提炼

💡 解决方案

核心创新点1：Temporal-Traversing SSM (TT-SSM)

ChangeMamba：用状态空间模型革新遥感变化检测

ChangeMamba：用状态空间模型革新遥感变化检测

📄 论文信息

🎯 解决的核心问题

问题背景

现有方法的局限

核心问题提炼

💡 解决方案

核心创新点1：引入Mamba架构到遥感变化检测