不确定性 - Tag - 堂堂一跑堂

RS-25 OOD Split Design for Remote Sensing Benchmarks

Sun, 07 Jun 2026 09:24:00 +0800

RS-25 OOD Split Design for Remote Sensing Benchmarks

默认范围：光学/多光谱/高分辨率遥感为主；不把 SAR-only 作为主线。

摘要

遥感 benchmark 的最大风险是“随机划分高分，真实部署掉分”。影像瓦片具有强空间自相关，同一区域相邻 patch、同一城市不同裁片、同一季节同一传感器采样出来的数据，常常让训练集和测试集在纹理、建筑形态、植被物候、成像条件上高度相似。OOD split 的研究价值在于把这种相似性有意打散，分别测试模型面对新地理区域、新时间窗口、新传感器、新空间分辨率和新数据源时是否仍可靠。

2024-2026 的趋势很明确：PANGAEA 和 PhilEO Bench 试图统一 GeoFM 评测；REOBench 开始系统评估高分辨率光学任务在真实扰动下的鲁棒性；EarthShift 进一步把 OOD 从“单一 corruption”推进到 location、temporal、sensor、scale、data-source 等真实分布偏移；RWDS 专门把卫星目标检测放到真实空间域偏移下评测；Distribution Shifts at Scale/TARDIS 则关注如何在部署阶段检测 ID/OOD。

代表论文和项目

项目	年份/来源	链接	代码/数据	与 OOD split 的关系
EarthShift: a benchmark for measuring robustness to real-world distribution shifts in Earth observation	2026 arXiv	paper, project	GitHub	明确覆盖 location、temporal、sensor、scale、data-source shift；适合作为 RS OOD split 的总框架。
PANGAEA: A Global and Inclusive Benchmark for Geospatial Foundation Models	2024 arXiv / 2025 rev.	paper	GitHub	标准化多任务、多分辨率、多传感器、多时相 GeoFM 评测；提醒单一地区/任务评测过窄。
PhilEO Bench: Evaluating Geo-Spatial Foundation Models	2024 IGARSS/arXiv	paper, project	HF	全球 stratified Sentinel-2 benchmark，支持 n-shot 和统一测试框架；可借鉴地理分层采样。
REOBench: Benchmarking Robustness of Earth Observation Foundation Models	2025 arXiv	paper	GitHub, HF	高分辨率光学影像 6 类任务、12 类扰动；不是严格 geographic OOD，但适合做 corruption OOD 辅助维度。
Benchmarking Object Detectors under Real-World Distribution Shifts in Satellite Imagery	2025 CVPR	paper, CVF	GitHub	RWDS 针对卫星目标检测构造真实 DG benchmark，重点是气候区、灾害类型、地理区域 shift。
Distribution Shifts at Scale: Out-of-distribution Detection in Earth Observation	2024 arXiv / 2025 CVPRW EarthVision	paper, CVF	GitHub	TARDIS 在 EuroSAT、xBD 和 Fields of the World 上做 covariate/semantic shift OOD 检测；适合部署时发现 split 外样本。
Analysing Satellite Imagery Classification under Spatial Domain Shift across Geographic Regions	2025 IJCV	paper	GitHub	构造 DSGR 大规模区域域偏移分类数据集，直接针对跨地理区域空间 domain shift。

Split 类型到底测什么

Split	设计方式	测到的能力	容易误判的地方	适用任务
Random split	在 image/patch 级随机划分	同分布插值、模型拟合能力、常规训练稳定性	空间泄漏严重；相邻 patch 可同时进入 train/test；高分不代表可部署	sanity check、debug、低风险基线
Spatial block split	按空间网格或 buffer 后的地理块划分	局部空间自相关之外的泛化；接近真实制图部署	block 太小仍泄漏；block 太大可能导致类别缺失	land cover、road/building segmentation、crop mapping
Leave-city-out	按城市/区域训练，留一个或多个城市测试	城市形态、建筑风格、道路结构、采集条件迁移	城市标签粒度不一；训练城市数量少时方差大	VHR semantic segmentation、building/road extraction、urban detection
Leave-country-out / leave-region-out	按国家、大洲、生态区、气候带留出	大尺度地理、社会经济、气候和景观差异	类别先验变化会混入 semantic shift；需报告类别覆盖	global land cover、crop、settlement、population proxy
Leave-season-out / temporal split	按月份、季节、年份、灾前灾后窗口划分	物候、季节、太阳高度、云影、灾害时序迁移	若地点完全相同，仍可能记住地理纹理；需和 spatial split 组合	crop mapping、change detection、flood/wildfire、phenology
Leave-sensor-out	训练传感器 A，测试传感器 B	光谱响应、GSD、噪声、辐射定标差异	传感器 shift 常和分辨率/时间/地区混在一起	multispectral/hyperspectral、GeoFM adapter、cloud/flood mapping
Leave-GSD/resolution-out	按空间分辨率或重采样尺度划分	尺度鲁棒性、小目标尺度理解	人工重采样不等于真实传感器；需区分 native GSD 与 resampled GSD	detection、segmentation、VLM grounding、大图推理
Leave-data-source-out	训练数据源/供应商/标注规范 A，测试 B	标注规范、影像处理链、数据提供方差异	很难判断是 label shift 还是 image shift	多源 benchmark、GeoFM 评测、地图产品迁移
Corruption split	对 test 注入 haze/blur/noise/rotation/scale 等扰动	成像/环境扰动和几何扰动鲁棒性	不等同真实 geographic OOD；可作为补充	REOBench 风格多任务鲁棒性评测

RS-24 Cross-Sensor Missing-Band Adaptation

Sun, 07 Jun 2026 09:23:00 +0800

RS-24 Cross-Sensor Missing-Band Adaptation

1. 核心判断

跨传感器 missing-band adaptation 正在从“把不同传感器重采样到同一组固定 band”转向“让模型显式理解每个 band 的物理含义”。2024-2026 的代表路线包括：

波长/传感器条件化：DOFA、Any-Optical-Model、HyperFree、SpecAware、Panopticon 用 wavelength/band embedding、动态 embedding、hypernetwork 或 channel-adaptive prompt 处理可变 band。
缺失 band 鲁棒预训练：LESSViT、AnyBand-Diff、AOM 通过 channel-agnostic patch embedding、hierarchical channel sampling、masked conditional diffusion 或 channel-wise reconstruction 直接模拟 band 缺失。
跨传感器共址学习：SpectralEarth-FM、msGFM 类工作用同一区域的 HSI/MSI/Landsat/Sentinel 等共址数据做 JEPA/contrastive/masked pretraining，让不同传感器对齐到共享语义空间。
物理先验约束：PhySwin 和 AnyBand-Diff 提醒我们，遥感不是普通多通道图片；反射率范围、光谱连续性、指数保持、辐射一致性都可以成为训练约束。

最值得做的小课题不是再堆一个大模型，而是：把完整 SRF 曲线、band dropout 和跨传感器共址蒸馏结合起来，做一个可复现的 missing-band / cross-sensor adapter protocol。

2. 问题由来

自然图像模型默认 RGB 三通道且语义稳定；遥感光学传感器则不同：

Band layout 不同：Sentinel-2 有 13 个 band，Landsat/HLS band 设置不同，Planet/NAIP 更偏 RGB/NIR，高光谱 EnMAP/EMIT/DESIS 可有上百个窄 band。
SRF 不同：即使两个传感器都叫 red/NIR，中心波长、带宽、响应曲线也不同。用 band name 对齐会丢掉物理差异。
缺失 band 是常态：业务中常遇到传感器缺 band、云污染、坏线、只下载部分 band、历史数据 band 不全、模型训练时的 band 配置与部署时不同。
空间分辨率耦合：Sentinel-2 的 10/20/60m band 不能简单当作同分辨率通道；跨传感器时还会同时变化 GSD。
标注稀缺与区域偏差：高光谱/多光谱下游标签少，模型容易只在某个传感器和区域内有效。

因此，跨传感器适配的本质不是“补几个通道”，而是学习一个函数：在输入传感器、SRF、可用 band、空间分辨率和地理场景变化时，模型仍能保留稳定地物语义与光谱物理一致性。

RS-23 Uncertainty-Calibrated Large-Scale Mapping

Sun, 07 Jun 2026 09:22:00 +0800

RS-23 Uncertainty-Calibrated Large-Scale Mapping

摘要

大范围遥感制图的核心问题不是只把 mIoU、F1 或 RMSE 做高，而是让地图产品知道“哪里可靠、哪里不可靠、为什么不可靠”。2024-2026 的相关工作正在把 conformal prediction、spatial calibration、Bayesian/ensemble uncertainty、neural processes 和 geospatial foundation model embeddings 放到一起。最值得做的小课题是：在 land cover、森林属性、生物量或灾害制图中，构造一个空间感知的不确定性校准协议，让模型在跨区域、跨生态区和跨传感器时仍能给出可信的 prediction set 或 prediction interval。

问题由来

遥感制图天然具有空间自相关。普通深度模型往往把每个像素或 patch 当成独立样本，输出 softmax probability 后直接解释为置信度；但在真实部署里，误差会沿地形、城市形态、生态区、季节和传感器成片出现。一个模型在测试集总体精度很高，并不意味着它在某个山区、云影边缘或少数土地覆盖类型上可靠。

不确定性校准要回答三个具体问题：

预测概率是否能对应真实正确率。
模型能否给出覆盖率可控的类别集合或连续区间。
这种覆盖率在空间分组、生态区、GSD、传感器和长尾类别上是否仍成立。

代表论文与资源

工作	年份	链接	价值
Assessing Predictive Uncertainties in Remote Sensing Image Classification via Conformal Prediction	2024	DLR entry	将 conformal prediction 引入遥感分类不确定性，适合作为分类基线。
Uncertainty quantification for forest attribute maps with conformal prediction and k-nearest neighbor method	2025 RSE	ScienceDirect	面向森林属性图的不确定性区间，说明传统遥感制图也需要覆盖率保证。
Interpolation of GEDI Biomass Estimates with Calibrated Uncertainty Quantification	2026	arXiv summary	用 local observation sets 和 GeoFM embeddings 改善生物量估计的校准。
Calibrated spatial uncertainty for Earth observation	2026	EarthArXiv PDF	强调空间依赖、Matérn covariance 和 foundation model 特征下的空间不确定性。
EarthShift	2026	Project, arXiv	提供真实 distribution shift 场景，可作为校准 OOD benchmark。
Prithvi-EO-2.0	2024	GitHub	可作为 frozen GeoFM backbone，测试不确定性头。
AlphaEarth Foundations	2025	Google Research	年度 embedding field 适合做大范围制图和空间公平性误差分析。

方法脉络

Softmax/ensemble calibration

最小基线是 temperature scaling、deep ensemble、MC dropout 和 test-time augmentation。它们容易实现，但常把模型方差误当成数据噪声，在跨区域部署时会过度自信。

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

Sun, 07 Jun 2026 09:21:00 +0800

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

1. 结论先行

跨城市遥感语义分割的 TTA 不是“把 TENT 跑一下”这么简单。遥感目标具有强空间自相关、类别长尾、城市/农村类别先验差异、GSD 和成像条件差异；这些因素会让熵最小化、自训练和 BN adaptation 在无标签测试流上发生负迁移。当前 2024-2026 的直接 RS-TTA 工作仍少，更成熟的是两条邻近线：遥感 UDA/source-free/one-shot domain adaptation，以及通用 CV 的 continual TTA / segmentation TTA / uncertainty-aware TTA。

最有价值的小课题是：Uncertainty-Constrained Test-Time Adaptation for Cross-City Remote Sensing Semantic Segmentation。核心假设是：只在可靠像素、可靠 tile 和可靠类别原型上更新少量参数，并用空间一致性、类别先验和回滚机制约束更新，可以减少跨城市 TTA 的 model collapse 和 rare-class forgetting。

2. 问题由来

遥感语义分割常在一个城市、一个传感器或一个采样策略上训练，然后部署到另一个城市。城市之间的差异不是简单色彩变化，而是多因素叠加：

地理景观差异：武汉、南京、长春、Potsdam、Vaihingen 的建筑密度、道路宽度、植被形态不同。
类别先验差异：LoveDA rural 中 agriculture/forest 占比高，urban 中 building/road 占比高；熵最小化容易把主导类越推越强。
空间自相关：一个 1024 tile 中相邻像素高度相关，batch size 看似大，独立样本数其实很低。
边界和小目标：道路、水体边界、建筑阴影、车辆等区域的高不确定性往往正是最重要的区域。
测试流非平稳：真实大范围制图是从城区到郊区、从平原到山地、从晴天到阴影的连续流，单一 target distribution 假设不成立。

LoveDA 本身就是为了 land-cover segmentation 和 UDA 设计的遥感域适配数据集，其 GitHub 说明中也保留了 Semantic Segmentation Challenge 和 UDA Challenge；OpenReview 摘要强调城市级/国家级制图泛化不足。LoveDA 早于本时间窗，但仍是 RS-22 的核心实验场。
链接：LoveDA GitHub，LoveDA OpenReview。

RS-21 EarthShift-Style Robustness Suite

Sun, 07 Jun 2026 09:20:00 +0800

RS-21 EarthShift-Style Robustness Suite

细问题：以 EarthShift 为核心，设计一个遥感模型真实分布偏移评测套件，覆盖跨城市、跨国家、跨气候带、跨季节、跨 GSD、跨传感器，比较 GeoFM、传统监督模型、TTA 方法，并提出报告模板。
范围：光学/多光谱遥感优先；不把 SAR-only 设置作为主线。若某 benchmark 含 SAR 或多模态，只保留可用光学/多光谱任务或标注为 mixed-modality。

1. 结论先行

EarthShift 把 2024-2026 GeoFM 评测里最关键的问题挑明了：当前大量遥感 benchmark 主要测的是 in-distribution performance，但真实部署经常遇到新的时间窗口、地理区域、空间尺度和传感器。EarthShift 官方页说明其覆盖 5 类 shift、11 个任务和 8 个 geospatial foundation models；论文摘要报告 GFMs 在 OOD 上平均约 15-20% 性能下降，并且这种下降不因模型结构、尺寸、预训练或微调策略而自然消失。

因此，一个可投稿的小方向不是“再做一个平均精度更高的 GeoFM”，而是做一个更可解释、更可诊断、更贴近部署的 robustness suite：明确每类 shift 的因果来源，区分模型能力、数据泄漏、传感器差异和标签体系变化，并把结果报告成性能、鲁棒性、校准、效率和失败类型的组合。

2. 问题由来

遥感数据的分布偏移比自然图像更“结构化”：

地理偏移：同一类建筑、道路、农田、水体在不同城市、国家、气候带中的纹理和上下文不同。
时间偏移：季节、作物物候、施工进度、灾害前后、传感器重访周期都会改变表观。
尺度偏移：GSD 改变后，同一对象的像素大小和局部纹理完全不同。
传感器偏移：Sentinel-2、Landsat、Planet、NAIP、航空 RGB、无人机影像的谱段、响应函数、噪声和分辨率不同。
标注/任务偏移：land cover、land use、object、parcel-level label、行政产品标签之间语义不完全一致。

传统随机划分会高估模型泛化能力，因为相邻瓦片、同一城市、同一季节、同一传感器的数据往往同时进入训练和测试。GeoFM 的大规模预训练进一步放大了这个问题：模型可能在预训练阶段已经看过测试区域或同源影像，但 benchmark 报告并不总是给出地理/时间去重信息。

3. 代表论文与项目

项目/论文	年份/venue	链接	代码/数据	对 RS-21 的价值
EarthShift: a benchmark for measuring robustness to real-world distribution shifts in Earth observation	2026 arXiv	https://arxiv.org/abs/2605.29330	https://earthshift.github.io/	核心锚点；官方页称覆盖 realistic distribution shifts，论文摘要给出 8 个 GFM、11 任务、5 shift types 和 OOD 平均约 15-20% 下降。
REOBench: Benchmarking Robustness of Earth Observation Foundation Models	2025 NeurIPS D&B / arXiv	https://arxiv.org/abs/2505.16793	https://github.com/lx709/REOBench	关注高分辨率光学遥感下 6 类任务、12 类图像扰动；适合补 EarthShift 的 corruption/perturbation 维度。
PANGAEA: A Global and Inclusive Benchmark for Geospatial Foundation Models	2024/2025 arXiv	https://arxiv.org/abs/2412.04204	https://github.com/VMarsocci/pangaea-bench	指出 GFM 评测 narrow、地理偏向欧美、任务和分辨率覆盖不足；可作为 suite 的多任务基础框架。
Towards a Unified Copernicus Foundation Model for Earth Vision	2025 ICCV oral	https://arxiv.org/abs/2503.11849	https://github.com/zhu-xlab/Copernicus-FM	Copernicus-Bench 覆盖 Sentinel 多任务、多层级应用；适合做 cross-sensor / Sentinel-family shift 的对照。
Parameter Efficient Self-Supervised Geospatial Domain Adaptation	2024 CVPR	https://openaccess.thecvf.com/content/CVPR2024/html/Scheibenreif_Parameter_Efficient_Self-Supervised_Geospatial_Domain_Adaptation_CVPR_2024_paper.html	https://github.com/HSG-AIML/GDA	代表 PEFT/adapter 路线；官方 repo 描述了 SLR adapter、目标域自监督 MIM、再监督微调的三阶段适配。
LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic Segmentation	2021 NeurIPS D&B	https://arxiv.org/abs/2110.08733	https://github.com/Junjue-Wang/LoveDA	虽早于 2024，但仍是 cross-domain urban/rural segmentation 的常用基准，可作为 cross-city/cross-context split 的基础。
Benchmarking Object Detectors under Real-World Distribution Shifts in Satellite Imagery	2025 arXiv	https://arxiv.org/abs/2503.19202	https://github.com/RWGAI/RWDS	专门研究卫星目标检测中的真实空间 domain shift，补足 segmentation 之外的 detection 任务。
WILDS: A Benchmark of in-the-Wild Distribution Shifts	2021 ICML	https://proceedings.mlr.press/v139/koh21a.html	https://wilds.stanford.edu/	非 2024-2026，但其 shift reporting、leaderboard 和 fMoW satellite setting 是 robustness benchmark 设计的重要参照。
Decomposition-based UDA for Remote Sensing Semantic Segmentation	2024 arXiv	https://arxiv.org/abs/2404.04531	https://github.com/sstary/SSRS	代表 2024 segmentation UDA baseline，可纳入 TTA/UDA 对照组。
SegDesicNet: Lightweight Semantic Segmentation with Geo-Coordinate Embeddings for Domain Adaptation	2025 arXiv	https://arxiv.org/abs/2503.08290	待核验	将 geo-coordinate embeddings 用于 UDA，适合作为“坐标是帮助泛化还是造成记忆”的对照。
Domain generalization for semantic segmentation of remote sensing images via vision foundation model fine-tuning	2025 ISPRS JPRS	https://www.sciencedirect.com/science/article/pii/S0924271625003569	https://github.com/mmmll23/GeoSA-BaSA	代表 VFM fine-tuning + domain generalization；注意代码是否已发布需二次核验。

4. Shift taxonomy：建议的 6 类真实偏移

S1 跨城市 / 跨区域

定义：训练城市和测试城市不同，或训练区域与测试区域在城市形态、建筑密度、道路结构、植被覆盖上不同。
候选数据：LoveDA urban/rural、Vaihingen/Potsdam、SpaceNet cities、DeepGlobe/LoveDA transfer。
核心风险：模型学到城市纹理和标注风格，而不是类别本身。
报告指标：ID mIoU、OOD mIoU、relative drop、per-class drop、spatial calibration。

不确定性 - Tag - 堂堂一跑堂

RS-25 OOD Split Design for Remote Sensing Benchmarks

RS-25 OOD Split Design for Remote Sensing Benchmarks

摘要

代表论文和项目

Split 类型到底测什么

推荐复现实验协议

1. 数据元信息要求

RS-24 Cross-Sensor Missing-Band Adaptation

RS-24 Cross-Sensor Missing-Band Adaptation

1. 核心判断

2. 问题由来

RS-23 Uncertainty-Calibrated Large-Scale Mapping

RS-23 Uncertainty-Calibrated Large-Scale Mapping

摘要

问题由来

代表论文与资源

方法脉络

Softmax/ensemble calibration

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

1. 结论先行

2. 问题由来

RS-21 EarthShift-Style Robustness Suite

RS-21 EarthShift-Style Robustness Suite

1. 结论先行

2. 问题由来

3. 代表论文与项目

4. Shift taxonomy：建议的 6 类真实偏移

S1 跨城市 / 跨区域