RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

WangTong included in category and series 2024-2026 遥感 AI 细分研究方向

2026-06-07 09:21:00 2026-06-07 09:21:00 1138 words 5 minutes

Series - 2024-2026 遥感 AI 细分研究方向

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

1. 结论先行

跨城市遥感语义分割的 TTA 不是“把 TENT 跑一下”这么简单。遥感目标具有强空间自相关、类别长尾、城市/农村类别先验差异、GSD 和成像条件差异；这些因素会让熵最小化、自训练和 BN adaptation 在无标签测试流上发生负迁移。当前 2024-2026 的直接 RS-TTA 工作仍少，更成熟的是两条邻近线：遥感 UDA/source-free/one-shot domain adaptation，以及通用 CV 的 continual TTA / segmentation TTA / uncertainty-aware TTA。

最有价值的小课题是：Uncertainty-Constrained Test-Time Adaptation for Cross-City Remote Sensing Semantic Segmentation。核心假设是：只在可靠像素、可靠 tile 和可靠类别原型上更新少量参数，并用空间一致性、类别先验和回滚机制约束更新，可以减少跨城市 TTA 的 model collapse 和 rare-class forgetting。

2. 问题由来

遥感语义分割常在一个城市、一个传感器或一个采样策略上训练，然后部署到另一个城市。城市之间的差异不是简单色彩变化，而是多因素叠加：

地理景观差异：武汉、南京、长春、Potsdam、Vaihingen 的建筑密度、道路宽度、植被形态不同。
类别先验差异：LoveDA rural 中 agriculture/forest 占比高，urban 中 building/road 占比高；熵最小化容易把主导类越推越强。
空间自相关：一个 1024 tile 中相邻像素高度相关，batch size 看似大，独立样本数其实很低。
边界和小目标：道路、水体边界、建筑阴影、车辆等区域的高不确定性往往正是最重要的区域。
测试流非平稳：真实大范围制图是从城区到郊区、从平原到山地、从晴天到阴影的连续流，单一 target distribution 假设不成立。

LoveDA 本身就是为了 land-cover segmentation 和 UDA 设计的遥感域适配数据集，其 GitHub 说明中也保留了 Semantic Segmentation Challenge 和 UDA Challenge；OpenReview 摘要强调城市级/国家级制图泛化不足。LoveDA 早于本时间窗，但仍是 RS-22 的核心实验场。
链接：LoveDA GitHub，LoveDA OpenReview。

3. 代表论文与项目

3.1 遥感跨域分割：TTA 的背景和上限参考

工作	年份/来源	链接	代码/数据	与 RS-22 的关系
LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic Segmentation	NeurIPS D&B 2021，2025 仍维护	OpenReview	GitHub	核心跨域分割 benchmark；urban/rural 和多城市设置适合构造 cross-city TTA。
One-shot adaptation for cross-domain semantic segmentation in remote sensing images / MOAT	Pattern Recognition 2025	ScienceDirect	论文页未见官方代码	用一个无标签目标图像快速适配，介于 UDA 和 TTA 之间；包含 LoveDA、Potsdam、Vaihingen。
AMDFormer: UDA for RS semantic segmentation with adaptive temperature sampling and modulated dynamic threshold	PRCV 2025，2026 online	Springer	未见官方代码	关注 rare-class sampling 和动态 pseudo-label 阈值；适合作为 TTA 中 class-balanced confidence filter 的启发。
Domain generalization for semantic segmentation of RS images via VFM fine-tuning	ISPRS JPRS 2025	ScienceDirect	GeoSA-BaSA	不是 TTA，但提供 VFM fine-tuning + DG 的强 source-only/domain-generalization baseline。
EarthShift	arXiv 2026	arXiv	Project	真实 distribution shift benchmark；可借鉴报告 OOD drop、worst-domain 和 shift taxonomy。
REOBench	arXiv 2025	arXiv	GitHub	遥感鲁棒性 benchmark；适合扩展 corruption + cross-city 双重 shift。

3.2 通用 TTA / segmentation TTA：可迁移算法库

工作	年份/venue	链接	代码	可迁移模块
Entropy is not Enough for Test-Time Adaptation	ICLR 2024 Spotlight	OpenReview	论文页	直接指出单纯 entropy minimization 不足；支持 RS 中“熵低不等于预测对”的核心风险。
Improved Self-Training for Test-Time Adaptation	CVPR 2024	CVF PDF	论文页	自训练 TTA 的改进路线；可迁移到 pseudo-mask 选择和 teacher-student 更新。
TEA: Test-time Energy Adaptation	CVPR 2024	GitHub	GitHub	energy-based 目标可替代单纯 entropy，适合检测高不确定/分布外 tile。
Active Test-Time Adaptation	ICLR 2024	GitHub	GitHub	将主动学习思想纳入 TTA；遥感可用高风险 tile 请求人工确认或延迟更新。
Efficient Test-Time Adaptation of VLMs / TDA	CVPR 2024	GitHub	GitHub	key-value cache、progressive pseudo-label refinement、negative pseudo-label；可迁移到 RS-CLIP/OV segmentation。
Test-Time Adaptation of VLMs for Open-Vocabulary Semantic Segmentation / MLMP	NeurIPS 2025	GitHub	GitHub	多层特征 + 多 prompt 的 entropy minimization；可作为 open-vocabulary RS segmentation 的 TTA baseline。
ReservoirTTA	arXiv 2025	HF paper	GitHub	长时间测试流、循环/渐变 domain；适合真实跨城市制图流。
Hybrid-TTA	ICCV 2025	GitHub	GitHub	动态 domain shift detection；适合从 urban 到 rural 或不同城市块切换时触发不同更新策略。
RoTTA	CVPR 2023，仍是 2024-2026 TTA 常用基线	arXiv	GitHub	memory bank、robust BN、time-aware reweighting；适合非平稳测试流。
SAR	ICLR 2023，仍是稳定 TTA 常用基线	arXiv	GitHub	sharpness-aware reliable entropy minimization；对抗高噪声样本导致 collapse。

说明：RoTTA 和 SAR 早于 2024，但在 2024-2026 的 TTA 文献中仍是重要基线；RS-22 若做实验应包含它们，否则 TTA 部分不完整。

4. 四类 TTA 策略在遥感跨城市分割中的风险

4.1 BN Adaptation

机制：只更新 BN running statistics 或 affine 参数。优点是简单、计算便宜；缺点是遥感高分辨率 tile 空间自相关强，batch 内像素不是独立样本。

风险：

小 batch 或单 tile 时统计不稳，更新方向受单个区域主导。
rural/urban 之间类别先验差异大，BN 统计可能把语义差异当成风格差异抹掉。
如果模型是 LayerNorm/ViT/SegFormer，BN adaptation 的适用性弱。

适合做 baseline，但不适合作为唯一贡献。

4.2 Entropy Minimization

机制：让模型在目标域预测更 confident。风险在 RS 中尤其明显：低熵可能是模型过度自信，不代表正确。

典型失败：

主导类塌缩：rural tile 中 agriculture 占比高，模型可能把 barren/forest/water 边界吞掉。
rare class 遗忘：小面积 water、road、barren 由于高熵被过滤或被主类覆盖。
边界变差：边界像素天然高熵，强行降熵会造成过度平滑。
城市切换时错误积累：先适配到城市 A 的先验，再进入城市 B 后负迁移。

这与 ICLR 2024 的 “Entropy is not Enough” 给出的总判断一致：entropy 只能反映置信度，不足以刻画可适配因素。

4.3 Self-Training / Pseudo-Labeling

机制：选择高置信伪标签更新模型或 teacher-student。遥感中伪标签质量和空间覆盖很关键。

风险：

confidence threshold 会偏向 easy/head classes。
伪标签错误具有空间连片性，一旦某一地块被错标，会批量污染训练。
不同城市类别比例不同，固定阈值不能适应 domain。
遥感 label 边界本身可能存在错位，伪标签过拟合到错误边界。

可借鉴 AMDFormer 的 rare-class sampling 和动态阈值思想，但要改造成 test-time 版本。

4.4 Prototype Adaptation

机制：为每个类别维护 feature prototype，用目标域预测更新原型并校正分类头。

风险：

prototype contamination：错误伪标签会污染类别中心。
open-set/unknown land-cover：目标城市出现 source 未覆盖地物时，prototype 会被迫吸收未知类。
class imbalance：农业/建筑 prototype 更新多，小类原型陈旧。
多尺度对象：同类建筑在不同 GSD、阴影和密度下可能是多峰分布，单一 prototype 不足。

推荐使用 class-balanced reservoir memory、多原型、uncertainty gating 和源域 anchor。

5. 推荐方法：UCTTA-RS

名称：UCTTA-RS: Uncertainty-Constrained Test-Time Adaptation for Cross-City Remote Sensing Semantic Segmentation

5.1 研究假设

在跨城市遥感测试流中，不确定性约束可以把“可适配样本”和“危险样本”分开：只用低风险像素/tile 更新轻量参数，并对高风险区域保留原模型或请求人工/延迟更新，可以降低负迁移和 rare-class forgetting。

5.2 模型设置

推荐两条模型线并行：

传统分割线：SegFormer-B2/B5、UPerNet-Swin、DeepLabV3+、HRNet。
foundation feature 线：DINOv2/Prithvi/Clay/GeoFM backbone + lightweight segmentation head。

测试时只更新：

BN/Norm affine 参数，或
decoder adapter / LoRA，或
class prototype memory 和 calibration head。

默认冻结主干，防止一次目标城市流把基础特征带偏。

5.3 不确定性约束

对每个像素或 superpixel 计算：

predictive entropy；
test-time augmentation disagreement；
teacher-student disagreement；
prototype distance / margin；
boundary uncertainty；
tile-level energy/OOD score。

只把同时满足以下条件的区域用于更新：

低熵且高 margin；
TTA/augmentation 预测一致；
与源域或目标域类别 prototype 距离合理；
不在高不确定边界区域；
class-balanced reservoir 中该类未过量。

高风险区域不参与梯度，但参与报告和可视化。

5.4 损失函数

L = L_reliable_entropy
  + lambda_p * L_prototype_consistency
  + lambda_s * L_spatial_smooth_boundary_aware
  + lambda_a * L_source_anchor
  + lambda_d * L_class_diversity_prior

其中：

L_reliable_entropy：只对可靠像素做熵最小化。
L_prototype_consistency：目标特征靠近可靠类别原型。
L_spatial_smooth_boundary_aware：在 superpixel/对象内部平滑，在边界处弱化约束。
L_source_anchor：防止目标更新偏离源域类别原型。
L_class_diversity_prior：防止塌缩到农业/建筑等主导类，但 prior 应随 tile 类型动态估计。

5.5 回滚机制

每 N 个 tile 计算无标签健康指标：

平均熵是否异常下降但类别多样性也下降；
高风险区域比例是否持续升高；
prototype drift 是否超过阈值；
source anchor 距离是否突然变大；
TTA disagreement 是否上升。

触发条件满足时，回滚到 EMA teacher 或最近 checkpoint。这一点对真实城市流很重要。

6. 实验矩阵

6.1 数据集与划分

数据集	设置	适合测试的问题
LoveDA	urban -> rural, rural -> urban；进一步按 Nanjing/Changzhou/Wuhan 构造 leave-city-out	城乡和城市域偏移、类别先验变化
ISPRS Potsdam/Vaihingen	Potsdam -> Vaihingen, Vaihingen -> Potsdam	航空 VHR 影像跨城市、GSD/成像条件差异
DeepGlobe Land Cover	按地理区域或 tiles 构造 spatial block / leave-region split	大范围 land-cover OOD
OpenEarthMap	leave-city/leave-region	更丰富地理覆盖，验证泛化
REOBench 扩展	clean -> corruption + city shift	腐蚀扰动和城市偏移叠加

6.2 Baseline

必须包含：

Source-only，无任何适配。
Target supervised upper bound。
BN Adapt。
TENT / entropy minimization。
EATA/SAR/RoTTA/CoTTA 中至少 2 个稳定 TTA baseline。
Improved self-training TTA。
Prototype adaptation baseline。
RS UDA/one-shot upper reference：MOAT、AMDFormer 或同类方法。
VFM/DG baseline：GeoSA-BaSA、DINOv2/Prithvi/Clay frozen + head。

可选：

TEA energy adaptation。
Hybrid-TTA / ReservoirTTA 用于 non-stationary target stream。
MLMP 用于 open-vocabulary segmentation variant。

6.3 指标

任务指标：

mIoU；
per-class IoU；
rare-class IoU；
boundary F1；
urban/rural 或 city-wise mIoU；
worst-domain mIoU；
OOD drop：ID mIoU - OOD mIoU。

可靠性指标：

ECE / adaptive ECE；
NLL / Brier score；
negative transfer rate：适配后低于 source-only 的 tile 比例；
class collapse score：预测类别分布与 source/target 估计 prior 的偏离；
prototype drift；
rollback count。

成本指标：

每 tile 适配时间；
显存；
需不需要 source data；
在线 batch size 敏感性。

6.4 Ablation

Ablation	目的
无 uncertainty filter	验证可靠样本选择是否关键
entropy-only vs energy/prototype/margin	判断哪类不确定性最有效
pixel-level vs superpixel/object-level update	检验空间自相关建模
single prototype vs class-balanced multi-prototype	检验 prototype contamination
with/without source anchor	检验 forgetting 和 collapse
static threshold vs dynamic threshold	检验跨城市稳定性
frozen backbone vs adapter/Norm/head update	检验更新范围
random stream vs spatially ordered stream	检验真实制图流

7. 最小可行实验

第一阶段建议不要一上来做所有数据。最小实验如下：

数据：LoveDA urban -> rural 和 rural -> urban。
模型：SegFormer-B2 source-only。
Baseline：BN Adapt、TENT、SAR、self-training TTA。
方法：UCTTA-RS 只更新 decoder/head adapter + class-balanced prototype memory。
指标：mIoU、per-class IoU、negative transfer rate、ECE、class collapse score。
可视化：每类 prototype drift、适配前后不确定性图、失败 tile。

如果 LoveDA 上能证明“减少负迁移”，再扩展到 Potsdam/Vaihingen 和 DeepGlobe。

8. 可能未来方向

RS-TTA benchmark：把 LoveDA、Potsdam/Vaihingen、DeepGlobe、OpenEarthMap 统一成跨城市测试流，报告平均增益和负迁移率。
Uncertainty-aware rollback：TTA 不一定每次都更新；让模型知道何时不适配。
SAM-assisted TTA：用 SAM/SegEarth-OV 生成对象边界，只在对象内部做 entropy/prototype 更新，减少边界伪标签污染。
GeoFM + TTA：比较从头训练分割模型和 Prithvi/Clay/DINOv2 feature head 在 TTA 下谁更稳定。
Active TTA for RS：把 ATTA 思路用于高风险 tile，请求少量人工点/框/类别确认，而不是无条件自训练。
Non-stationary city stream：用 ReservoirTTA/Hybrid-TTA 思路处理城市内部从商业区、农田、工业区、水体连续切换。
Calibration-first adaptation：先校准置信度，再做伪标签更新；把 ECE 作为主约束而非附属指标。

9. 推荐阅读顺序

LoveDA：理解遥感跨域语义分割的 benchmark。
MOAT / AMDFormer：理解 RS one-shot/UDA 如何处理 LoveDA、Potsdam、Vaihingen。
Entropy is not Enough：理解 entropy minimization 的理论/实证风险。
SAR、RoTTA、Hybrid-TTA、ReservoirTTA：理解动态测试流和稳定性。
TEA、ATTA、Improved Self-Training TTA：补充 energy、active selection、自训练。
EarthShift / REOBench：把评测从单一 target domain 推向真实遥感 shift。

10. 参考链接

LoveDA GitHub: https://github.com/Junjue-Wang/LoveDA
LoveDA OpenReview: https://openreview.net/forum?id=_-O9SefMb99
MOAT / One-shot adaptation for cross-domain semantic segmentation in remote sensing images: https://www.sciencedirect.com/science/article/pii/S0031320325000500
AMDFormer / UDA for RS semantic segmentation: https://link.springer.com/chapter/10.1007/978-981-95-5628-1_34
EarthShift: https://arxiv.org/abs/2605.29330
REOBench: https://arxiv.org/abs/2505.16793
Entropy is not Enough for Test-Time Adaptation: https://openreview.net/forum?id=9w3iw8wDuE
Improved Self-Training for Test-Time Adaptation: https://openaccess.thecvf.com/content/CVPR2024/papers/Ma_Improved_Self-Training_for_Test-Time_Adaptation_CVPR_2024_paper.pdf
TEA: https://github.com/yuanyige/tea
ATTA: https://github.com/divelab/ATTA
TDA: https://github.com/kdiAAA/TDA
MLMP: https://github.com/dosowiechi/MLMP
ReservoirTTA: https://huggingface.co/papers/2505.14511
Hybrid-TTA: https://github.com/hhhyyeee/Hybrid-TTA
RoTTA: https://github.com/BIT-DA/RoTTA
SAR: https://github.com/mr-eggplant/SAR

11. 可投稿小论文雏形

题目候选：Uncertainty-Constrained Test-Time Adaptation for Cross-City Remote Sensing Semantic Segmentation

贡献点：

提出 cross-city RS segmentation 的 realistic TTA protocol，报告 mIoU、ECE 和 negative transfer rate。
提出 reliability-gated entropy/prototype adaptation，只在可信区域更新。
提出 class-balanced prototype reservoir 和 source-anchor rollback，缓解 rare-class forgetting 和 model collapse。
在 LoveDA、Potsdam/Vaihingen、DeepGlobe/OpenEarthMap 上比较 TENT、BN Adapt、SAR、RoTTA、self-training、RS UDA/one-shot adaptation。

风险：

如果 source-only GeoFM 太强，TTA 提升可能小；需要报告 negative transfer 降低和 calibration 改善。
无标签指标可能与真实 mIoU 不完全一致；需要做 oracle analysis。
不同数据集 label taxonomy 不一致，跨数据集实验要先做 label mapping。

第一实验：

LoveDA urban -> rural / rural -> urban，SegFormer-B2，比较 source-only、BN Adapt、TENT、SAR、自训练、UCTTA-RS。若 UCTTA-RS 的平均 mIoU 不一定最高，但 negative transfer rate、rare-class IoU 和 ECE 明显更稳，就已经有论文价值。

Contents

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

1. 结论先行

2. 问题由来

3. 代表论文与项目

3.1 遥感跨域分割：TTA 的背景和上限参考

3.2 通用 TTA / segmentation TTA：可迁移算法库

4. 四类 TTA 策略在遥感跨城市分割中的风险

4.1 BN Adaptation

4.2 Entropy Minimization

4.3 Self-Training / Pseudo-Labeling

4.4 Prototype Adaptation

5. 推荐方法：UCTTA-RS

5.1 研究假设

5.2 模型设置

5.3 不确定性约束

5.4 损失函数

5.5 回滚机制

6. 实验矩阵

6.1 数据集与划分

6.2 Baseline

6.3 指标

6.4 Ablation

7. 最小可行实验

8. 可能未来方向

9. 推荐阅读顺序

10. 参考链接

11. 可投稿小论文雏形

Related Content

评论

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

1. 结论先行

2. 问题由来

3. 代表论文与项目

3.1 遥感跨域分割：TTA 的背景和上限参考

3.2 通用 TTA / segmentation TTA：可迁移算法库

4. 四类 TTA 策略在遥感跨城市分割中的风险

4.1 BN Adaptation

4.2 Entropy Minimization

4.3 Self-Training / Pseudo-Labeling

4.4 Prototype Adaptation

5. 推荐方法：UCTTA-RS

5.1 研究假设

5.2 模型设置

5.3 不确定性约束

5.4 损失函数

5.5 回滚机制

6. 实验矩阵

6.1 数据集与划分

6.2 Baseline

6.3 指标

6.4 Ablation

7. 最小可行实验

8. 可能未来方向

9. 推荐阅读顺序

10. 参考链接

11. 可投稿小论文雏形

Related Content

RS-25 OOD Split Design for Remote Sensing Benchmarks

RS-24 Cross-Sensor Missing-Band Adaptation

RS-23 Uncertainty-Calibrated Large-Scale Mapping

RS-21 EarthShift-Style Robustness Suite

评论