RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation
RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation
1. 结论先行
跨城市遥感语义分割的 TTA 不是“把 TENT 跑一下”这么简单。遥感目标具有强空间自相关、类别长尾、城市/农村类别先验差异、GSD 和成像条件差异;这些因素会让熵最小化、自训练和 BN adaptation 在无标签测试流上发生负迁移。当前 2024-2026 的直接 RS-TTA 工作仍少,更成熟的是两条邻近线:遥感 UDA/source-free/one-shot domain adaptation,以及通用 CV 的 continual TTA / segmentation TTA / uncertainty-aware TTA。
最有价值的小课题是:Uncertainty-Constrained Test-Time Adaptation for Cross-City Remote Sensing Semantic Segmentation。核心假设是:只在可靠像素、可靠 tile 和可靠类别原型上更新少量参数,并用空间一致性、类别先验和回滚机制约束更新,可以减少跨城市 TTA 的 model collapse 和 rare-class forgetting。
2. 问题由来
遥感语义分割常在一个城市、一个传感器或一个采样策略上训练,然后部署到另一个城市。城市之间的差异不是简单色彩变化,而是多因素叠加:
- 地理景观差异:武汉、南京、长春、Potsdam、Vaihingen 的建筑密度、道路宽度、植被形态不同。
- 类别先验差异:LoveDA rural 中 agriculture/forest 占比高,urban 中 building/road 占比高;熵最小化容易把主导类越推越强。
- 空间自相关:一个 1024 tile 中相邻像素高度相关,batch size 看似大,独立样本数其实很低。
- 边界和小目标:道路、水体边界、建筑阴影、车辆等区域的高不确定性往往正是最重要的区域。
- 测试流非平稳:真实大范围制图是从城区到郊区、从平原到山地、从晴天到阴影的连续流,单一 target distribution 假设不成立。
LoveDA 本身就是为了 land-cover segmentation 和 UDA 设计的遥感域适配数据集,其 GitHub 说明中也保留了 Semantic Segmentation Challenge 和 UDA Challenge;OpenReview 摘要强调城市级/国家级制图泛化不足。LoveDA 早于本时间窗,但仍是 RS-22 的核心实验场。
链接:LoveDA GitHub,LoveDA OpenReview。
3. 代表论文与项目
3.1 遥感跨域分割:TTA 的背景和上限参考
| 工作 | 年份/来源 | 链接 | 代码/数据 | 与 RS-22 的关系 |
|---|---|---|---|---|
| LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic Segmentation | NeurIPS D&B 2021,2025 仍维护 | OpenReview | GitHub | 核心跨域分割 benchmark;urban/rural 和多城市设置适合构造 cross-city TTA。 |
| One-shot adaptation for cross-domain semantic segmentation in remote sensing images / MOAT | Pattern Recognition 2025 | ScienceDirect | 论文页未见官方代码 | 用一个无标签目标图像快速适配,介于 UDA 和 TTA 之间;包含 LoveDA、Potsdam、Vaihingen。 |
| AMDFormer: UDA for RS semantic segmentation with adaptive temperature sampling and modulated dynamic threshold | PRCV 2025,2026 online | Springer | 未见官方代码 | 关注 rare-class sampling 和动态 pseudo-label 阈值;适合作为 TTA 中 class-balanced confidence filter 的启发。 |
| Domain generalization for semantic segmentation of RS images via VFM fine-tuning | ISPRS JPRS 2025 | ScienceDirect | GeoSA-BaSA | 不是 TTA,但提供 VFM fine-tuning + DG 的强 source-only/domain-generalization baseline。 |
| EarthShift | arXiv 2026 | arXiv | Project | 真实 distribution shift benchmark;可借鉴报告 OOD drop、worst-domain 和 shift taxonomy。 |
| REOBench | arXiv 2025 | arXiv | GitHub | 遥感鲁棒性 benchmark;适合扩展 corruption + cross-city 双重 shift。 |
3.2 通用 TTA / segmentation TTA:可迁移算法库
| 工作 | 年份/venue | 链接 | 代码 | 可迁移模块 |
|---|---|---|---|---|
| Entropy is not Enough for Test-Time Adaptation | ICLR 2024 Spotlight | OpenReview | 论文页 | 直接指出单纯 entropy minimization 不足;支持 RS 中“熵低不等于预测对”的核心风险。 |
| Improved Self-Training for Test-Time Adaptation | CVPR 2024 | CVF PDF | 论文页 | 自训练 TTA 的改进路线;可迁移到 pseudo-mask 选择和 teacher-student 更新。 |
| TEA: Test-time Energy Adaptation | CVPR 2024 | GitHub | GitHub | energy-based 目标可替代单纯 entropy,适合检测高不确定/分布外 tile。 |
| Active Test-Time Adaptation | ICLR 2024 | GitHub | GitHub | 将主动学习思想纳入 TTA;遥感可用高风险 tile 请求人工确认或延迟更新。 |
| Efficient Test-Time Adaptation of VLMs / TDA | CVPR 2024 | GitHub | GitHub | key-value cache、progressive pseudo-label refinement、negative pseudo-label;可迁移到 RS-CLIP/OV segmentation。 |
| Test-Time Adaptation of VLMs for Open-Vocabulary Semantic Segmentation / MLMP | NeurIPS 2025 | GitHub | GitHub | 多层特征 + 多 prompt 的 entropy minimization;可作为 open-vocabulary RS segmentation 的 TTA baseline。 |
| ReservoirTTA | arXiv 2025 | HF paper | GitHub | 长时间测试流、循环/渐变 domain;适合真实跨城市制图流。 |
| Hybrid-TTA | ICCV 2025 | GitHub | GitHub | 动态 domain shift detection;适合从 urban 到 rural 或不同城市块切换时触发不同更新策略。 |
| RoTTA | CVPR 2023,仍是 2024-2026 TTA 常用基线 | arXiv | GitHub | memory bank、robust BN、time-aware reweighting;适合非平稳测试流。 |
| SAR | ICLR 2023,仍是稳定 TTA 常用基线 | arXiv | GitHub | sharpness-aware reliable entropy minimization;对抗高噪声样本导致 collapse。 |
说明:RoTTA 和 SAR 早于 2024,但在 2024-2026 的 TTA 文献中仍是重要基线;RS-22 若做实验应包含它们,否则 TTA 部分不完整。
4. 四类 TTA 策略在遥感跨城市分割中的风险
4.1 BN Adaptation
机制:只更新 BN running statistics 或 affine 参数。优点是简单、计算便宜;缺点是遥感高分辨率 tile 空间自相关强,batch 内像素不是独立样本。
风险:
- 小 batch 或单 tile 时统计不稳,更新方向受单个区域主导。
- rural/urban 之间类别先验差异大,BN 统计可能把语义差异当成风格差异抹掉。
- 如果模型是 LayerNorm/ViT/SegFormer,BN adaptation 的适用性弱。
适合做 baseline,但不适合作为唯一贡献。
4.2 Entropy Minimization
机制:让模型在目标域预测更 confident。风险在 RS 中尤其明显:低熵可能是模型过度自信,不代表正确。
典型失败:
- 主导类塌缩:rural tile 中 agriculture 占比高,模型可能把 barren/forest/water 边界吞掉。
- rare class 遗忘:小面积 water、road、barren 由于高熵被过滤或被主类覆盖。
- 边界变差:边界像素天然高熵,强行降熵会造成过度平滑。
- 城市切换时错误积累:先适配到城市 A 的先验,再进入城市 B 后负迁移。
这与 ICLR 2024 的 “Entropy is not Enough” 给出的总判断一致:entropy 只能反映置信度,不足以刻画可适配因素。
4.3 Self-Training / Pseudo-Labeling
机制:选择高置信伪标签更新模型或 teacher-student。遥感中伪标签质量和空间覆盖很关键。
风险:
- confidence threshold 会偏向 easy/head classes。
- 伪标签错误具有空间连片性,一旦某一地块被错标,会批量污染训练。
- 不同城市类别比例不同,固定阈值不能适应 domain。
- 遥感 label 边界本身可能存在错位,伪标签过拟合到错误边界。
可借鉴 AMDFormer 的 rare-class sampling 和动态阈值思想,但要改造成 test-time 版本。
4.4 Prototype Adaptation
机制:为每个类别维护 feature prototype,用目标域预测更新原型并校正分类头。
风险:
- prototype contamination:错误伪标签会污染类别中心。
- open-set/unknown land-cover:目标城市出现 source 未覆盖地物时,prototype 会被迫吸收未知类。
- class imbalance:农业/建筑 prototype 更新多,小类原型陈旧。
- 多尺度对象:同类建筑在不同 GSD、阴影和密度下可能是多峰分布,单一 prototype 不足。
推荐使用 class-balanced reservoir memory、多原型、uncertainty gating 和源域 anchor。
5. 推荐方法:UCTTA-RS
名称:UCTTA-RS: Uncertainty-Constrained Test-Time Adaptation for Cross-City Remote Sensing Semantic Segmentation
5.1 研究假设
在跨城市遥感测试流中,不确定性约束可以把“可适配样本”和“危险样本”分开:只用低风险像素/tile 更新轻量参数,并对高风险区域保留原模型或请求人工/延迟更新,可以降低负迁移和 rare-class forgetting。
5.2 模型设置
推荐两条模型线并行:
- 传统分割线:SegFormer-B2/B5、UPerNet-Swin、DeepLabV3+、HRNet。
- foundation feature 线:DINOv2/Prithvi/Clay/GeoFM backbone + lightweight segmentation head。
测试时只更新:
- BN/Norm affine 参数,或
- decoder adapter / LoRA,或
- class prototype memory 和 calibration head。
默认冻结主干,防止一次目标城市流把基础特征带偏。
5.3 不确定性约束
对每个像素或 superpixel 计算:
- predictive entropy;
- test-time augmentation disagreement;
- teacher-student disagreement;
- prototype distance / margin;
- boundary uncertainty;
- tile-level energy/OOD score。
只把同时满足以下条件的区域用于更新:
- 低熵且高 margin;
- TTA/augmentation 预测一致;
- 与源域或目标域类别 prototype 距离合理;
- 不在高不确定边界区域;
- class-balanced reservoir 中该类未过量。
高风险区域不参与梯度,但参与报告和可视化。
5.4 损失函数
L = L_reliable_entropy
+ lambda_p * L_prototype_consistency
+ lambda_s * L_spatial_smooth_boundary_aware
+ lambda_a * L_source_anchor
+ lambda_d * L_class_diversity_prior其中:
L_reliable_entropy:只对可靠像素做熵最小化。L_prototype_consistency:目标特征靠近可靠类别原型。L_spatial_smooth_boundary_aware:在 superpixel/对象内部平滑,在边界处弱化约束。L_source_anchor:防止目标更新偏离源域类别原型。L_class_diversity_prior:防止塌缩到农业/建筑等主导类,但 prior 应随 tile 类型动态估计。
5.5 回滚机制
每 N 个 tile 计算无标签健康指标:
- 平均熵是否异常下降但类别多样性也下降;
- 高风险区域比例是否持续升高;
- prototype drift 是否超过阈值;
- source anchor 距离是否突然变大;
- TTA disagreement 是否上升。
触发条件满足时,回滚到 EMA teacher 或最近 checkpoint。这一点对真实城市流很重要。
6. 实验矩阵
6.1 数据集与划分
| 数据集 | 设置 | 适合测试的问题 |
|---|---|---|
| LoveDA | urban -> rural, rural -> urban;进一步按 Nanjing/Changzhou/Wuhan 构造 leave-city-out | 城乡和城市域偏移、类别先验变化 |
| ISPRS Potsdam/Vaihingen | Potsdam -> Vaihingen, Vaihingen -> Potsdam | 航空 VHR 影像跨城市、GSD/成像条件差异 |
| DeepGlobe Land Cover | 按地理区域或 tiles 构造 spatial block / leave-region split | 大范围 land-cover OOD |
| OpenEarthMap | leave-city/leave-region | 更丰富地理覆盖,验证泛化 |
| REOBench 扩展 | clean -> corruption + city shift | 腐蚀扰动和城市偏移叠加 |
6.2 Baseline
必须包含:
- Source-only,无任何适配。
- Target supervised upper bound。
- BN Adapt。
- TENT / entropy minimization。
- EATA/SAR/RoTTA/CoTTA 中至少 2 个稳定 TTA baseline。
- Improved self-training TTA。
- Prototype adaptation baseline。
- RS UDA/one-shot upper reference:MOAT、AMDFormer 或同类方法。
- VFM/DG baseline:GeoSA-BaSA、DINOv2/Prithvi/Clay frozen + head。
可选:
- TEA energy adaptation。
- Hybrid-TTA / ReservoirTTA 用于 non-stationary target stream。
- MLMP 用于 open-vocabulary segmentation variant。
6.3 指标
任务指标:
- mIoU;
- per-class IoU;
- rare-class IoU;
- boundary F1;
- urban/rural 或 city-wise mIoU;
- worst-domain mIoU;
- OOD drop:
ID mIoU - OOD mIoU。
可靠性指标:
- ECE / adaptive ECE;
- NLL / Brier score;
- negative transfer rate:适配后低于 source-only 的 tile 比例;
- class collapse score:预测类别分布与 source/target 估计 prior 的偏离;
- prototype drift;
- rollback count。
成本指标:
- 每 tile 适配时间;
- 显存;
- 需不需要 source data;
- 在线 batch size 敏感性。
6.4 Ablation
| Ablation | 目的 |
|---|---|
| 无 uncertainty filter | 验证可靠样本选择是否关键 |
| entropy-only vs energy/prototype/margin | 判断哪类不确定性最有效 |
| pixel-level vs superpixel/object-level update | 检验空间自相关建模 |
| single prototype vs class-balanced multi-prototype | 检验 prototype contamination |
| with/without source anchor | 检验 forgetting 和 collapse |
| static threshold vs dynamic threshold | 检验跨城市稳定性 |
| frozen backbone vs adapter/Norm/head update | 检验更新范围 |
| random stream vs spatially ordered stream | 检验真实制图流 |
7. 最小可行实验
第一阶段建议不要一上来做所有数据。最小实验如下:
- 数据:LoveDA urban -> rural 和 rural -> urban。
- 模型:SegFormer-B2 source-only。
- Baseline:BN Adapt、TENT、SAR、self-training TTA。
- 方法:UCTTA-RS 只更新 decoder/head adapter + class-balanced prototype memory。
- 指标:mIoU、per-class IoU、negative transfer rate、ECE、class collapse score。
- 可视化:每类 prototype drift、适配前后不确定性图、失败 tile。
如果 LoveDA 上能证明“减少负迁移”,再扩展到 Potsdam/Vaihingen 和 DeepGlobe。
8. 可能未来方向
- RS-TTA benchmark:把 LoveDA、Potsdam/Vaihingen、DeepGlobe、OpenEarthMap 统一成跨城市测试流,报告平均增益和负迁移率。
- Uncertainty-aware rollback:TTA 不一定每次都更新;让模型知道何时不适配。
- SAM-assisted TTA:用 SAM/SegEarth-OV 生成对象边界,只在对象内部做 entropy/prototype 更新,减少边界伪标签污染。
- GeoFM + TTA:比较从头训练分割模型和 Prithvi/Clay/DINOv2 feature head 在 TTA 下谁更稳定。
- Active TTA for RS:把 ATTA 思路用于高风险 tile,请求少量人工点/框/类别确认,而不是无条件自训练。
- Non-stationary city stream:用 ReservoirTTA/Hybrid-TTA 思路处理城市内部从商业区、农田、工业区、水体连续切换。
- Calibration-first adaptation:先校准置信度,再做伪标签更新;把 ECE 作为主约束而非附属指标。
9. 推荐阅读顺序
- LoveDA:理解遥感跨域语义分割的 benchmark。
- MOAT / AMDFormer:理解 RS one-shot/UDA 如何处理 LoveDA、Potsdam、Vaihingen。
- Entropy is not Enough:理解 entropy minimization 的理论/实证风险。
- SAR、RoTTA、Hybrid-TTA、ReservoirTTA:理解动态测试流和稳定性。
- TEA、ATTA、Improved Self-Training TTA:补充 energy、active selection、自训练。
- EarthShift / REOBench:把评测从单一 target domain 推向真实遥感 shift。
10. 参考链接
- LoveDA GitHub: https://github.com/Junjue-Wang/LoveDA
- LoveDA OpenReview: https://openreview.net/forum?id=_-O9SefMb99
- MOAT / One-shot adaptation for cross-domain semantic segmentation in remote sensing images: https://www.sciencedirect.com/science/article/pii/S0031320325000500
- AMDFormer / UDA for RS semantic segmentation: https://link.springer.com/chapter/10.1007/978-981-95-5628-1_34
- EarthShift: https://arxiv.org/abs/2605.29330
- REOBench: https://arxiv.org/abs/2505.16793
- Entropy is not Enough for Test-Time Adaptation: https://openreview.net/forum?id=9w3iw8wDuE
- Improved Self-Training for Test-Time Adaptation: https://openaccess.thecvf.com/content/CVPR2024/papers/Ma_Improved_Self-Training_for_Test-Time_Adaptation_CVPR_2024_paper.pdf
- TEA: https://github.com/yuanyige/tea
- ATTA: https://github.com/divelab/ATTA
- TDA: https://github.com/kdiAAA/TDA
- MLMP: https://github.com/dosowiechi/MLMP
- ReservoirTTA: https://huggingface.co/papers/2505.14511
- Hybrid-TTA: https://github.com/hhhyyeee/Hybrid-TTA
- RoTTA: https://github.com/BIT-DA/RoTTA
- SAR: https://github.com/mr-eggplant/SAR
11. 可投稿小论文雏形
题目候选:Uncertainty-Constrained Test-Time Adaptation for Cross-City Remote Sensing Semantic Segmentation
贡献点:
- 提出 cross-city RS segmentation 的 realistic TTA protocol,报告 mIoU、ECE 和 negative transfer rate。
- 提出 reliability-gated entropy/prototype adaptation,只在可信区域更新。
- 提出 class-balanced prototype reservoir 和 source-anchor rollback,缓解 rare-class forgetting 和 model collapse。
- 在 LoveDA、Potsdam/Vaihingen、DeepGlobe/OpenEarthMap 上比较 TENT、BN Adapt、SAR、RoTTA、self-training、RS UDA/one-shot adaptation。
风险:
- 如果 source-only GeoFM 太强,TTA 提升可能小;需要报告 negative transfer 降低和 calibration 改善。
- 无标签指标可能与真实 mIoU 不完全一致;需要做 oracle analysis。
- 不同数据集 label taxonomy 不一致,跨数据集实验要先做 label mapping。
第一实验:
LoveDA urban -> rural / rural -> urban,SegFormer-B2,比较 source-only、BN Adapt、TENT、SAR、自训练、UCTTA-RS。若 UCTTA-RS 的平均 mIoU 不一定最高,但 negative transfer rate、rare-class IoU 和 ECE 明显更稳,就已经有论文价值。
评论