RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

Series - 2024-2026 遥感 AI 细分研究方向

RS-22 Test-Time Adaptation for Cross-City Remote Sensing Segmentation

跨城市遥感语义分割的 TTA 不是“把 TENT 跑一下”这么简单。遥感目标具有强空间自相关、类别长尾、城市/农村类别先验差异、GSD 和成像条件差异;这些因素会让熵最小化、自训练和 BN adaptation 在无标签测试流上发生负迁移。当前 2024-2026 的直接 RS-TTA 工作仍少,更成熟的是两条邻近线:遥感 UDA/source-free/one-shot domain adaptation,以及通用 CV 的 continual TTA / segmentation TTA / uncertainty-aware TTA。

最有价值的小课题是:Uncertainty-Constrained Test-Time Adaptation for Cross-City Remote Sensing Semantic Segmentation。核心假设是:只在可靠像素、可靠 tile 和可靠类别原型上更新少量参数,并用空间一致性、类别先验和回滚机制约束更新,可以减少跨城市 TTA 的 model collapse 和 rare-class forgetting。

遥感语义分割常在一个城市、一个传感器或一个采样策略上训练,然后部署到另一个城市。城市之间的差异不是简单色彩变化,而是多因素叠加:

  • 地理景观差异:武汉、南京、长春、Potsdam、Vaihingen 的建筑密度、道路宽度、植被形态不同。
  • 类别先验差异:LoveDA rural 中 agriculture/forest 占比高,urban 中 building/road 占比高;熵最小化容易把主导类越推越强。
  • 空间自相关:一个 1024 tile 中相邻像素高度相关,batch size 看似大,独立样本数其实很低。
  • 边界和小目标:道路、水体边界、建筑阴影、车辆等区域的高不确定性往往正是最重要的区域。
  • 测试流非平稳:真实大范围制图是从城区到郊区、从平原到山地、从晴天到阴影的连续流,单一 target distribution 假设不成立。

LoveDA 本身就是为了 land-cover segmentation 和 UDA 设计的遥感域适配数据集,其 GitHub 说明中也保留了 Semantic Segmentation Challenge 和 UDA Challenge;OpenReview 摘要强调城市级/国家级制图泛化不足。LoveDA 早于本时间窗,但仍是 RS-22 的核心实验场。
链接:LoveDA GitHubLoveDA OpenReview

工作年份/来源链接代码/数据与 RS-22 的关系
LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic SegmentationNeurIPS D&B 2021,2025 仍维护OpenReviewGitHub核心跨域分割 benchmark;urban/rural 和多城市设置适合构造 cross-city TTA。
One-shot adaptation for cross-domain semantic segmentation in remote sensing images / MOATPattern Recognition 2025ScienceDirect论文页未见官方代码用一个无标签目标图像快速适配,介于 UDA 和 TTA 之间;包含 LoveDA、Potsdam、Vaihingen。
AMDFormer: UDA for RS semantic segmentation with adaptive temperature sampling and modulated dynamic thresholdPRCV 2025,2026 onlineSpringer未见官方代码关注 rare-class sampling 和动态 pseudo-label 阈值;适合作为 TTA 中 class-balanced confidence filter 的启发。
Domain generalization for semantic segmentation of RS images via VFM fine-tuningISPRS JPRS 2025ScienceDirectGeoSA-BaSA不是 TTA,但提供 VFM fine-tuning + DG 的强 source-only/domain-generalization baseline。
EarthShiftarXiv 2026arXivProject真实 distribution shift benchmark;可借鉴报告 OOD drop、worst-domain 和 shift taxonomy。
REOBencharXiv 2025arXivGitHub遥感鲁棒性 benchmark;适合扩展 corruption + cross-city 双重 shift。
工作年份/venue链接代码可迁移模块
Entropy is not Enough for Test-Time AdaptationICLR 2024 SpotlightOpenReview论文页直接指出单纯 entropy minimization 不足;支持 RS 中“熵低不等于预测对”的核心风险。
Improved Self-Training for Test-Time AdaptationCVPR 2024CVF PDF论文页自训练 TTA 的改进路线;可迁移到 pseudo-mask 选择和 teacher-student 更新。
TEA: Test-time Energy AdaptationCVPR 2024GitHubGitHubenergy-based 目标可替代单纯 entropy,适合检测高不确定/分布外 tile。
Active Test-Time AdaptationICLR 2024GitHubGitHub将主动学习思想纳入 TTA;遥感可用高风险 tile 请求人工确认或延迟更新。
Efficient Test-Time Adaptation of VLMs / TDACVPR 2024GitHubGitHubkey-value cache、progressive pseudo-label refinement、negative pseudo-label;可迁移到 RS-CLIP/OV segmentation。
Test-Time Adaptation of VLMs for Open-Vocabulary Semantic Segmentation / MLMPNeurIPS 2025GitHubGitHub多层特征 + 多 prompt 的 entropy minimization;可作为 open-vocabulary RS segmentation 的 TTA baseline。
ReservoirTTAarXiv 2025HF paperGitHub长时间测试流、循环/渐变 domain;适合真实跨城市制图流。
Hybrid-TTAICCV 2025GitHubGitHub动态 domain shift detection;适合从 urban 到 rural 或不同城市块切换时触发不同更新策略。
RoTTACVPR 2023,仍是 2024-2026 TTA 常用基线arXivGitHubmemory bank、robust BN、time-aware reweighting;适合非平稳测试流。
SARICLR 2023,仍是稳定 TTA 常用基线arXivGitHubsharpness-aware reliable entropy minimization;对抗高噪声样本导致 collapse。

说明:RoTTA 和 SAR 早于 2024,但在 2024-2026 的 TTA 文献中仍是重要基线;RS-22 若做实验应包含它们,否则 TTA 部分不完整。

机制:只更新 BN running statistics 或 affine 参数。优点是简单、计算便宜;缺点是遥感高分辨率 tile 空间自相关强,batch 内像素不是独立样本。

风险:

  • 小 batch 或单 tile 时统计不稳,更新方向受单个区域主导。
  • rural/urban 之间类别先验差异大,BN 统计可能把语义差异当成风格差异抹掉。
  • 如果模型是 LayerNorm/ViT/SegFormer,BN adaptation 的适用性弱。

适合做 baseline,但不适合作为唯一贡献。

机制:让模型在目标域预测更 confident。风险在 RS 中尤其明显:低熵可能是模型过度自信,不代表正确。

典型失败:

  • 主导类塌缩:rural tile 中 agriculture 占比高,模型可能把 barren/forest/water 边界吞掉。
  • rare class 遗忘:小面积 water、road、barren 由于高熵被过滤或被主类覆盖。
  • 边界变差:边界像素天然高熵,强行降熵会造成过度平滑。
  • 城市切换时错误积累:先适配到城市 A 的先验,再进入城市 B 后负迁移。

这与 ICLR 2024 的 “Entropy is not Enough” 给出的总判断一致:entropy 只能反映置信度,不足以刻画可适配因素。

机制:选择高置信伪标签更新模型或 teacher-student。遥感中伪标签质量和空间覆盖很关键。

风险:

  • confidence threshold 会偏向 easy/head classes。
  • 伪标签错误具有空间连片性,一旦某一地块被错标,会批量污染训练。
  • 不同城市类别比例不同,固定阈值不能适应 domain。
  • 遥感 label 边界本身可能存在错位,伪标签过拟合到错误边界。

可借鉴 AMDFormer 的 rare-class sampling 和动态阈值思想,但要改造成 test-time 版本。

机制:为每个类别维护 feature prototype,用目标域预测更新原型并校正分类头。

风险:

  • prototype contamination:错误伪标签会污染类别中心。
  • open-set/unknown land-cover:目标城市出现 source 未覆盖地物时,prototype 会被迫吸收未知类。
  • class imbalance:农业/建筑 prototype 更新多,小类原型陈旧。
  • 多尺度对象:同类建筑在不同 GSD、阴影和密度下可能是多峰分布,单一 prototype 不足。

推荐使用 class-balanced reservoir memory、多原型、uncertainty gating 和源域 anchor。

名称:UCTTA-RS: Uncertainty-Constrained Test-Time Adaptation for Cross-City Remote Sensing Semantic Segmentation

在跨城市遥感测试流中,不确定性约束可以把“可适配样本”和“危险样本”分开:只用低风险像素/tile 更新轻量参数,并对高风险区域保留原模型或请求人工/延迟更新,可以降低负迁移和 rare-class forgetting。

推荐两条模型线并行:

  • 传统分割线:SegFormer-B2/B5、UPerNet-Swin、DeepLabV3+、HRNet。
  • foundation feature 线:DINOv2/Prithvi/Clay/GeoFM backbone + lightweight segmentation head。

测试时只更新:

  • BN/Norm affine 参数,或
  • decoder adapter / LoRA,或
  • class prototype memory 和 calibration head。

默认冻结主干,防止一次目标城市流把基础特征带偏。

对每个像素或 superpixel 计算:

  • predictive entropy;
  • test-time augmentation disagreement;
  • teacher-student disagreement;
  • prototype distance / margin;
  • boundary uncertainty;
  • tile-level energy/OOD score。

只把同时满足以下条件的区域用于更新:

  1. 低熵且高 margin;
  2. TTA/augmentation 预测一致;
  3. 与源域或目标域类别 prototype 距离合理;
  4. 不在高不确定边界区域;
  5. class-balanced reservoir 中该类未过量。

高风险区域不参与梯度,但参与报告和可视化。

L = L_reliable_entropy
  + lambda_p * L_prototype_consistency
  + lambda_s * L_spatial_smooth_boundary_aware
  + lambda_a * L_source_anchor
  + lambda_d * L_class_diversity_prior

其中:

  • L_reliable_entropy:只对可靠像素做熵最小化。
  • L_prototype_consistency:目标特征靠近可靠类别原型。
  • L_spatial_smooth_boundary_aware:在 superpixel/对象内部平滑,在边界处弱化约束。
  • L_source_anchor:防止目标更新偏离源域类别原型。
  • L_class_diversity_prior:防止塌缩到农业/建筑等主导类,但 prior 应随 tile 类型动态估计。

每 N 个 tile 计算无标签健康指标:

  • 平均熵是否异常下降但类别多样性也下降;
  • 高风险区域比例是否持续升高;
  • prototype drift 是否超过阈值;
  • source anchor 距离是否突然变大;
  • TTA disagreement 是否上升。

触发条件满足时,回滚到 EMA teacher 或最近 checkpoint。这一点对真实城市流很重要。

数据集设置适合测试的问题
LoveDAurban -> rural, rural -> urban;进一步按 Nanjing/Changzhou/Wuhan 构造 leave-city-out城乡和城市域偏移、类别先验变化
ISPRS Potsdam/VaihingenPotsdam -> Vaihingen, Vaihingen -> Potsdam航空 VHR 影像跨城市、GSD/成像条件差异
DeepGlobe Land Cover按地理区域或 tiles 构造 spatial block / leave-region split大范围 land-cover OOD
OpenEarthMapleave-city/leave-region更丰富地理覆盖,验证泛化
REOBench 扩展clean -> corruption + city shift腐蚀扰动和城市偏移叠加

必须包含:

  • Source-only,无任何适配。
  • Target supervised upper bound。
  • BN Adapt。
  • TENT / entropy minimization。
  • EATA/SAR/RoTTA/CoTTA 中至少 2 个稳定 TTA baseline。
  • Improved self-training TTA。
  • Prototype adaptation baseline。
  • RS UDA/one-shot upper reference:MOAT、AMDFormer 或同类方法。
  • VFM/DG baseline:GeoSA-BaSA、DINOv2/Prithvi/Clay frozen + head。

可选:

  • TEA energy adaptation。
  • Hybrid-TTA / ReservoirTTA 用于 non-stationary target stream。
  • MLMP 用于 open-vocabulary segmentation variant。

任务指标:

  • mIoU;
  • per-class IoU;
  • rare-class IoU;
  • boundary F1;
  • urban/rural 或 city-wise mIoU;
  • worst-domain mIoU;
  • OOD drop:ID mIoU - OOD mIoU

可靠性指标:

  • ECE / adaptive ECE;
  • NLL / Brier score;
  • negative transfer rate:适配后低于 source-only 的 tile 比例;
  • class collapse score:预测类别分布与 source/target 估计 prior 的偏离;
  • prototype drift;
  • rollback count。

成本指标:

  • 每 tile 适配时间;
  • 显存;
  • 需不需要 source data;
  • 在线 batch size 敏感性。
Ablation目的
无 uncertainty filter验证可靠样本选择是否关键
entropy-only vs energy/prototype/margin判断哪类不确定性最有效
pixel-level vs superpixel/object-level update检验空间自相关建模
single prototype vs class-balanced multi-prototype检验 prototype contamination
with/without source anchor检验 forgetting 和 collapse
static threshold vs dynamic threshold检验跨城市稳定性
frozen backbone vs adapter/Norm/head update检验更新范围
random stream vs spatially ordered stream检验真实制图流

第一阶段建议不要一上来做所有数据。最小实验如下:

  1. 数据:LoveDA urban -> rural 和 rural -> urban。
  2. 模型:SegFormer-B2 source-only。
  3. Baseline:BN Adapt、TENT、SAR、self-training TTA。
  4. 方法:UCTTA-RS 只更新 decoder/head adapter + class-balanced prototype memory。
  5. 指标:mIoU、per-class IoU、negative transfer rate、ECE、class collapse score。
  6. 可视化:每类 prototype drift、适配前后不确定性图、失败 tile。

如果 LoveDA 上能证明“减少负迁移”,再扩展到 Potsdam/Vaihingen 和 DeepGlobe。

  1. RS-TTA benchmark:把 LoveDA、Potsdam/Vaihingen、DeepGlobe、OpenEarthMap 统一成跨城市测试流,报告平均增益和负迁移率。
  2. Uncertainty-aware rollback:TTA 不一定每次都更新;让模型知道何时不适配。
  3. SAM-assisted TTA:用 SAM/SegEarth-OV 生成对象边界,只在对象内部做 entropy/prototype 更新,减少边界伪标签污染。
  4. GeoFM + TTA:比较从头训练分割模型和 Prithvi/Clay/DINOv2 feature head 在 TTA 下谁更稳定。
  5. Active TTA for RS:把 ATTA 思路用于高风险 tile,请求少量人工点/框/类别确认,而不是无条件自训练。
  6. Non-stationary city stream:用 ReservoirTTA/Hybrid-TTA 思路处理城市内部从商业区、农田、工业区、水体连续切换。
  7. Calibration-first adaptation:先校准置信度,再做伪标签更新;把 ECE 作为主约束而非附属指标。
  1. LoveDA:理解遥感跨域语义分割的 benchmark。
  2. MOAT / AMDFormer:理解 RS one-shot/UDA 如何处理 LoveDA、Potsdam、Vaihingen。
  3. Entropy is not Enough:理解 entropy minimization 的理论/实证风险。
  4. SAR、RoTTA、Hybrid-TTA、ReservoirTTA:理解动态测试流和稳定性。
  5. TEA、ATTA、Improved Self-Training TTA:补充 energy、active selection、自训练。
  6. EarthShift / REOBench:把评测从单一 target domain 推向真实遥感 shift。

题目候选:Uncertainty-Constrained Test-Time Adaptation for Cross-City Remote Sensing Semantic Segmentation

贡献点:

  1. 提出 cross-city RS segmentation 的 realistic TTA protocol,报告 mIoU、ECE 和 negative transfer rate。
  2. 提出 reliability-gated entropy/prototype adaptation,只在可信区域更新。
  3. 提出 class-balanced prototype reservoir 和 source-anchor rollback,缓解 rare-class forgetting 和 model collapse。
  4. 在 LoveDA、Potsdam/Vaihingen、DeepGlobe/OpenEarthMap 上比较 TENT、BN Adapt、SAR、RoTTA、self-training、RS UDA/one-shot adaptation。

风险:

  • 如果 source-only GeoFM 太强,TTA 提升可能小;需要报告 negative transfer 降低和 calibration 改善。
  • 无标签指标可能与真实 mIoU 不完全一致;需要做 oracle analysis。
  • 不同数据集 label taxonomy 不一致,跨数据集实验要先做 label mapping。

第一实验:

LoveDA urban -> rural / rural -> urban,SegFormer-B2,比较 source-only、BN Adapt、TENT、SAR、自训练、UCTTA-RS。若 UCTTA-RS 的平均 mIoU 不一定最高,但 negative transfer rate、rare-class IoU 和 ECE 明显更稳,就已经有论文价值。

Related Content

评论