RATS：让 ViT 的 register token 自发学出可复用部件

Tue, 16 Jun 2026 11:00:03 +0800

RATS：让 ViT 的 register token 自发学出可复用部件

结论：这一轮最值得补进雷达的是 RATS! Patches Talk Through Registers: Emergent Parts in Register Attention Transformers。它不是遥感专用论文，而是一篇很适合迁移到遥感密集预测和可解释基础模型的 CV 方法：作者把 ViT 里原本用于全局聚合的分类 token，改造成多个 learnable register tokens，并让 patch 信息经过 L -> N -> N -> L 的 compress、communicate、broadcast 瓶颈流动。结果是，在没有部件标注、没有辅助分割损失的情况下，每个 register 会自发专化到相对一致的 proto-semantic region。论文报告 RATS 在 5 个 part/region segmentation benchmark 上平均 mIoU 比最强 baseline 高约 12 个点，并且用 Mask2Former 下游微调时，在 ADE20K 语义分割和 COCO instance segmentation 上也有小幅但一致提升。对遥感来说，RATS 的意义不是“直接拿来刷新 LoveDA”，而是提供了一种把大图 patch 组织成可复用局部部件的架构先验：建筑屋顶、道路交叉口、田块边界、水岸线、车辆/船舶局部结构，都可能从这种 register bottleneck 中得到更可解释、更可控的中间表示。

ViT - Tag - 堂堂一跑堂

RATS：让 ViT 的 register token 自发学出可复用部件

RATS：让 ViT 的 register token 自发学出可复用部件