RATS:让 ViT 的 register token 自发学出可复用部件
RATS:让 ViT 的 register token 自发学出可复用部件
结论:这一轮最值得补进雷达的是 RATS! Patches Talk Through Registers: Emergent Parts in Register Attention Transformers。它不是遥感专用论文,而是一篇很适合迁移到遥感密集预测和可解释基础模型的 CV 方法:作者把 ViT 里原本用于全局聚合的分类 token,改造成多个 learnable register tokens,并让 patch 信息经过 L -> N -> N -> L 的 compress、communicate、broadcast 瓶颈流动。结果是,在没有部件标注、没有辅助分割损失的情况下,每个 register 会自发专化到相对一致的 proto-semantic region。论文报告 RATS 在 5 个 part/region segmentation benchmark 上平均 mIoU 比最强 baseline 高约 12 个点,并且用 Mask2Former 下游微调时,在 ADE20K 语义分割和 COCO instance segmentation 上也有小幅但一致提升。对遥感来说,RATS 的意义不是“直接拿来刷新 LoveDA”,而是提供了一种把大图 patch 组织成可复用局部部件的架构先验:建筑屋顶、道路交叉口、田块边界、水岸线、车辆/船舶局部结构,都可能从这种 register bottleneck 中得到更可解释、更可控的中间表示。
我按 2026-06-16 11:00 +08 检查公开来源,并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是通用视觉自监督架构,输入实验主要是自然图像;遥感部分是迁移判断,不把自然图像结果直接等同为遥感性能。同期本地文章已经覆盖 Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、LALE、CoastlineVLM、Stateful Visual Encoders、LG-SAM、CSI-Net、VecLang、TerraBench、OSTB 等方向,因此这里不重复写已有条目。
背景
遥感基础模型现在有一个很现实的问题:patch token 很强,但我们经常不知道它们在语义上怎么组织。一个 ViT 可以在下游语义分割、变化检测、场景分类里表现不错,可是当我们想问“这个建筑为什么被分成两块”“这条道路为什么断了”“这片田块边界为什么跟地籍线不一致”时,普通 patch embedding 很难提供可读的中间结构。
DINO 系列和很多自监督 ViT 已经显示出局部语义涌现:PCA 或 attention 可视化里经常能看到前景、部件和对象边界。但这种结构多数是事后观察出来的,不是模型架构中显式承诺的表示。对于遥感尤其麻烦,因为我们的目标经常不是 ImageNet 式单物体,而是大幅影像中的大量重复结构:屋顶、道路、树冠、耕地纹理、水体边界、裸地斑块和阴影混在一起。如果没有一种机制把 patch 聚成稳定的局部原语,模型很容易只学到全局场景纹理,而不是可复用的地物组成。
RATS 的切入点正好在这里。它不是再加文本监督,也不是用 SAM 生成伪标签,而是改 ViT 的 token 路由方式:让 patch 之间的通信必须通过一组 register tokens。这个瓶颈迫使 register 学会承载局部或部件级信息,而不是让所有 patch 在全连接 attention 中自由混合。对遥感来说,这类“可解释的中间 token”可能比单纯更大的 backbone 更有用。
论文/项目
论文标题是 RATS! Patches Talk Through Registers: Emergent Parts in Register Attention Transformers,arXiv 编号 2606.14701,作者来自 Johns Hopkins University、Office of Naval Research 和 Mayo Clinic。arXiv 页面显示论文提交时间为 2026-06-12,出现在 2026-06-15 的 cs.CV recent 批次中。官方 GitHub 已公开,仓库使用 MIT license,但目前还是早期状态,star 和 release 都很少,需要继续跟踪代码完整度。
主源链接如下:
- 论文:https://arxiv.org/abs/2606.14701
- HTML:https://arxiv.org/html/2606.14701
- 官方代码:https://github.com/yangtiming/RATS
已验证事实是:论文提出 Register Attention Transformers,使用 DINO self-distillation 训练;官方摘要和 README 均说明方法不使用部件标注或辅助 part loss;实验包含 COCO、ADE20K、ImageNet val、ImageNet-S919 和 PartImageNet;下游迁移用 Mask2Former 在 ADE20K 和 COCO 上比较 DINO ViT-S/16 与 RATS 初始化。本文对遥感的部分是基于架构和任务形态的迁移推断。
问题
遥感密集预测长期依赖两类中间表示。一类是 CNN/U-Net 的局部 feature map,边界和纹理强,但语义组织未必清晰;另一类是 ViT/GeoFM 的 patch tokens,全局上下文强,但局部部件和对象组成经常被摊平。RATS 提醒我们,基础模型不一定只能输出全局 embedding 或密集 patch grid,也可以输出一组有语义倾向的 register tokens。
这个问题在遥感里至少有 4 个具体表现。
第一,建筑和道路需要拓扑部件。建筑提取不只是前景/背景,还包括屋顶主体、附属结构、阴影、相邻道路、院落和误检裸地。道路提取也不只是路面 mask,还包括交叉口、桥梁、停车场、道路边界和断裂点。
第二,开放词汇遥感分割需要稳定区域原语。VLM 或 CLIP 可以给文本类别,但 mask 的区域组织仍然需要视觉侧支持。如果 register 能稳定对应“屋顶面”“路面段”“树冠块”“水岸线”等视觉原语,文本对齐会更容易落到局部区域。
第三,变化检测需要部件级差异。很多变化不是整栋建筑从无到有,而是屋顶扩建、道路拓宽、地块翻耕、水岸线移动、施工场地局部变化。普通全图或全对象表示很容易把这些细粒度变化平均掉。
第四,遥感模型需要可审计。制图和监测任务不能只给一个 mIoU。我们还需要知道模型把哪些 patch 聚成了同一个地物部件,哪些 register 反复在不同城市、季节、GSD 下指向同类结构,哪些 register 是不稳定或背景驱动的。
方法
RATS 的核心是一个 register-token bottleneck。普通 ViT 让所有 patch tokens 通过 multi-head self-attention 直接互相通信,并用一个 [CLS] token 聚合全局信息。RATS 则把全局聚合拆成多个 register tokens,让每个 block 中的信息流经过三步。
第一步是 compress:patch tokens 把信息聚合到 register tokens。第二步是 communicate:register tokens 之间做 self-attention,交换局部结构之间的上下文。第三步是 broadcast:register tokens 再把更新后的信息写回 patch tokens。这个路径可以写成 L -> N -> N -> L,其中 L 是 patch 数量,N 是 register 数量。
关键设计是 per-head partition。RATS 把 N 个 registers 硬分配到 H 个 attention heads,不同 head 拥有独立的 register 子集,不跨 head 混合。这个约束会减少不同 register 之间的语义纠缠,鼓励不同 head 和不同 register 捕捉不同区域或部件。官方 README 把它概括为:每个 head 拥有独立 register subset,从结构上保证多样性,让部件级专化自然涌现。
训练目标没有额外复杂化。论文使用 DINO self-distillation recipe,不增加 part labels、region labels 或辅助分割损失。最终层 register tokens 的均值进入 DINO projection head,teacher 仍然用 EMA 更新。也就是说,part-like register 不是被标签强行教出来的,而是由瓶颈结构和自监督目标共同诱导出来的。
可视化也很直接。作者计算 register token 与 patch tokens 的 cosine similarity,把每个 register 对应的 score map reshape 回空间网格,再按最高响应分配 patch,得到 unsupervised part segmentation map。这个机制对遥感很有吸引力,因为它天然给出“哪个 register 看哪里”的证据,而不是只输出一个不可解释 embedding。
数据/评价
论文预训练 RATS-S/B,使用 ImageNet-1k 和 DINO recipe。评价覆盖 5 个 benchmark:COCO 2017 val、ADE20K validation、ImageNet val、ImageNet-S919 val 和 PartImageNet test。由于 ImageNet 没有 segmentation masks,COCO instance annotation 也只覆盖部分图像,作者用 SAM 2.1 生成 proxy masks;ADE20K、ImageNet-S919 和 PartImageNet 则使用原生标注。
主要指标是 many-to-one mIoU 和 ARI。many-to-one mIoU 允许多个预测区域映射到同一个真实区域,适合评价 unsupervised grouping;ARI 衡量预测分组和真实分组的一致性。论文还在 ablation 中使用 one-to-one mIoU,用来观察过分割:如果 M2O 高但 O2O 低,说明模型可能把一个语义区域拆成了太多 registers。
对遥感迁移,评价指标需要调整。建议不要只看 mIoU,还要看这些指标:
- 区域一致性: 同一个 register 在不同城市、不同季节、不同 GSD 下是否反复激活相同地物部件。
- 边界质量: building/road/water mask 的 boundary F-score、Hausdorff distance、polygon simplification error。
- 拓扑质量: 道路连通性、建筑 polygon 自交率、田块边界闭合率。
- 跨域鲁棒性: train-on-city-A test-on-city-B、urban-to-rural、跨季节、跨传感器光学/多光谱。
- 字典可解释性: register dictionary 是否能被命名为屋顶、道路段、水岸线、树冠、裸地、阴影等地物原语。
适合第一轮验证的数据集包括 LoveDA、OpenEarthMap、SpaceNet building、DOTA/DIOR、iSAID、WHU building、LEVIR-CD/WHU-CD 光学变化检测,以及带地块边界的农业样本。若要验证 multispectral,需要在 RGB 预训练和多光谱输入之间设计 band adapter,不能直接假设 ImageNet register 会识别 NIR/SWIR 模式。
实验
论文报告的核心结果有三组。
第一,part/region segmentation 明显优于 baseline。表 1 中,RATS 在 COCO、ADE20K、ImageNet、ImageNet-S919 和 PartImageNet 上相对 DINOv1、DINOv3、Mamba with registers、SPFormer、SPiT、AdaSlot 等方法都有更好的平均 many-to-one mIoU。最强配置 RATS-B/16 with 192 registers 的平均 M2O mIoU 为 39.54,而 AdaSlot ViT-B/16 为 27.45,差距约 12.09 个点。这个结果支持了作者的主张:register bottleneck 不只是可视化好看,确实提升了无监督区域/部件分组质量。
第二,下游迁移不是纯可解释玩具。作者把 RATS register tokens 用作 Mask2Former 查询初始化,并在 ADE20K 和 COCO 上微调。相同 100 epoch ImageNet-1k 预训练下,DINO ViT-S/16 在 ADE20K mIoU 为 45.41,RATS 为 46.52;COCO instance segmentation AP 从 37.9 到 38.1。提升幅度不大,但方向一致,说明 register token 不是只适合 part discovery,也可以进入标准 dense prediction decoder。
第三,字典分析显示可复用部件。论文构建 register dictionary,并在 PartImageNet 上观察到 within-super-category consistency、taxonomic proximity 和 functional analogy。例如某些 entry 会在同类对象不同实例上对齐相似部件,车轮和自行车轮这类功能相似结构也会靠近。对遥感来说,这一点最值得关注:如果 register dictionary 能在遥感中形成“屋顶面、道路段、田埂、水岸线、树冠块、阴影边缘”等条目,它就能成为基础模型和 GIS/VLM 之间的中间词表。
消融也给出一个重要工程信号。论文表 3 显示,RATS baseline 在 512 x 512、batch 16 的 A5000 GPU 设置下,相比 ViT-S/16 DINO 有更低显存和延迟,同时区域质量更好;Perceiver-IO style 虽然更快,但牺牲空间细节。这对遥感大图推理很关键:我们需要降低 patch-patch attention 成本,但不能把边界和小目标细节压没。
亮点
第一,RATS 把“部件涌现”从事后现象变成架构先验。DINO 特征本来就可能出现部件结构,但 RATS 用 register bottleneck 显式承载这些结构,使它更容易被读取、排序、命名和复用。
第二,它不需要部件标注。遥感最缺的正是细粒度部件级标注。我们可能有建筑 mask、道路 mask、土地覆盖标签,但很少有“屋顶主体、阴影、道路交叉口、田块边缘”的大规模标注。RATS 的自监督路线降低了构建遥感部件词表的门槛。
第三,它适合大图和高分辨率密集预测。register bottleneck 可以减少全连接 patch attention 的压力,同时保留可广播回 patch grid 的局部结构。遥感 tile 很大,目标尺度跨度也大,这个方向比单纯堆更长 context 更实际。
第四,它能接 Mask2Former/SAM/VLM。register tokens 可以作为 query-based decoder 的初始化,也可以给 SAM/GeoSAM 候选 mask 做解释,或者作为 VLM region prompt 的视觉侧锚点。它不是一个孤立 backbone,而是可以变成多模块遥感系统里的结构化视觉中间层。
第五,它天然支持失败分析。一个 register 如果在不同地区总是激活阴影而不是建筑,或者在农村/城市域之间语义漂移,就可以被单独诊断。普通 dense feature map 很难做到这种粒度的审计。
不足
第一,论文没有遥感实验。自然图像上的 part segmentation、ADE20K 和 COCO 提升不能直接外推到光学遥感、多光谱遥感、UAV 或 VHR 制图。
第二,ImageNet 预训练的部件概念未必覆盖遥感地物。鸟头、车轮、动物躯干这类自然图像部件,与屋顶、道路、农田、水岸线、裸地纹理的统计结构差别很大。真正有价值的遥感 RATS 需要在大规模 EO 数据上重新预训练或至少做领域自监督适配。
第三,SAM proxy masks 会影响部分评价。COCO 和 ImageNet 的 proxy ground truth 来自 SAM 2.1,并不等同于人工 part labels。遥感里如果也用 SAM/GeoSAM 生成伪真值,必须防止把 SAM 的偏差当成模型能力。
第四,register 数量存在粒度权衡。论文消融显示,更多 register 会提高覆盖但可能造成过分割;更少 register 更完整但更粗。遥感不同任务的最佳粒度会不同:建筑 footprint 需要完整对象,道路拓扑需要连续线状结构,小目标检测则需要更细局部。
第五,多光谱和时序输入还没解决。RATS 当前是 2D RGB ViT 语境。遥感真正常用的 Sentinel-2、Landsat、HLS、时序作物监测和变化检测,都涉及 band/time 维度。直接把 register bottleneck 套上去还不够,需要设计 band-aware、time-aware 或 geo-aware registers。
遥感迁移方案
最小可复现实验可以先做 Remote-RATS for Building and Road Parts。
训练阶段选两条路线。轻量路线是在 DINO/GeoFM backbone 上加 RATS bottleneck,对 OpenEarthMap、LoveDA、SpaceNet、WHU building、DeepGlobe road 的 RGB/VHR tile 做 self-supervised adaptation。完整路线是在更大规模光学遥感图像上重训 RATS-S/16,输入分辨率从 224/512 扩到 512/1024,保留多尺度 crop。
评价阶段不要一开始追求全遥感 SOTA。先做 register grouping 诊断:把 register similarity map 与已有 building/road/water/vegetation masks 对齐,计算 M2O/O2O mIoU、ARI、boundary F-score 和 register purity。再人工抽样命名高频 register,看它们是否对应屋顶、路面、树冠、水岸、裸地、阴影等地物原语。
下游阶段接 Mask2Former 或 SegFormer decoder。对比 DINO/Prithvi/Clay backbone + learned queries、RATS backbone + learned queries、RATS backbone + register queries 三种设置。数据用 LoveDA urban/rural split、OpenEarthMap cross-region split、SpaceNet cross-city building split。重点不是只看 mIoU,而是看跨域性能下降、边界质量和小目标/细长结构召回。
如果要接 VLM,可以把 register dictionary 转成视觉 token 证据:给定文本“道路交叉口”“小型建筑”“农田边界”“水岸线”,先检索最相关的 registers 和区域,再让 VLM 只解释这些候选区域。这样比直接把整张遥感大图扔给 VLM 更可控。
可做的论文方向
第一,做 Remote-RATS: Self-Supervised Register Tokens for Interpretable Remote Sensing Segmentation。问题是遥感 GeoFM 缺少可解释的局部结构;假设是 register bottleneck 能在无部件标注下形成地物部件词表。方法是在光学遥感 tile 上做 DINO-style self-supervised adaptation,再用 register maps 做 building/road/water/vegetation grouping 和 Mask2Former downstream transfer。指标包括 mIoU、boundary F-score、ARI、register purity、跨域性能下降。
第二,做 Geo-Register Dictionary for Open-Vocabulary Mapping。问题是开放词汇遥感分割缺少稳定视觉原语;方法是从 RATS registers 中构建地物部件字典,再与 RemoteCLIP/GeoRSCLIP 文本 embedding 对齐。输出不是直接类别 mask,而是“视觉部件 -> 文本类别 -> GIS 规则”的组合式制图。适合接 LoveDA、OpenEarthMap、DOTA/DIOR 和自建文本类别集。
第三,做 Change Registers for Fine-Grained Optical Change Detection。问题是变化检测常把局部扩建、道路拓宽、地块翻耕等细粒度变化混成二值 change mask。方法是对 t1/t2 共享 RATS backbone,比较对应 register dictionary 的激活迁移和空间差异,输出部件级变化解释。数据可用 LEVIR-CD、WHU-CD、CDD、S2Looking 的非 SAR 光学部分。
第四,做 Topology-Aware Register Queries for Road and Building Extraction。问题是道路和建筑不只要求像素准确,还要求拓扑和 polygon 合法性。方法是让 register tokens 初始化 query decoder,同时加入 connectivity/polygon loss 或后处理约束。指标包括 road connectivity、building polygon IoU、自交率、断裂率和面积误差。
第五,做 Register Stability Audit for GeoFM。问题是 GeoFM 在跨城市、跨季节、跨 GSD 下的局部语义是否稳定很少被测。方法是固定模型,统计 register 激活在不同域上的一致性、漂移和背景偏置。这个方向可以作为 benchmark 论文,贡献不一定是新模型,而是给 GeoFM 一个可解释鲁棒性测试协议。
实验建议
建议先做一个小而硬的反证实验,不要直接开大规模预训练。
- 选 LoveDA 和 OpenEarthMap,各取 2-3 个城市或区域,构造 urban-to-rural / region-to-region split。
- 用 DINOv2/Prithvi/Clay/RemoteCLIP 特征作为 baseline,再实现一个最小 RATS bottleneck adaptation。
- 只训练 50-100 epoch 自监督,不做任何遥感 mask 监督。
- 用已有 segmentation label 事后评价 register maps,看 register 是否真的聚到地物区域,而不是只学颜色和阴影。
- 再接同一个 Mask2Former decoder,比较 learned queries 与 register queries。
最小成功标准可以设得很明确:RATS register maps 在 building/road/water/vegetation 上的 M2O/O2O 或 ARI 要明显优于 DINO patch clustering;下游分割至少要在跨域 split 上提升边界或校准,而不只是训练域 mIoU 小涨。如果这两点做不到,说明自然图像部件先验迁移到遥感的价值有限,需要换成多光谱/地理位置/尺度感知 register。
可直接用于论文审稿或内部评估的 prompt:
你是遥感基础模型与密集预测审计器。
给定一个 register-token 模型、若干遥感 tile、register attention/similarity maps、下游 segmentation 结果和跨域 split,请判断该模型是否真的学到了可复用地物部件,而不是只产生好看的可视化。
必须检查:
1. register 是否在不同城市、不同季节、不同 GSD 下稳定对应同类地物或部件。
2. register map 是否与人工 mask、GIS polygon 或高质量候选 mask 有可量化重合,而不是只看颜色、阴影或纹理。
3. 增加 register 数量是否导致过分割;必须同时报告 M2O、O2O、ARI 和 boundary 指标。
4. register query 是否给下游 decoder 带来独立增益;需要区分 backbone 增益和 query 初始化增益。
5. 小目标、细长目标和拓扑结构是否单独评估,不能只看平均 mIoU。
6. 若使用 SAM/GeoSAM 伪真值,必须说明伪标签偏差和人工抽样验证结果。
7. 若迁移到多光谱或时序数据,必须说明 band/time token 如何进入 register bottleneck。
输出:
- 结论:promising / inconclusive / weak
- 最稳定的 register 部件:最多 5 个
- 最大失败类型:最多 3 个
- 必须补的实验
- 是否值得继续做完整论文今日判断
RATS 的短期价值在于给遥感 GeoFM 一个新的中间表示设计:不再只依赖全局 embedding 或密集 patch grid,而是显式学习一组可读、可排序、可命名、可接 decoder 的 register tokens。它与今天遥感 AI 的几个痛点都能对上:开放词汇分割需要视觉原语,变化解释需要局部部件,跨域制图需要稳定结构,大图推理需要降低 patch attention 成本。
但这条线也有明确风险:自然图像 part discovery 不一定能迁移到遥感地物;SAM proxy 评价不等于真实遥感标注;多光谱和时序还没处理。如果要投入,最务实的第一步不是写一个大系统,而是在 LoveDA/OpenEarthMap/SpaceNet 上证明 register map 比 DINO patch clustering 更稳定、更可解释,并且能给 Mask2Former 或 VLM grounding 带来独立收益。
参考来源
- RATS! Patches Talk Through Registers: Emergent Parts in Register Attention Transformers. https://arxiv.org/abs/2606.14701
- RATS HTML version. https://arxiv.org/html/2606.14701
- RATS official GitHub. https://github.com/yangtiming/RATS
- arXiv cs.CV recent. https://arxiv.org/list/cs.CV/recent
- LoveDA dataset. https://github.com/Junjue-Wang/LoveDA
- OpenEarthMap. https://open-earth-map.org/
- SpaceNet. https://spacenet.ai/
评论