遥感基础模型与多模态理解 - Category - 堂堂一跑堂

RSVG-ZeroOV：把训练免费开放词汇 grounding 扩到遥感视频

Tue, 16 Jun 2026 17:00:02 +0800

RSVG-ZeroOV：把训练免费开放词汇 grounding 扩到遥感视频

结论：这一轮最值得补进雷达的是 2026-06-15 上 arXiv 的 Training-Free Open-Vocabulary Visual Grounding for Remote Sensing Images and Videos。它把 RSVG-ZeroOV 从图像级遥感开放词汇 grounding 扩展到视频级时空 grounding：用冻结 VLM 抽取文本相关注意力，用扩散模型补目标结构，再用 Evolve 模块净化 mask；视频部分再加 query-relevant key-frame selector 和 SAM3 temporal propagator。它的价值不在于训练了一个更大的遥感 VLM，而在于给出一个很清晰的系统范式：遥感开放词汇定位可以先从“训练大模型”转向“组合冻结基础模型的注意力、结构先验和时序传播”。

我按 2026-06-16 17:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本文使用的是光学遥感图像、低空 UAV 视频和通用视频 grounding benchmark，不把雷达类工作纳入讨论。同期本地文章已经覆盖 FusionRS、DEO、RATS、Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、CoastlineVLM、Stateful Visual Encoders、LG-SAM、VecLang、TerraBench、OSTB 等方向，因此这里不重复已有条目。

背景

遥感 VLM 的一个长期痛点是：模型会“看懂场景”，但不一定能把用户说的目标精确落到像素、框或视频 tube 上。直接让 Qwen2.5-VL、GeoChat、LLaVA 这类 VLM 输出坐标，经常能生成合理描述，却在小目标、密集场景、相对位置和复杂表达上定位不稳。遥感图像又特别放大了这个问题：目标尺度变化大，背景重复，机场、港口、道路和居民区里有大量同类小目标。

传统 RSVG 方法通常需要人工标注的 referring expression、box 或 mask。这个路线能在封闭类别和固定数据集上做高分，但很难覆盖真实用户会输入的开放词汇：例如“高速路最右侧正在行驶的红色集装箱卡车”“港口左侧的白色游艇”“比水面船只更小的白色单层巴士”。标注成本高，类别覆盖窄，表达形式也有限。

DEO：用双教师蒸馏把 DINOv3 的 RGB 语义注入多光谱 GeoFM

Tue, 16 Jun 2026 15:00:04 +0800

DEO：用双教师蒸馏把 DINOv3 的 RGB 语义注入多光谱 GeoFM

结论：这一轮最值得补进雷达的是 CVPR 2026 Highlight 论文 Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation。它提出 DEO，用一个多光谱 EMA teacher 学 Sentinel-2 10 通道表示，再用冻结的光学 VFM teacher（默认 DINOv3）把 RGB 语义和 patch-level 结构蒸馏到同一个学生模型里。论文的关键信号不是“再训练一个遥感 backbone”，而是把通用视觉基础模型和多光谱 EO 基础模型之间的接口说清楚：如果目标是让 RGB 光学语义迁移到多光谱，预训练目标最好和 DINO/DINOv3 这类 contrastive self-distillation 范式对齐，而不是只靠 masked image modeling 做局部重建。

我按 2026-06-16 15:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。DEO 的训练主线是 fMoW-Sentinel / fMoW-RGB 的光学与 Sentinel-2 多光谱数据；论文确实在相关工作和对比方法中提到含雷达路线，但本篇只讨论它对非 SAR 光学/多光谱 GeoFM 的价值。同期本地文章已经覆盖 FusionRS、RATS、Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、CoastlineVLM、Stateful Visual Encoders、LG-SAM、VecLang、TerraBench、OSTB 等方向，因此这里不重复已有条目。

FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座

Tue, 16 Jun 2026 13:00:02 +0800

FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座

结论：这一轮最值得补进雷达的是 FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models。它不是又一个只做 RGB caption/retrieval 的遥感 VLM 数据集，而是把 60 万组遥感 RGB 图像、翻译得到的 infrared-style 图像和文本描述组织成 RGB-IR-text triplets，并额外生成 49,068 条训练用 IR-aware captions 与 10,000 条测试用 IR-aware captions。论文用 FusionRS 训练 CLIP-style RGB-IR-text 对齐模型和生成式 VLM，显示 IR-aware captions 能显著增强红外图像描述、IR-cue QA 和红外-文本对齐。对遥感 AI 来说，它的价值不在于提供“真实热红外物理测量”，而在于提出一个很清晰的数据工程问题：如果遥感 VLM 要走向非 RGB、多模态、可解释描述，文本监督必须显式描述该模态的视觉证据，而不能只复用 RGB caption。

我按 2026-06-16 13:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是 RGB/infrared vision-language 数据集与模型训练论文，红外在这里是 visible/infrared 或 infrared-style 视觉模态，不是 SAR、InSAR、微波后向散射或雷达相干。同期本地文章已经覆盖 RATS、Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、CoastlineVLM、Stateful Visual Encoders、LG-SAM、VecLang、TerraBench、OSTB 等方向，因此这里不重复已有条目。

RATS：让 ViT 的 register token 自发学出可复用部件

Tue, 16 Jun 2026 11:00:03 +0800

RATS：让 ViT 的 register token 自发学出可复用部件

结论：这一轮最值得补进雷达的是 RATS! Patches Talk Through Registers: Emergent Parts in Register Attention Transformers。它不是遥感专用论文，而是一篇很适合迁移到遥感密集预测和可解释基础模型的 CV 方法：作者把 ViT 里原本用于全局聚合的分类 token，改造成多个 learnable register tokens，并让 patch 信息经过 L -> N -> N -> L 的 compress、communicate、broadcast 瓶颈流动。结果是，在没有部件标注、没有辅助分割损失的情况下，每个 register 会自发专化到相对一致的 proto-semantic region。论文报告 RATS 在 5 个 part/region segmentation benchmark 上平均 mIoU 比最强 baseline 高约 12 个点，并且用 Mask2Former 下游微调时，在 ADE20K 语义分割和 COCO instance segmentation 上也有小幅但一致提升。对遥感来说，RATS 的意义不是“直接拿来刷新 LoveDA”，而是提供了一种把大图 patch 组织成可复用局部部件的架构先验：建筑屋顶、道路交叉口、田块边界、水岸线、车辆/船舶局部结构，都可能从这种 register bottleneck 中得到更可解释、更可控的中间表示。

过去 24 小时遥感 AI 雷达：VLM 要看对区域，GeoFM 要接对任务，TTA 要有证据

Tue, 16 Jun 2026 09:00:02 +0800

过去 24 小时遥感 AI 雷达：VLM 要看对区域，GeoFM 要接对任务，TTA 要有证据

结论：过去 24 小时最强信号不是单个遥感 SOTA，而是几条方法线正在合到一起。 第一，Gaze Heads 说明 VLM 的区域描述可以被少数 attention heads 追踪和干预，这给遥感 VQA、开放词汇分割和变化解释提供了“看没看对区域”的可审计机制。第二，TTABC 把 CLIP/VLM 的 test-time adaptation 从刷榜拉回到证据、代理目标和 shift 类型的受控比较，对跨城市、跨季节、跨 GSD 遥感部署很关键。第三，Clay-CNN Hybrids 和 AI4Land 提醒我们，GeoFM 不一定要替代 U-Net 或业务管线，很多时候更适合作为上下文、先验和全球尺度生产系统的一部分。第四，RATS、Adaptive Visual Token Selection 和 OmniVideo-100K 这类 CV/ML 新工作分别给出 part-level token、层级 token 选择、结构化 evidence chain 的迁移路径。今天最值得做的研究方向是：把 box/mask prompt 作为空间锚点，用 gaze/head steering 约束 VLM 看哪里，再用 CLIP/GeoFM 的轻量 TTA 校准目标域类别、边界和置信度，最终输出 mask/polygon、证据区域、置信度和人工复核优先级。

我按 2026-06-16 09:00:02 +08:00 回看公开来源，重点检查 arXiv cs.CV 2026-06-15 recent 批次和近 3 个月内仍在形成趋势的 GeoFM/VLM/TTA 工作。本篇过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线；若论文来自通用 CV/ML，我只保留能明确迁移到光学、多光谱、VHR、UAV 或地理大数据任务的部分。

Gaze Heads：不用重训，直接把 VLM 的描述视线拨到指定区域

Tue, 16 Jun 2026 07:00:02 +0800

Gaze Heads：不用重训，直接把 VLM 的描述视线拨到指定区域

结论：这一轮最值得补进雷达的是 Gaze Heads: How VLMs Look at What They Describe。它不是遥感专用论文，而是一篇对遥感 VLM 很有迁移价值的 CV/ML 工作：作者发现 VLM 的语言模型 backbone 中存在一小组 attention heads，会跟踪模型当前正在描述的图像区域；只对这些 heads 加一个 inference-time attention-mask bias，就能把模型回答引到指定区域，不需要重新训练模型。论文在漫画面板任务上报告 top-100 gaze heads 的区域重定向准确率为 83.1%，项目页还显示同一机制可扩展到 COCO 自然图像的 bounding box 区域问答，并在 Qwen3-VL 2B 到 32B、Qwen2-VL、Ovis、InternVL 等模型家族中复现。对遥感来说，这个方向比“又做一个 VLM benchmark”更有用：它提供了一条可审计、可干预的区域 grounding 路线，可以服务于遥感 VQA、开放词表目标描述、变化解释、人工交互标注和幻觉诊断。

我按 2026-06-16 07:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是通用 VLM 机制解释与可控推理方法，不涉及 SAR backscatter、coherence、interferometry 或微波传感器。同期本地文章已经覆盖 AI4Land、Clay-CNN Hybrids、TTABC、RPC-GS、OSMGraphCLIP、TUE-CD、GeoFM layer probing、MaskWAM、ShearFuse-UNet、LALE、CoastlineVLM、Stateful Visual Encoders、LG-SAM、LPM、CSI-Net、VecLang、TerraBench、OSTB、BCP、UltraVR、ABot-Earth 等方向，因此这里不重复写已有遥感条目。

GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名

Mon, 15 Jun 2026 17:00:03 +0800

GeoFM 迁移评测：不要只看最后一层，decoder 也会改写排名

结论：这一轮最值得补进雷达的是 2026-06-11 提交到 arXiv 的 How do Self-Supervised Remote Sensing Vision Models Transfer to Downstream Tasks?。它不是再提出一个遥感基础模型，而是系统追问一个更容易被忽略的问题：GeoFM 到底把下游任务需要的信息放在了哪一层，评测时用最后一层 embedding、轻量 decoder、UPerNet 或 fine-tuning，会不会直接改变模型排名？论文比较 MoCo、MAE、DINO v1、Prithvi v1、CROMA 和 TerraMind，结论很直接：GeoFM 的“强弱”不是一个固定标签，而是任务、标签量、特征层、decoder 和微调策略共同作用的结果。

我按 2026-06-15 17:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是 GeoFM 迁移评测论文。虽然被比较的 CROMA 来自跨传感器预训练家族，论文的下游评测明确使用 optical/Sentinel-2 encoder；这里也只讨论光学/多光谱迁移、dense prediction 和评测协议，不把雷达分支作为主线。

它和前几轮的 Flexible GeoFM 不同。Flexible GeoFM 关心的是 band 配置、tokenization 和 missing-band 鲁棒性；本篇关心的是 同一个预训练模型被怎样读取和适配。换句话说，前者问“输入谱段不齐时架构怎么设计”，这篇问“模型内部哪一层才真正对下游有用，以及评测 head 有没有读对”。

背景

遥感基础模型这两年很容易陷入一个简单叙事：更大的预训练数据、更复杂的多模态目标、更高的 benchmark 总分，似乎就代表更强的通用能力。但真实下游使用并不这么干净。

一个模型可能在 EuroSAT 这类图像级土地覆盖分类上很好，却在像素级分割里一般；另一个模型可能在低层回归任务上保留更多光谱和环境信息，却不擅长高层语义；还有一些模型在 10% 标签设置下有优势，但标签变多后优势消失。更麻烦的是，很多评测默认取最后一层 embedding 或套一个标准 UPerNet decoder，可 GeoFM 的信息未必集中在最后一层。

过去 24 小时遥感 AI 雷达：GeoFM 比架构，VLM 比证据，Agent 比执行

Mon, 15 Jun 2026 09:00:02 +0800

过去 24 小时遥感 AI 雷达：GeoFM 比架构，VLM 比证据，Agent 比执行

结论：今天最值得看的不是单点 SOTA，而是遥感 AI 的评价对象正在变化。 GeoFM 方向开始从“谁的预训练更大”转向“同一协议下，架构如何处理缺 band、多光谱和下游任务”；GeoAI Agent 方向开始从“能不能调用工具”转向“能不能把遥感影像、格网数据、GIS、模拟器和文档证据串成可执行过程”；CV-to-RS 方向给出一个强信号：box/mask prompt 与 test-time adaptation 很适合做遥感开放词汇分割和变化检测的证据校准。

我按 2026-06-15 09:00:02 +08:00 回看公开来源。由于 arXiv 周末没有正常新一轮发布，严格 24 小时内没有比前几轮更强的新遥感主线；本篇保留最近一个可核验 release 窗口里仍值得进入日报的 5 个条目，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线。个别论文含 S1/S2 混合实验时，本文只讨论其 Sentinel-2、多光谱、缺 band 和架构泛化部分，不把 SAR 结果作为推荐依据。

今日 5 个重点

排名	论文/项目	来源时间	任务	数据/模态	贡献	代码/数据	分数	为什么重要
1	Emerging Flexible Designs for Geospatial Multimodal Foundation Models	arXiv, 2026-06-10	GeoFM 架构比较	Sentinel-2、多光谱、GEOBench	在同一预训练目标、数据和下游协议下比较 SatMAE、DOFA、Flex，重点看 band 灵活性和 dense prediction	论文公开；复现实验框架指向 Terratorch iterate	8.5	它把 GeoFM 讨论从“模型名对模型名”拉回到 tokenization、fusion、missing-band 这些可实验变量
2	TerraBench: Can Agents Reason Over Heterogeneous Earth-System Data?	arXiv, 2026-06-11	Earth-system agent benchmark	EO imagery、gridded data、GIS、simulation、documents	403 个 agentic tasks、3 个 track、8 个应用域、24,500 个 verified execution steps	论文公开；代码/benchmark 需继续跟踪入口	8.4	遥感 AI 评测开始要求过程证据、工具参数和 artifact provenance，而不是只看最终文字
3	GeoNatureAgent Benchmark	arXiv, 2026-06-11	环境地理分析 agent	GIS API、环境指标、BigEarthNet V2 扩展	93 个任务、18 类能力、16 个工具接口，评测真实 API 上的结构化 tool calling	论文称 benchmark、harness、自托管 API 公开	8.0	对生态、城市、农业场景很实用：检验 agent 是否真的会做地理分析，而不是会写漂亮解释
4	SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning	arXiv / project, 2026-06-11	VLM 空间推理接口	图像/视频、3D/4D 空间任务	训练自由框架，让 VLM 在 stateful Python kernel 中逐步写代码、观察结果、再推理	项目页公开；GitHub 需跟踪	7.8	这条 CV 线可迁移到遥感：大幅 tile、mask、polygon、DEM、GIS layer 都适合可执行代码轨迹
5	MaskWAM: Unifying Mask Prompting and Prediction for World-Action Models	arXiv / GitHub, 2026-06-11	Mask prompt / object-centric prediction	视频、mask、动作条件	把 mask 同时作为输入 prompt 和预测目标，降低语言指代歧义并抑制背景噪声	arXiv 与 GitHub README 可访问	7.5	虽然是机器人论文，但对遥感 VLM/SAM 很有迁移价值：box/mask prompt 可以成为跨域 TTA 的空间锚点

1. Flexible GeoFM：第一篇最值得精读

这篇的价值在于把 GeoFM 的争论变成可控实验。 过去很多遥感 foundation model 论文同时换了数据、任务、训练轮数、mask 策略、输入 band 和 decoder，很难判断到底是架构有效，还是训练 recipe 更强。Emerging Flexible Designs for Geospatial Multimodal Foundation Models 把 SatMAE、DOFA 和一个 ClimaX-inspired Flex 放进同一套自监督预训练和 GEOBench 下游协议里比较，重点问两个问题：多光谱 band 应该怎么 tokenization，跨 band / modality 的 fusion 应该放在什么位置。

LG-SAM：遥感视觉 grounding 不该只押一个模型

Mon, 15 Jun 2026 07:00:02 +0800

LG-SAM：遥感视觉 grounding 不该只押一个模型

结论：这一轮最值得单独跟踪的是 2026-05-30 提交到 arXiv 的 Improving Visual Grounding in Remote Sensing via Cluster-Guided Refinement and Model Ensemble Voting。它不是再造一个遥感 VLM，而是把 RemoteSAM 的遥感定位能力、SAM3 的通用分割能力、EarthMind / Falcon 这类遥感多模态模型的互补性放进同一个 grounding 框架里。对遥感 AI 来说，这篇工作的价值在于提醒我们：开放词汇定位和语言驱动分割在复杂遥感场景中很难靠单模型稳定解决，模型间的一致性本身可以成为一种可用的置信度信号。

我按 2026-06-15 07:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是光学遥感图像上的语言引导定位与分割，不以雷达数据为输入。它也不在前几轮已跟踪的 CoastlineVLM、Stateful Visual Encoder、BCP、UltraVR、SpatialClaw 等条目中，适合作为本轮单篇深挖。

背景

遥感 VLM 的一个真实瓶颈是 grounding。问答和 caption 可以看起来很流畅，但一旦要求模型把“机场跑道”“港口码头”“密集居民区中的操场”精确落到图像区域上，错误会立刻暴露出来。遥感影像里对象尺度跨度很大，背景高度重复，同一张图里可能有多个相似目标，普通自然图像模型常常能分割出漂亮 mask，却不一定找对对象。

这篇论文的问题定义很直接：视觉 grounding 要把自然语言描述对应到图像区域。作者认为，单一模型很难同时处理遥感里的定位、分割、尺度变化和复杂背景。RemoteSAM 更懂遥感，但输出可能粗糙、碎片化；SAM3 的 mask 质量强，但在大幅遥感图像中容易先找错位置；EarthMind 和 Falcon 这类遥感 VLM 在部分场景有效，但跨类别稳定性还不够。

所以它的主张不是“换一个更大的模型”，而是把多个模型的长处拆开使用：先用更懂遥感的模型给候选位置，再用更强的分割模型细化边界，最后用多模型投票抵消单模型失误。

方法

论文提出两条主要 pipeline。

第一条是 Sequential Grounding Refinement (SGR)。流程是先让 RemoteSAM 根据文本 prompt 产生初始位置，再把这些候选框交给 SAM3 生成更细的 segmentation mask。这个思路很自然，但论文实验发现，直接串联并不稳。RemoteSAM 的候选框如果碎片化、重叠或包含多余目标，SAM3 会被迫逐框处理，结果可能出现重复 mask 或错误分割。

Stateful Visual Encoders：把跨图比较前移到视觉端，遥感 VLM 才能记住变化

Mon, 15 Jun 2026 05:00:02 +0800

Stateful Visual Encoders：把跨图比较前移到视觉端，遥感 VLM 才能记住变化

结论：这一轮最值得单独跟踪的是 2026-06-03 的 Stateful Visual Encoders for Vision-Language Models。它不是遥感专用论文，但它把“多图比较”从语言侧前移到视觉编码器侧，正好击中遥感里最常见的痛点：双时相变化往往很小，语义又很接近，如果视觉表征先被独立编码，真正关键的差异会在进语言模型之前就被稀释掉。更重要的是，这篇工作在遥感上不是只做概念推断，而是直接在 LEVIR-CC 上验证了收益。

我按 2026-06-15 05:00 +08 检索公开来源，并优先保留有代码/项目页、且能明确转移到遥感任务的 CV 工作。这个条目比纯遥感专用论文更像“可迁移方法”：它不依赖 SAR、PolSAR 或 InSAR，主线是 open-weight VLM 的跨图比较能力，适合迁移到遥感变化描述、时序问答、细粒度差分审计和人工复核队列。

背景

遥感里的很多任务，本质都不是单图识别，而是“比较”。变化描述要回答哪里变了、变成什么；时序问答要判断两期影像里的差异是否成立；人工审核要区分真实变化、阴影、配准误差和纹理扰动。问题在于，现有很多 VLM 的比较方式发生在语言模型里，而视觉编码器仍然是逐张独立处理图像。

这对遥感很不友好。双时相影像里，真实变化常常只占很小一部分像素，建筑新增、道路延伸、农田轮作、灾后破坏都可能被大背景淹没。如果没有跨图上下文，视觉侧更容易把“小变化”当成噪声。等信息到语言模型时，能剩下的证据已经不够稳定。

所以这篇工作的核心不是“再做一个更大的 VLM”，而是把状态直接塞进视觉编码器，让当前图像的表示能看到前一张图像的特征。这和遥感变化检测、变化 captioning、以及多时相 VLM 的需求是对齐的。

方法

作者提出 Stateful Visual Encoder (SVE)，把视觉编码器从 stateless 变成 stateful。简单说，编码第 t 张图时，不再只看本图，而是同时参考前一张图的视觉特征。

论文比较了四种设计：Self-Ext、AdaLN-Zero、Cross 和 Cross+FFN。结果最稳的是 Cross+FFN，也就是当前图像 token 通过 cross-attention 去读取前一时相的视觉上下文，再接一个 FFN 做重整。

这套设计里有几个细节很关键：

weight cloning，把预训练块里的 Q/K/V 和部分 FFN 权重复制过来，减少训练初期的不稳定。
zero-init outputs，让新增分支一开始不会破坏原有特征分布。
stop-gradient 处理前一图像分支，把它当成稳定上下文，而不是一起乱漂。
给 cross-attention 加 positional information，并提供 first-image 的 fallback，保证多图输入时行为一致。

这套 recipe 的意义在于：它不是靠堆参数“硬记住变化”，而是把变化比较这件事变成视觉表征的一部分。对遥感来说，这比只在 prompt 里要求模型“比较两张图”更接近实际需求。