VLM - Tag - 堂堂一跑堂

RSVG-ZeroOV：把训练免费开放词汇 grounding 扩到遥感视频

Tue, 16 Jun 2026 17:00:02 +0800

RSVG-ZeroOV：把训练免费开放词汇 grounding 扩到遥感视频

结论：这一轮最值得补进雷达的是 2026-06-15 上 arXiv 的 Training-Free Open-Vocabulary Visual Grounding for Remote Sensing Images and Videos。它把 RSVG-ZeroOV 从图像级遥感开放词汇 grounding 扩展到视频级时空 grounding：用冻结 VLM 抽取文本相关注意力，用扩散模型补目标结构，再用 Evolve 模块净化 mask；视频部分再加 query-relevant key-frame selector 和 SAM3 temporal propagator。它的价值不在于训练了一个更大的遥感 VLM，而在于给出一个很清晰的系统范式：遥感开放词汇定位可以先从“训练大模型”转向“组合冻结基础模型的注意力、结构先验和时序传播”。

我按 2026-06-16 17:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本文使用的是光学遥感图像、低空 UAV 视频和通用视频 grounding benchmark，不把雷达类工作纳入讨论。同期本地文章已经覆盖 FusionRS、DEO、RATS、Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、CoastlineVLM、Stateful Visual Encoders、LG-SAM、VecLang、TerraBench、OSTB 等方向，因此这里不重复已有条目。

背景

遥感 VLM 的一个长期痛点是：模型会“看懂场景”，但不一定能把用户说的目标精确落到像素、框或视频 tube 上。直接让 Qwen2.5-VL、GeoChat、LLaVA 这类 VLM 输出坐标，经常能生成合理描述，却在小目标、密集场景、相对位置和复杂表达上定位不稳。遥感图像又特别放大了这个问题：目标尺度变化大，背景重复，机场、港口、道路和居民区里有大量同类小目标。

传统 RSVG 方法通常需要人工标注的 referring expression、box 或 mask。这个路线能在封闭类别和固定数据集上做高分，但很难覆盖真实用户会输入的开放词汇：例如“高速路最右侧正在行驶的红色集装箱卡车”“港口左侧的白色游艇”“比水面船只更小的白色单层巴士”。标注成本高，类别覆盖窄，表达形式也有限。

FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座

Tue, 16 Jun 2026 13:00:02 +0800

FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座

结论：这一轮最值得补进雷达的是 FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models。它不是又一个只做 RGB caption/retrieval 的遥感 VLM 数据集，而是把 60 万组遥感 RGB 图像、翻译得到的 infrared-style 图像和文本描述组织成 RGB-IR-text triplets，并额外生成 49,068 条训练用 IR-aware captions 与 10,000 条测试用 IR-aware captions。论文用 FusionRS 训练 CLIP-style RGB-IR-text 对齐模型和生成式 VLM，显示 IR-aware captions 能显著增强红外图像描述、IR-cue QA 和红外-文本对齐。对遥感 AI 来说，它的价值不在于提供“真实热红外物理测量”，而在于提出一个很清晰的数据工程问题：如果遥感 VLM 要走向非 RGB、多模态、可解释描述，文本监督必须显式描述该模态的视觉证据，而不能只复用 RGB caption。

我按 2026-06-16 13:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是 RGB/infrared vision-language 数据集与模型训练论文，红外在这里是 visible/infrared 或 infrared-style 视觉模态，不是 SAR、InSAR、微波后向散射或雷达相干。同期本地文章已经覆盖 RATS、Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、CoastlineVLM、Stateful Visual Encoders、LG-SAM、VecLang、TerraBench、OSTB 等方向，因此这里不重复已有条目。

过去 24 小时遥感 AI 雷达：VLM 要看对区域，GeoFM 要接对任务，TTA 要有证据

Tue, 16 Jun 2026 09:00:02 +0800

过去 24 小时遥感 AI 雷达：VLM 要看对区域，GeoFM 要接对任务，TTA 要有证据

结论：过去 24 小时最强信号不是单个遥感 SOTA，而是几条方法线正在合到一起。 第一，Gaze Heads 说明 VLM 的区域描述可以被少数 attention heads 追踪和干预，这给遥感 VQA、开放词汇分割和变化解释提供了“看没看对区域”的可审计机制。第二，TTABC 把 CLIP/VLM 的 test-time adaptation 从刷榜拉回到证据、代理目标和 shift 类型的受控比较，对跨城市、跨季节、跨 GSD 遥感部署很关键。第三，Clay-CNN Hybrids 和 AI4Land 提醒我们，GeoFM 不一定要替代 U-Net 或业务管线，很多时候更适合作为上下文、先验和全球尺度生产系统的一部分。第四，RATS、Adaptive Visual Token Selection 和 OmniVideo-100K 这类 CV/ML 新工作分别给出 part-level token、层级 token 选择、结构化 evidence chain 的迁移路径。今天最值得做的研究方向是：把 box/mask prompt 作为空间锚点，用 gaze/head steering 约束 VLM 看哪里，再用 CLIP/GeoFM 的轻量 TTA 校准目标域类别、边界和置信度，最终输出 mask/polygon、证据区域、置信度和人工复核优先级。

我按 2026-06-16 09:00:02 +08:00 回看公开来源，重点检查 arXiv cs.CV 2026-06-15 recent 批次和近 3 个月内仍在形成趋势的 GeoFM/VLM/TTA 工作。本篇过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线；若论文来自通用 CV/ML，我只保留能明确迁移到光学、多光谱、VHR、UAV 或地理大数据任务的部分。

Gaze Heads：不用重训，直接把 VLM 的描述视线拨到指定区域

Tue, 16 Jun 2026 07:00:02 +0800

Gaze Heads：不用重训，直接把 VLM 的描述视线拨到指定区域

结论：这一轮最值得补进雷达的是 Gaze Heads: How VLMs Look at What They Describe。它不是遥感专用论文，而是一篇对遥感 VLM 很有迁移价值的 CV/ML 工作：作者发现 VLM 的语言模型 backbone 中存在一小组 attention heads，会跟踪模型当前正在描述的图像区域；只对这些 heads 加一个 inference-time attention-mask bias，就能把模型回答引到指定区域，不需要重新训练模型。论文在漫画面板任务上报告 top-100 gaze heads 的区域重定向准确率为 83.1%，项目页还显示同一机制可扩展到 COCO 自然图像的 bounding box 区域问答，并在 Qwen3-VL 2B 到 32B、Qwen2-VL、Ovis、InternVL 等模型家族中复现。对遥感来说，这个方向比“又做一个 VLM benchmark”更有用：它提供了一条可审计、可干预的区域 grounding 路线，可以服务于遥感 VQA、开放词表目标描述、变化解释、人工交互标注和幻觉诊断。

我按 2026-06-16 07:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是通用 VLM 机制解释与可控推理方法，不涉及 SAR backscatter、coherence、interferometry 或微波传感器。同期本地文章已经覆盖 AI4Land、Clay-CNN Hybrids、TTABC、RPC-GS、OSMGraphCLIP、TUE-CD、GeoFM layer probing、MaskWAM、ShearFuse-UNet、LALE、CoastlineVLM、Stateful Visual Encoders、LG-SAM、LPM、CSI-Net、VecLang、TerraBench、OSTB、BCP、UltraVR、ABot-Earth 等方向，因此这里不重复写已有遥感条目。

TTABC：遥感 VLM 的测试时自适应，先别急着调参

Mon, 15 Jun 2026 23:00:02 +0800

TTABC：遥感 VLM 的测试时自适应，先别急着调参

结论：这一轮最值得补进雷达的是 2026-06-12 提交到 arXiv 的 What Drives Test-Time Adaptation for CLIP? A Controlled Empirical Study from an Update Perspective。它不是遥感专用模型，但对遥感 VLM 很有用：论文把 CLIP 测试时自适应方法按“更新什么”分成 parameter-based、state-based、inference-based 三类，并提出 TTABC 这个开源 TTA Benchmark for CLIP，统一评测 20 多个代表性方法。最关键的结论不是谁刷到最高分，而是：很多收益来自测试时证据和可靠代理信号，而不是更重的梯度更新；不同分布偏移下没有通吃方案。对遥感来说，这正好对应跨地区、跨季节、跨传感器、开放词表类别漂移这些真实部署问题。

我按 2026-06-15 23:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择 TTABC，是因为今天前几轮已经覆盖了 OSMGraphCLIP、TUE-CD、GeoFM layer probing、MaskWAM、ShearFuse、LALE 等遥感条目；继续找一个新遥感 backbone 的边际价值不高。TTABC 虽然来自通用 CV/VLM，但它给遥感 VLM 一个更紧的问题：模型到新地区、新季节、新类别组合时，应该怎么自适应，应该怎么评测，什么时候不该自适应。

需要先说明边界：TTABC 当前评测主体是 CLIP 图像分类，不是遥感分割、检测、VQA 或 grounding。它纳入 EuroSAT，但不是遥感全任务 benchmark。因此本文把它作为 CV-to-RS 迁移项，而不是遥感论文。它的价值在于评测协议和机制拆解，可以被迁移到 RemoteCLIP、GeoRSCLIP、SkySense、VHM、GeoChat、Earth-Agent 这类遥感 VLM 或 GeoFM+文本系统上。

MaskWAM：遥感时序模型也该预测 mask，而不只是预测影像

Mon, 15 Jun 2026 13:00:03 +0800

MaskWAM：遥感时序模型也该预测 mask，而不只是预测影像

结论：这一轮最值得补进雷达的是 2026-06-11 提交到 arXiv 的 MaskWAM: Unifying Mask Prompting and Prediction for World-Action Models。它本身是机器人 World-Action Model，不是遥感论文；但它给遥感 AI 一个很直接的启发：如果模型要理解“哪里会变、哪个对象重要、未来应该关注什么”，就不应只重建 RGB 或多光谱影像，还应该显式预测任务相关 mask。对光学遥感变化检测、灾害扩散、农田物候、道路/建筑增量更新和 VLM 空间指代来说，mask 既可以是 prompt，也可以是监督目标。

我按 2026-06-15 13:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是一个 CV/机器人方向的可迁移方法，不涉及雷达输入。它和前几轮已经写过的 SpatialClaw、Earth-Agent、TerraBench、Plan2Map、VecLang、CoastlineVLM、Stateful Visual Encoder 等不同：重点不是工具调用或 VLM 答题，而是把 mask prompt 和 future mask prediction 合并成一个可训练的时空接口。

背景

遥感时序建模里有一个长期问题：我们经常让模型预测像素、预测差异图、预测类别图，或者直接输出变化检测结果，但很少追问模型内部到底在“跟踪哪个对象”。

这在简单二时相变化检测里还可以靠差分特征糊过去。一旦场景变复杂，问题就出来了。比如同一张超高分影像里有多栋相似建筑，文本说“新建的厂房”并不能精确指向目标；农田时序里作物、裸地、阴影和云边界经常混在一起；灾害前后影像中，真正应该关注的是滑坡体、受损建筑、淹没边界或道路阻断，而不是整幅图的外观重建。

现有遥感基础模型和 VLM 很擅长做全局表征、caption、VQA 或开放词表识别，但它们仍容易把“语义上相关”和“空间上对准”混为一谈。用户问的是某个目标、某片区域、某条边界，模型却可能靠上下文猜测。更麻烦的是，如果训练目标只是 RGB/多光谱重建，模型会把云影、纹理、背景和无关地物也当成同等重要的预测对象。

MaskWAM 的价值就在这里。它虽然来自机器人操作，但提出了一个可以迁移到遥感的原则：不要只让模型预测未来画面，也要让它预测未来的任务相关 mask；不要只用文字描述目标，也要允许首帧 mask 作为空间锚点。

论文/项目

MaskWAM 的 arXiv 页面显示论文于 2026-06-11 提交，主题包括 computer vision、machine learning 和 robotics。作者来自香港科技大学、Tencent Robotics X 和清华大学。官方项目页和 GitHub 仓库已经开放，仓库说明这是官方实现，但截至本轮检索，训练、推理、模型权重、数据准备和评测脚本仍在准备发布。

LALE：遥感分割别只追大模型，也要追每瓦精度

Mon, 15 Jun 2026 11:00:02 +0800

LALE：遥感分割别只追大模型，也要追每瓦精度

结论：这一轮最值得补进雷达的是 2026-06-01 提交到 arXiv 的 LALE: Lightweight-Transformer Architecture for Land-Cover Estimation。它不是又一个遥感基础模型，也不是 VLM 问答模型，而是把遥感语义分割里常被忽略的效率问题放到台前：高分辨率影像需要局部细节，土地覆盖又需要大范围上下文，但全分辨率 self-attention 太贵。LALE 的价值在于给出一个很朴素也很可复用的设计原则：高分辨率阶段用轻量卷积守住纹理和边界，低分辨率阶段再用 Transformer 建模全局关系。

我按 2026-06-15 11:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是真彩/光学遥感语义分割与土地覆盖估计，不以雷达数据为输入。它也没有出现在前几轮已写过的 CoastlineVLM、BCP、UltraVR、GMBFormer、ABot-Earth、LPM、Stateful Visual Encoder、LG-SAM 等条目里，适合作为本轮单篇深挖。

背景

遥感语义分割这几年有两个方向越走越明显。

一个方向是大模型化。GeoFM、VLM、SAM/开放词表分割、跨传感器预训练都在强调更大的预训练数据、更强的视觉语言对齐和更通用的任务接口。这条线很重要，但它经常默认推理成本不是第一矛盾。

另一个方向是生产化。真实土地覆盖制图、灾害应急、城市更新、农业监测不会只跑几张 benchmark 图，而是要扫很大的区域，常常还要在有限 GPU、边缘设备、云端批处理预算或近实时约束下工作。这个场景里，模型是否多 1 个点 mIoU 固然重要，但参数量、GMACs、吞吐、显存、训练时间和数据管线复杂度同样关键。

LALE 切入的就是第二条线。论文的基本判断是：遥感分割同时需要局部细节和全局上下文。CNN 在局部纹理、边界和小目标上有效，但长距离关系有限；Transformer 能建模全局上下文，但在高分辨率特征图上计算代价太高。很多混合架构把 ImageNet backbone 和重型 decoder 拼起来，准确率可以，但效率不一定适合遥感大图。

因此，LALE 没有把注意力机制铺满全网，而是按空间分辨率分工：前两段高分辨率特征用 ConvMixer 处理局部细节，后两段低分辨率特征用 Transformer 处理全局上下文。这个设计非常“工程”，但正好对准遥感分割的成本结构。

论文/项目

LALE 论文的 arXiv 页面显示提交时间是 2026-06-01，主题分类包括 eess.IV、cs.AI 和 cs.CV。论文使用的核心 benchmark 是 ARAS400k，这是同一作者团队此前提出的遥感合成数据增强数据集与评测框架。

ARAS400k 本身也值得一起看。它来自 Grounding Synthetic Data Generation With Vision and Language Models，arXiv v2 修订于 2026-05-02，并被 CVPR 2026 Synthetic Data for Computer Vision Workshop 接收。这个数据集包含 100k real images 和 300k synthetic images，每张图配有 segmentation map 和 description，目标是把遥感语义分割、caption 和合成数据质量评估连起来。

过去 24 小时遥感 AI 雷达：GeoFM 比架构，VLM 比证据，Agent 比执行

Mon, 15 Jun 2026 09:00:02 +0800

过去 24 小时遥感 AI 雷达：GeoFM 比架构，VLM 比证据，Agent 比执行

结论：今天最值得看的不是单点 SOTA，而是遥感 AI 的评价对象正在变化。 GeoFM 方向开始从“谁的预训练更大”转向“同一协议下，架构如何处理缺 band、多光谱和下游任务”；GeoAI Agent 方向开始从“能不能调用工具”转向“能不能把遥感影像、格网数据、GIS、模拟器和文档证据串成可执行过程”；CV-to-RS 方向给出一个强信号：box/mask prompt 与 test-time adaptation 很适合做遥感开放词汇分割和变化检测的证据校准。

我按 2026-06-15 09:00:02 +08:00 回看公开来源。由于 arXiv 周末没有正常新一轮发布，严格 24 小时内没有比前几轮更强的新遥感主线；本篇保留最近一个可核验 release 窗口里仍值得进入日报的 5 个条目，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线。个别论文含 S1/S2 混合实验时，本文只讨论其 Sentinel-2、多光谱、缺 band 和架构泛化部分，不把 SAR 结果作为推荐依据。

今日 5 个重点

排名	论文/项目	来源时间	任务	数据/模态	贡献	代码/数据	分数	为什么重要
1	Emerging Flexible Designs for Geospatial Multimodal Foundation Models	arXiv, 2026-06-10	GeoFM 架构比较	Sentinel-2、多光谱、GEOBench	在同一预训练目标、数据和下游协议下比较 SatMAE、DOFA、Flex，重点看 band 灵活性和 dense prediction	论文公开；复现实验框架指向 Terratorch iterate	8.5	它把 GeoFM 讨论从“模型名对模型名”拉回到 tokenization、fusion、missing-band 这些可实验变量
2	TerraBench: Can Agents Reason Over Heterogeneous Earth-System Data?	arXiv, 2026-06-11	Earth-system agent benchmark	EO imagery、gridded data、GIS、simulation、documents	403 个 agentic tasks、3 个 track、8 个应用域、24,500 个 verified execution steps	论文公开；代码/benchmark 需继续跟踪入口	8.4	遥感 AI 评测开始要求过程证据、工具参数和 artifact provenance，而不是只看最终文字
3	GeoNatureAgent Benchmark	arXiv, 2026-06-11	环境地理分析 agent	GIS API、环境指标、BigEarthNet V2 扩展	93 个任务、18 类能力、16 个工具接口，评测真实 API 上的结构化 tool calling	论文称 benchmark、harness、自托管 API 公开	8.0	对生态、城市、农业场景很实用：检验 agent 是否真的会做地理分析，而不是会写漂亮解释
4	SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning	arXiv / project, 2026-06-11	VLM 空间推理接口	图像/视频、3D/4D 空间任务	训练自由框架，让 VLM 在 stateful Python kernel 中逐步写代码、观察结果、再推理	项目页公开；GitHub 需跟踪	7.8	这条 CV 线可迁移到遥感：大幅 tile、mask、polygon、DEM、GIS layer 都适合可执行代码轨迹
5	MaskWAM: Unifying Mask Prompting and Prediction for World-Action Models	arXiv / GitHub, 2026-06-11	Mask prompt / object-centric prediction	视频、mask、动作条件	把 mask 同时作为输入 prompt 和预测目标，降低语言指代歧义并抑制背景噪声	arXiv 与 GitHub README 可访问	7.5	虽然是机器人论文，但对遥感 VLM/SAM 很有迁移价值：box/mask prompt 可以成为跨域 TTA 的空间锚点

1. Flexible GeoFM：第一篇最值得精读

这篇的价值在于把 GeoFM 的争论变成可控实验。 过去很多遥感 foundation model 论文同时换了数据、任务、训练轮数、mask 策略、输入 band 和 decoder，很难判断到底是架构有效，还是训练 recipe 更强。Emerging Flexible Designs for Geospatial Multimodal Foundation Models 把 SatMAE、DOFA 和一个 ClimaX-inspired Flex 放进同一套自监督预训练和 GEOBench 下游协议里比较，重点问两个问题：多光谱 band 应该怎么 tokenization，跨 band / modality 的 fusion 应该放在什么位置。

LG-SAM：遥感视觉 grounding 不该只押一个模型

Mon, 15 Jun 2026 07:00:02 +0800

LG-SAM：遥感视觉 grounding 不该只押一个模型

结论：这一轮最值得单独跟踪的是 2026-05-30 提交到 arXiv 的 Improving Visual Grounding in Remote Sensing via Cluster-Guided Refinement and Model Ensemble Voting。它不是再造一个遥感 VLM，而是把 RemoteSAM 的遥感定位能力、SAM3 的通用分割能力、EarthMind / Falcon 这类遥感多模态模型的互补性放进同一个 grounding 框架里。对遥感 AI 来说，这篇工作的价值在于提醒我们：开放词汇定位和语言驱动分割在复杂遥感场景中很难靠单模型稳定解决，模型间的一致性本身可以成为一种可用的置信度信号。

我按 2026-06-15 07:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是光学遥感图像上的语言引导定位与分割，不以雷达数据为输入。它也不在前几轮已跟踪的 CoastlineVLM、Stateful Visual Encoder、BCP、UltraVR、SpatialClaw 等条目中，适合作为本轮单篇深挖。

背景

遥感 VLM 的一个真实瓶颈是 grounding。问答和 caption 可以看起来很流畅，但一旦要求模型把“机场跑道”“港口码头”“密集居民区中的操场”精确落到图像区域上，错误会立刻暴露出来。遥感影像里对象尺度跨度很大，背景高度重复，同一张图里可能有多个相似目标，普通自然图像模型常常能分割出漂亮 mask，却不一定找对对象。

这篇论文的问题定义很直接：视觉 grounding 要把自然语言描述对应到图像区域。作者认为，单一模型很难同时处理遥感里的定位、分割、尺度变化和复杂背景。RemoteSAM 更懂遥感，但输出可能粗糙、碎片化；SAM3 的 mask 质量强，但在大幅遥感图像中容易先找错位置；EarthMind 和 Falcon 这类遥感 VLM 在部分场景有效，但跨类别稳定性还不够。

所以它的主张不是“换一个更大的模型”，而是把多个模型的长处拆开使用：先用更懂遥感的模型给候选位置，再用更强的分割模型细化边界，最后用多模型投票抵消单模型失误。

方法

论文提出两条主要 pipeline。

第一条是 Sequential Grounding Refinement (SGR)。流程是先让 RemoteSAM 根据文本 prompt 产生初始位置，再把这些候选框交给 SAM3 生成更细的 segmentation mask。这个思路很自然，但论文实验发现，直接串联并不稳。RemoteSAM 的候选框如果碎片化、重叠或包含多余目标，SAM3 会被迫逐框处理，结果可能出现重复 mask 或错误分割。

Stateful Visual Encoders：把跨图比较前移到视觉端，遥感 VLM 才能记住变化

Mon, 15 Jun 2026 05:00:02 +0800

Stateful Visual Encoders：把跨图比较前移到视觉端，遥感 VLM 才能记住变化

结论：这一轮最值得单独跟踪的是 2026-06-03 的 Stateful Visual Encoders for Vision-Language Models。它不是遥感专用论文，但它把“多图比较”从语言侧前移到视觉编码器侧，正好击中遥感里最常见的痛点：双时相变化往往很小，语义又很接近，如果视觉表征先被独立编码，真正关键的差异会在进语言模型之前就被稀释掉。更重要的是，这篇工作在遥感上不是只做概念推断，而是直接在 LEVIR-CC 上验证了收益。

我按 2026-06-15 05:00 +08 检索公开来源，并优先保留有代码/项目页、且能明确转移到遥感任务的 CV 工作。这个条目比纯遥感专用论文更像“可迁移方法”：它不依赖 SAR、PolSAR 或 InSAR，主线是 open-weight VLM 的跨图比较能力，适合迁移到遥感变化描述、时序问答、细粒度差分审计和人工复核队列。

背景

遥感里的很多任务，本质都不是单图识别，而是“比较”。变化描述要回答哪里变了、变成什么；时序问答要判断两期影像里的差异是否成立；人工审核要区分真实变化、阴影、配准误差和纹理扰动。问题在于，现有很多 VLM 的比较方式发生在语言模型里，而视觉编码器仍然是逐张独立处理图像。

这对遥感很不友好。双时相影像里，真实变化常常只占很小一部分像素，建筑新增、道路延伸、农田轮作、灾后破坏都可能被大背景淹没。如果没有跨图上下文，视觉侧更容易把“小变化”当成噪声。等信息到语言模型时，能剩下的证据已经不够稳定。

所以这篇工作的核心不是“再做一个更大的 VLM”，而是把状态直接塞进视觉编码器，让当前图像的表示能看到前一张图像的特征。这和遥感变化检测、变化 captioning、以及多时相 VLM 的需求是对齐的。

方法

作者提出 Stateful Visual Encoder (SVE)，把视觉编码器从 stateless 变成 stateful。简单说，编码第 t 张图时，不再只看本图，而是同时参考前一张图的视觉特征。

论文比较了四种设计：Self-Ext、AdaLN-Zero、Cross 和 Cross+FFN。结果最稳的是 Cross+FFN，也就是当前图像 token 通过 cross-attention 去读取前一时相的视觉上下文，再接一个 FFN 做重整。

这套设计里有几个细节很关键：

weight cloning，把预训练块里的 Q/K/V 和部分 FFN 权重复制过来，减少训练初期的不稳定。
zero-init outputs，让新增分支一开始不会破坏原有特征分布。
stop-gradient 处理前一图像分支，把它当成稳定上下文，而不是一起乱漂。
给 cross-attention 加 positional information，并提供 first-image 的 fallback，保证多图输入时行为一致。

这套 recipe 的意义在于：它不是靠堆参数“硬记住变化”，而是把变化比较这件事变成视觉表征的一部分。对遥感来说，这比只在 prompt 里要求模型“比较两张图”更接近实际需求。