Stateful Visual Encoders：把跨图比较前移到视觉端，遥感 VLM 才能记住变化

WangTong included in category 遥感基础模型与多模态理解

2026-06-15 05:00:02 2026-06-15 05:00:02 200 words One minute

Contents

Stateful Visual Encoders：把跨图比较前移到视觉端，遥感 VLM 才能记住变化

结论：这一轮最值得单独跟踪的是 2026-06-03 的 Stateful Visual Encoders for Vision-Language Models。它不是遥感专用论文，但它把“多图比较”从语言侧前移到视觉编码器侧，正好击中遥感里最常见的痛点：双时相变化往往很小，语义又很接近，如果视觉表征先被独立编码，真正关键的差异会在进语言模型之前就被稀释掉。更重要的是，这篇工作在遥感上不是只做概念推断，而是直接在 LEVIR-CC 上验证了收益。

我按 2026-06-15 05:00 +08 检索公开来源，并优先保留有代码/项目页、且能明确转移到遥感任务的 CV 工作。这个条目比纯遥感专用论文更像“可迁移方法”：它不依赖 SAR、PolSAR 或 InSAR，主线是 open-weight VLM 的跨图比较能力，适合迁移到遥感变化描述、时序问答、细粒度差分审计和人工复核队列。

背景

遥感里的很多任务，本质都不是单图识别，而是“比较”。变化描述要回答哪里变了、变成什么；时序问答要判断两期影像里的差异是否成立；人工审核要区分真实变化、阴影、配准误差和纹理扰动。问题在于，现有很多 VLM 的比较方式发生在语言模型里，而视觉编码器仍然是逐张独立处理图像。

这对遥感很不友好。双时相影像里，真实变化常常只占很小一部分像素，建筑新增、道路延伸、农田轮作、灾后破坏都可能被大背景淹没。如果没有跨图上下文，视觉侧更容易把“小变化”当成噪声。等信息到语言模型时，能剩下的证据已经不够稳定。

所以这篇工作的核心不是“再做一个更大的 VLM”，而是把状态直接塞进视觉编码器，让当前图像的表示能看到前一张图像的特征。这和遥感变化检测、变化 captioning、以及多时相 VLM 的需求是对齐的。

方法

作者提出 Stateful Visual Encoder (SVE)，把视觉编码器从 stateless 变成 stateful。简单说，编码第 t 张图时，不再只看本图，而是同时参考前一张图的视觉特征。

论文比较了四种设计：Self-Ext、AdaLN-Zero、Cross 和 Cross+FFN。结果最稳的是 Cross+FFN，也就是当前图像 token 通过 cross-attention 去读取前一时相的视觉上下文，再接一个 FFN 做重整。

这套设计里有几个细节很关键：

weight cloning，把预训练块里的 Q/K/V 和部分 FFN 权重复制过来，减少训练初期的不稳定。
zero-init outputs，让新增分支一开始不会破坏原有特征分布。
stop-gradient 处理前一图像分支，把它当成稳定上下文，而不是一起乱漂。
给 cross-attention 加 positional information，并提供 first-image 的 fallback，保证多图输入时行为一致。

这套 recipe 的意义在于：它不是靠堆参数“硬记住变化”，而是把变化比较这件事变成视觉表征的一部分。对遥感来说，这比只在 prompt 里要求模型“比较两张图”更接近实际需求。

实验

这篇工作先在受控对比任务上证明，SVE 对跨图空间聚合、多目标差异识别和轨迹行为克隆都有效，而且在不同分辨率、不同模型大小、不同 VLM backbone 上都能稳定工作。

更值得看的是现实任务。作者明确在 longitudinal radiology、fine-grained image comparison 和 remote sensing 上做了验证。遥感部分主要落在 LEVIR-CC 的 change captioning 上，SVE 让通用 VLM 基线不再只是“能说”，而是更会抓变化细节。

从项目页给出的 LEVIR-CC 结果看，Qwen3.5-4B (SFT) 的 CIDEr 为 142.26，加入 SVE 后提升到 144.35，S_m* 也从 79.60 提到 80.46。这说明收益不只是单一指标上的波动，而是整体描述质量和变化一致性都在变好。

更重要的是，作者强调 SVE 在遥感上可以和 specialist 模型竞争，甚至在某些设置下超过它们。这一点很有价值，因为遥感变化描述长期被专门的 captioning 模型占着，但这类模型通常比较脆，迁移到新城市、新传感器或更复杂时序时会掉得很快。

亮点

第一，它把“视觉比较”从语言侧挪回了视觉侧。对遥感来说，这几乎是对症下药，因为变化证据本来就先体现在像素和局部结构上。

第二，它证明了通用 CV 方法可以直接为遥感服务，不一定要先做成遥感专用架构。只要任务定义足够清楚，改的是比较机制，不是换个名字。

第三，它对遥感 VLM 的启发很具体：变化 captioning、双时相 VQA、变化审计、人工复核排序，都可以用这种 stateful encoder 做前端证据提取。

第四，它比单纯的 prompt engineering 更稳。prompt 能要求模型比较，但不能保证视觉证据没有先被冲掉；stateful encoder 则直接改变证据进入语言模型之前的表示方式。

不足

第一，这仍然不是遥感专用方法，没有显式加入地理先验、空间拓扑或 GIS 约束。对建筑轮廓、道路、地块这类结构化对象，后面还得接矢量化或对象级约束。

第二，LEVIR-CC 仍然是经典基准，不等于真实部署。跨城市、跨年份、跨分辨率、跨传感器的稳定性还需要进一步验证。

第三，它提升的是比较能力，不是完整的遥感理解栈。要做成可用系统，还得配合 change proposal、区域定位、置信度校准和不确定性解释。

启发

如果把这条线继续往遥感方向推，我会把它放到“变化证据抽取器”而不是最终生成器的位置。也就是先用 SVE 类结构压住跨图比较里的信息损失，再让更上层的 VLM 或 Agent 做解释、归因和审核。

一个可行的小题目是：stateful encoder + change audit head。输入两期影像，先输出候选变化区域、差异类型和置信度，再让语言模型只负责说明“这里更像真实变化，还是阴影/配准/季节扰动”。这样可以把 captioning、VQA 和 change detection 连成一条链。

可直接复用的提示词可以写成：

你是遥感双时相变化审计器。
给定 T1/T2 影像和候选变化区域，请先判断是否存在真实变化，再解释变化证据来自哪里。
必须区分真实变化、阴影、配准误差、季节差异和纹理扰动。
如果证据不足，输出不确定，并说明还需要哪类辅助信息。
不要只给一句描述，要同时给出区域、原因、置信度和人工复核优先级。

这条路线的价值不在于让 VLM 替代变化检测，而在于让它学会看懂变化证据。对遥感来说，这比单纯会描述图片更接近真实业务。

Contents

Stateful Visual Encoders：把跨图比较前移到视觉端，遥感 VLM 才能记住变化

Stateful Visual Encoders：把跨图比较前移到视觉端，遥感 VLM 才能记住变化

背景

方法

实验

亮点

不足

启发

参考

Related Content

评论

Stateful Visual Encoders：把跨图比较前移到视觉端，遥感 VLM 才能记住变化

Stateful Visual Encoders：把跨图比较前移到视觉端，遥感 VLM 才能记住变化

背景

方法

实验

亮点

不足

启发

参考

Related Content

RSVG-ZeroOV：把训练免费开放词汇 grounding 扩到遥感视频

FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座

过去 24 小时遥感 AI 雷达：VLM 要看对区域，GeoFM 要接对任务，TTA 要有证据

Gaze Heads：不用重训，直接把 VLM 的描述视线拨到指定区域

TTABC：遥感 VLM 的测试时自适应，先别急着调参

评论