RS-16 Semantic Change VQA

WangTong included in category 遥感基础模型与多模态理解 and series 2024-2026 遥感 AI 细分研究方向

2026-06-07 09:15:00 2026-06-07 09:15:00 1071 words 5 minutes

Series - 2024-2026 遥感 AI 细分研究方向

RS-16 Semantic Change VQA

范围：双时相/多时相光学遥感为主；灾害类工作若包含 SAR，只作为 mixed-modality 参考，不作为本方向主线。核心问题是：给定同一区域不同时相影像，模型不仅要输出变化区域，还要回答“变了什么、在哪里、多少、为什么像是这种变化、证据区域在哪里”。

结论摘要

2024-2026 已经出现直接命中的任务定义：CDQAG、Change VQA、RSICA、interactive change understanding。它们把传统 change detection 的 mask 监督扩展为 question-answer-grounding 三元组。
最值得跟进的锚点是 VisTA/QAG-360K：它明确提出 Change Detection Question Answering and Grounding，要求文本答案和视觉 mask 同时可解释。
ChangeChat 和 DeltaVLM 是交互式变化分析路线：把 change captioning、分类、计数、定位、多轮问答统一成指令微调。
OmniCD、TERRA-CD、HiSem、Change3D 分别补上 multimodal semantic guidance、多类别语义变化数据、change caption 的层级语义解耦、以及“把双时相当 tiny video”的统一变化表征。
当前空白：很多模型会给变化描述，但证据 mask、数量、类别层级和开放式回答之间不一致；多数 benchmark 还没有把“答对但证据错”“mask 对但语义错”“变化存在但原因解释错”拆开评估。

问题由来

传统遥感变化检测主要回答“哪里变了”，输出二值变化图；语义变化检测进一步回答“从什么变成什么”，输出 changed / unchanged 或 class transition map；change captioning 用自然语言描述变化，但通常是一段单向 caption，不支持用户按类别、区域、数量或原因追问。

Semantic Change VQA 的动机来自这个缺口：真实用户不会只问“是否变化”，而会问：

新增建筑在哪里？面积大约多少？
道路有没有扩建？证据区域在哪个角落？
水体减少是边界收缩还是被建筑/裸地替代？
这张灾前/灾后影像中，损毁最严重的建筑群在哪里？
如果只关心 vegetation-to-urban 的变化，模型能否给出 mask 和文字解释？

因此，这个方向的关键不是把 VQA 硬套到双时相图像上，而是建立一个约束链条：

bi-temporal images -> temporal difference representation -> semantic answer -> evidence mask/box -> quantitative consistency -> uncertainty

代表论文与项目

项目/论文	年份/来源	链接	代码/数据	与 RS-16 的关系
Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection	2024 arXiv	paper	VisTA/QAG-360K	直接定义 CDQAG；构造 360K+ question-answer-mask triplets，覆盖 10 类土地覆盖和 8 类问题。
ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning	2024 arXiv	paper	GitHub	早期 bitemporal VLM；支持 change captioning、类别量化、定位和交互式问答。
RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented MoE	2024 arXiv	paper, project	GitHub	统一图像级、区域级、像素级任务；包含 multi-image change detection/change captioning 线索。
UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models	2024 arXiv	paper	未核验到稳定代码	用 VLM 统一多时相任务，包括 VQA、change captioning、video scene classification。
Change3D: Revisiting Change Detection and Captioning from A Video Modeling Perspective	2025 CVPR Highlight	CVF, arXiv	GitHub	把双时相影像看作 tiny video，通过 learnable perception frames 统一 change detection 与 captioning。可作为 Semantic Change VQA 的视觉差异编码器。
DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception	2025 arXiv	paper	GitHub	提出 RSICA；ChangeChat-105k 覆盖 caption、classification、quantification、localization、open-ended QA、多轮对话。
Towards Comprehensive Interactive Change Understanding in Remote Sensing / ChangeVG	2025 arXiv	paper	论文称公开 GitHub，需后续核验	构造 ChangeIMTI；四类任务包括 captioning、binary classification、counting、localization。
RSCC: A Large-Scale Remote Sensing Change Caption Dataset for Disaster Events	2025 NeurIPS Datasets & Benchmarks	project, arXiv	GitHub	大规模灾害 change caption 数据；适合扩展灾害类 semantic change VQA。
SECOND-CC / MModalCC	2025 arXiv	paper	GitHub planned	提供语义分割图和 change caption，可补充“caption-mask consistency”评测。
Referring Change Detection in Remote Sensing Imagery	2026 WACV	project	project page links GitHub / weights	用文本指代表达定位变化类别；非常适合做“问题中指定类别/属性 -> mask”的子任务。
OmniCD: A Foundational Framework for Remote Sensing Image Change Detection Guided by Multimodal Semantics	2026 arXiv	paper	未核验到官方 GitHub；论文称 RSITCD 300K+ image-text pairs	把文本描述、语义图、地理元数据作为变化检测语义引导；适合做 foundation backbone/baseline。
TERRA-CD: Multi-Temporal Framework for Multi-class and Semantic Change Detection	2026 arXiv	paper	GitHub	多时相、多类别和语义变化检测数据/基线；适合提供 transition-level mask 监督。
HiSem: Hierarchical Semantic Disentangling for Remote Sensing Image Change Captioning	2026 arXiv	paper	GitHub planned	将 change existence 与 fine-grained semantics 分层解耦；适合借鉴为 “先判是否变化，再答细问题”。
Revisiting Change VQA in Remote Sensing with Structured and Native Multimodal Qwen Models	2026 arXiv	paper	未核验到官方代码	直接面向 Change VQA，对比结构化 pipeline 与 native multimodal Qwen，适合作为强 VLM baseline。
RSRCC: Remote Sensing Regional Change Comprehension Benchmark	2026 arXiv	paper	未核验到官方代码	新的 change question-answering benchmark，126K 问题；可与 QAG-360K/ChangeChat-105k 互补。
ChangeQuery: Disaster Change Query	2026 arXiv	paper, project	project page	mixed-modality 灾害交互式变化理解；因包含 SAR，不作为本方向主线，但其 statistics-first annotation pipeline 值得借鉴。
GeoChat	2024 CVPR	CVF	GitHub	通用 grounded RS-VLM，可作为单时相 grounding/VQA 组件，但需要改造为双时相输入。
OmniEarth	2026 arXiv	paper	Hugging Face dataset	通用 geospatial VLM benchmark，含 open-ended VQA、box、mask 输出；可借鉴 blind test 与 semantic consistency 设计。
GEOBench-VLM	2025 ICCV	CVF PDF	GitHub	包含 temporal analysis 等地理 VLM 能力维度；适合对齐通用 RS-VLM 评测格式。

方法族比较

1. Mask-first：传统变化检测扩展到问答

先训练 binary/semantic change detection 模型得到变化 mask 或 transition map，再用规则或 LLM 将 mask 统计转成答案。

优点：证据区域可控，mIoU/F1 等指标清楚。
缺点：问题类型受限，开放式问答弱，难处理“为什么/哪一块更严重/相比另一处如何”的交互式问题。
代表：TERRA-CD、传统 SCD 模型、VisTA 中的 grounding 分支可借鉴。

2. Caption-first：变化描述扩展到问答

先做 change captioning，再把 caption 转成 QA 或用 VLM 直接回答。

优点：自然语言表达强，适合用户理解。
缺点：证据 mask 弱，容易“描述对但区域错”；caption 指标 BLEU/CIDEr 不能保证空间正确。
代表：LEVIR-CC、RSCC、SECOND-CC、HiSem、Change3D 的 captioning 部分。

3. Instruction-first：双时相 VLM 统一交互式分析

把 caption、classification、counting、localization、open-ended QA、多轮对话做成 instruction tuning 数据。

优点：任务统一，用户体验接近真实需求。
缺点：合成 instruction 可能带来语言偏置；若没有 mask/box 监督，证据一致性难保障。
代表：ChangeChat、DeltaVLM、ChangeVG、UniRS。

4. Grounding-first：问答必须输出证据 mask/box

问题、答案和视觉证据绑定，模型被迫回答“在哪里变了”。

优点：最贴合 Semantic Change VQA 的研究目标。
缺点：标注成本高，mask 与文本答案的对齐很难；开放词表类别更复杂。
代表：VisTA/QAG-360K、Referring Change Detection、OmniEarth 的 mask/box 输出范式。

建议的 Benchmark 设计

数据来源

优先组合三类数据，避免只靠一种标签：

变化 mask / semantic transition：LEVIR-CD、SECOND、HRSCD、TERRA-CD、xBD 等。
change caption：LEVIR-CC、RSCC、SECOND-CC、DUBAI-CC、WHU-CDC。
question-answer-grounding：QAG-360K、ChangeChat-87k/105k、RSRCC、ChangeIMTI。

问题类型

类型	示例问题	需要输出	指标
Change existence	这一区域是否发生显著变化？	yes/no + confidence	Accuracy, calibration
Category-specific change	新增建筑在哪里？	answer + mask/box	IoU/F1, answer accuracy
Transition question	哪些区域从植被变成建筑？	transition label + mask	transition mIoU
Quantity question	新增建筑大约有多少个/面积多少？	number/area + evidence	MAE, count F1, mask consistency
Location question	变化主要发生在图像哪一侧？	text + region	spatial relation accuracy
Comparison question	左上角和右下角哪处变化更大？	comparative answer + evidence	pairwise accuracy
Cause/effect clue	这更像洪水淹没还是建筑扩张？	explanation + uncertainty	human/LLM judge + evidence score
Multi-turn	先找水体变化，再只看其中新增建筑	dialogue state + masks	turn-level success, state consistency

关键评测指标

不要只用 VQA Accuracy。建议至少报告：

Answer Acc / Exact Match / relaxed semantic match。
Evidence IoU：答案涉及的变化区域与 GT mask/box 的 IoU。
Answer-Evidence Consistency：答案类别和证据 mask 类别是否一致。
Quantity Consistency：文本里的数量/面积与 mask 统计是否一致。
Temporal Robustness：季节、光照、云影、配准误差 hard negatives 下的性能。
Calibration：模型说“不确定/无法判断”时是否真的对应难例。
No-change Rejection：无变化样本中是否误报变化和编造解释。

实验矩阵

组别	模型/基线	输入	输出	用途
B1	ChangeFormer / BIT / Siamese Transformer	T1,T2	binary mask	基础变化检测下限
B2	Semantic CD model / TERRA-CD baseline	T1,T2	semantic transition map	类别变化监督
B3	Change3D	T1,T2 as tiny video	CD mask + caption	统一视觉差异编码器
B4	HiSem / RSCaMa / RSICCFormer	T1,T2	caption	caption-first 基线
B5	GeoChat / RSUniVLM adapted	T1,T2 concatenated or two images	answer / grounding	通用 RS-VLM 迁移
B6	ChangeChat	T1,T2 + instruction	answer / caption / localization	interactive VLM 基线
B7	DeltaVLM	T1,T2 + instruction	multi-turn answer	强交互式基线
B8	VisTA	T1,T2 + question	answer + mask	核心 CDQAG 基线
B9	Qwen2.5/3-VL native multimodal	two images + prompt	answer	大 VLM 零/少样本基线
Ours	Evidence-Grounded Semantic Change VQA	T1,T2 + question + optional class prompt	answer + mask + confidence + rationale	目标方法

可投稿方法草案

题目

Evidence-Grounded Semantic Change VQA for Optical Remote Sensing

核心假设

如果把“变化问答答案”和“变化证据 mask/transition map”作为相互约束的联合输出，而不是先生成自由文本再事后解释，可以显著降低遥感 change VQA 的幻觉，并提升类别特定变化、数量问答和局部定位问题的可靠性。

方法模块

Temporal Difference Encoder：用 Change3D-style tiny-video encoder 或 Siamese ViT 提取 T1/T2 差异 token。
Query-Aware Difference Selection：用问题文本选择相关变化 token，避免所有变化都进入 LLM。
Evidence Mask Decoder：输出 question-conditioned change mask，可支持 binary / semantic / referring change。
Answer Generator：基于 difference tokens、mask pooled features 和 question 生成答案。
Consistency Loss：约束答案类别、mask 类别、数量统计一致；无变化问题加入 refusal / uncertainty supervision。
Hard Negative Training：加入季节、云影、配准偏移、同类纹理变化和 no-change 样本。

数据与标注策略

从 semantic change map 自动生成模板 QA：类别、转移、数量、位置。
从 caption 数据生成 open-ended QA，但必须回链到 mask 或区域证据。
对没有 mask 的 caption 数据，用 SAM/Change3D/semantic CD 生成候选 mask，再人工抽检小比例样本。
对 no-change 和伪变化样本构造 hard negative，防止模型总是回答“有变化”。

消融实验

消融	目的
无 evidence mask decoder	验证答案是否会幻觉
无 consistency loss	验证 answer-mask 数量/类别一致性
无 hard negatives	验证抗季节/配准干扰能力
Change3D encoder vs Siamese encoder	验证 tiny-video 表征对 VQA 的收益
native VLM vs structured pipeline	对齐 Revisiting Change VQA 的问题设置
template QA vs human/GPT-assisted QA	验证合成语言偏置

当前方向的主要风险

数据集可能互相派生，容易 train-test contamination；需要地理坐标和图像哈希去重。
Open-ended QA 自动评测不稳定；需要把自由文本拆成类别、数量、位置、证据四类指标。
变化原因推断容易越界；没有外部气象/灾害/土地利用数据时，应表述为“视觉线索显示”，不要声称真实因果。
SAR/光学混合灾害数据有价值，但本方向若目标是光学遥感，应把 mixed-modality 作为外部泛化测试，而不是主训练核心。
mask 证据可能比答案更难标；需要从 semantic CD 数据、caption 数据和 CDQAG 数据组合出成本可控的数据管线。

未来研究方向

Answer-mask consistency metric：专门检测“回答正确但证据错”的情况。
Multi-turn change state tracking：连续追问时，上一轮 mask/对象是否被正确继承。
Region-restricted change VQA：用户先框选区域，再只回答该区域变化，适合大幅面遥感。
Open-vocabulary transition VQA：支持“农田变建筑”“裸地变水体”等自然语言 transition。
No-change and pseudo-change benchmark：将季节、阴影、云、配准误差作为负样本。
Disaster semantic change VQA：灾害场景加入损毁等级、面积、道路阻断、避险通道等结构化答案。
Geo-metadata aware reasoning：把日期、GSD、地区、灾害事件元数据作为可选条件，但防止模型只靠文本猜测。

Contents

RS-16 Semantic Change VQA

RS-16 Semantic Change VQA

结论摘要

问题由来

代表论文与项目

方法族比较

1. Mask-first：传统变化检测扩展到问答

2. Caption-first：变化描述扩展到问答

3. Instruction-first：双时相 VLM 统一交互式分析

4. Grounding-first：问答必须输出证据 mask/box

建议的 Benchmark 设计

数据来源

问题类型

关键评测指标

实验矩阵

推荐最小实验

可投稿方法草案

题目

核心假设

方法模块

数据与标注策略

消融实验

当前方向的主要风险

未来研究方向

下一步阅读队列

Related Content

评论

RS-16 Semantic Change VQA

RS-16 Semantic Change VQA

结论摘要

问题由来

代表论文与项目

方法族比较

1. Mask-first：传统变化检测扩展到问答

2. Caption-first：变化描述扩展到问答

3. Instruction-first：双时相 VLM 统一交互式分析

4. Grounding-first：问答必须输出证据 mask/box

建议的 Benchmark 设计

数据来源

问题类型

关键评测指标

实验矩阵

推荐最小实验

可投稿方法草案

题目

核心假设

方法模块

数据与标注策略

消融实验

当前方向的主要风险

未来研究方向

下一步阅读队列

Related Content

TUE-CD：震后建筑变化检测真正难的是短时间隔下的侧视错位

CSI-Net：变化检测里真正难的是压住伪变化

SST-CD：把无标签建筑变化检测从差异图变成自训练

RS-20 Temporal Foundation Model for Cloud/Season Robustness

RS-19 Change Caption Evidence Grounding

评论