# RS-16 Semantic Change VQA


# RS-16 Semantic Change VQA

范围：双时相/多时相光学遥感为主；灾害类工作若包含 SAR，只作为 mixed-modality 参考，不作为本方向主线。核心问题是：给定同一区域不同时相影像，模型不仅要输出变化区域，还要回答“变了什么、在哪里、多少、为什么像是这种变化、证据区域在哪里”。

## 结论摘要

- 2024-2026 已经出现直接命中的任务定义：CDQAG、Change VQA、RSICA、interactive change understanding。它们把传统 change detection 的 mask 监督扩展为 question-answer-grounding 三元组。
- 最值得跟进的锚点是 [VisTA/QAG-360K](https://github.com/like413/VisTA)：它明确提出 Change Detection Question Answering and Grounding，要求文本答案和视觉 mask 同时可解释。
- [ChangeChat](https://github.com/hanlinwu/ChangeChat) 和 [DeltaVLM](https://github.com/hanlinwu/DeltaVLM) 是交互式变化分析路线：把 change captioning、分类、计数、定位、多轮问答统一成指令微调。
- [OmniCD](https://arxiv.org/abs/2605.30168)、[TERRA-CD](https://arxiv.org/abs/2605.14651)、[HiSem](https://arxiv.org/abs/2605.15024)、[Change3D](https://github.com/zhuduowang/Change3D) 分别补上 multimodal semantic guidance、多类别语义变化数据、change caption 的层级语义解耦、以及“把双时相当 tiny video”的统一变化表征。
- 当前空白：很多模型会给变化描述，但证据 mask、数量、类别层级和开放式回答之间不一致；多数 benchmark 还没有把“答对但证据错”“mask 对但语义错”“变化存在但原因解释错”拆开评估。

## 问题由来

传统遥感变化检测主要回答“哪里变了”，输出二值变化图；语义变化检测进一步回答“从什么变成什么”，输出 changed / unchanged 或 class transition map；change captioning 用自然语言描述变化，但通常是一段单向 caption，不支持用户按类别、区域、数量或原因追问。

Semantic Change VQA 的动机来自这个缺口：真实用户不会只问“是否变化”，而会问：

- 新增建筑在哪里？面积大约多少？
- 道路有没有扩建？证据区域在哪个角落？
- 水体减少是边界收缩还是被建筑/裸地替代？
- 这张灾前/灾后影像中，损毁最严重的建筑群在哪里？
- 如果只关心 vegetation-to-urban 的变化，模型能否给出 mask 和文字解释？

因此，这个方向的关键不是把 VQA 硬套到双时相图像上，而是建立一个约束链条：

`bi-temporal images -> temporal difference representation -> semantic answer -> evidence mask/box -> quantitative consistency -> uncertainty`

## 代表论文与项目

| 项目/论文 | 年份/来源 | 链接 | 代码/数据 | 与 RS-16 的关系 |
|---|---:|---|---|---|
| Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection | 2024 arXiv | [paper](https://arxiv.org/abs/2410.23828) | [VisTA/QAG-360K](https://github.com/like413/VisTA) | 直接定义 CDQAG；构造 360K+ question-answer-mask triplets，覆盖 10 类土地覆盖和 8 类问题。 |
| ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning | 2024 arXiv | [paper](https://arxiv.org/abs/2409.08582) | [GitHub](https://github.com/hanlinwu/ChangeChat) | 早期 bitemporal VLM；支持 change captioning、类别量化、定位和交互式问答。 |
| RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented MoE | 2024 arXiv | [paper](https://arxiv.org/abs/2412.05679), [project](https://rsunivlm.github.io/) | [GitHub](https://github.com/xuliu-cyber/RSUniVLM) | 统一图像级、区域级、像素级任务；包含 multi-image change detection/change captioning 线索。 |
| UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models | 2024 arXiv | [paper](https://arxiv.org/abs/2412.20742) | 未核验到稳定代码 | 用 VLM 统一多时相任务，包括 VQA、change captioning、video scene classification。 |
| Change3D: Revisiting Change Detection and Captioning from A Video Modeling Perspective | 2025 CVPR Highlight | [CVF](https://openaccess.thecvf.com/content/CVPR2025/papers/Zhu_Change3D_Revisiting_Change_Detection_and_Captioning_from_A_Video_Modeling_CVPR_2025_paper.pdf), [arXiv](https://arxiv.org/abs/2503.18803) | [GitHub](https://github.com/zhuduowang/Change3D) | 把双时相影像看作 tiny video，通过 learnable perception frames 统一 change detection 与 captioning。可作为 Semantic Change VQA 的视觉差异编码器。 |
| DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception | 2025 arXiv | [paper](https://arxiv.org/abs/2507.22346) | [GitHub](https://github.com/hanlinwu/DeltaVLM) | 提出 RSICA；ChangeChat-105k 覆盖 caption、classification、quantification、localization、open-ended QA、多轮对话。 |
| Towards Comprehensive Interactive Change Understanding in Remote Sensing / ChangeVG | 2025 arXiv | [paper](https://arxiv.org/abs/2509.23105) | 论文称公开 GitHub，需后续核验 | 构造 ChangeIMTI；四类任务包括 captioning、binary classification、counting、localization。 |
| RSCC: A Large-Scale Remote Sensing Change Caption Dataset for Disaster Events | 2025 NeurIPS Datasets & Benchmarks | [project](https://bili-sakura.github.io/RSCC/), [arXiv](https://arxiv.org/abs/2509.01907) | [GitHub](https://github.com/Bili-Sakura/RSCC) | 大规模灾害 change caption 数据；适合扩展灾害类 semantic change VQA。 |
| SECOND-CC / MModalCC | 2025 arXiv | [paper](https://arxiv.org/abs/2501.10075) | [GitHub planned](https://github.com/ChangeCapsInRS/SecondCC) | 提供语义分割图和 change caption，可补充“caption-mask consistency”评测。 |
| Referring Change Detection in Remote Sensing Imagery | 2026 WACV | [project](https://yilmazkorkmaz1.github.io/RCD/) | project page links GitHub / weights | 用文本指代表达定位变化类别；非常适合做“问题中指定类别/属性 -> mask”的子任务。 |
| OmniCD: A Foundational Framework for Remote Sensing Image Change Detection Guided by Multimodal Semantics | 2026 arXiv | [paper](https://arxiv.org/abs/2605.30168) | 未核验到官方 GitHub；论文称 RSITCD 300K+ image-text pairs | 把文本描述、语义图、地理元数据作为变化检测语义引导；适合做 foundation backbone/baseline。 |
| TERRA-CD: Multi-Temporal Framework for Multi-class and Semantic Change Detection | 2026 arXiv | [paper](https://arxiv.org/abs/2605.14651) | [GitHub](https://github.com/omkarsoak/TERRA-CD) | 多时相、多类别和语义变化检测数据/基线；适合提供 transition-level mask 监督。 |
| HiSem: Hierarchical Semantic Disentangling for Remote Sensing Image Change Captioning | 2026 arXiv | [paper](https://arxiv.org/abs/2605.15024) | [GitHub planned](https://github.com/Man-Wang-star/HiSem) | 将 change existence 与 fine-grained semantics 分层解耦；适合借鉴为 “先判是否变化，再答细问题”。 |
| Revisiting Change VQA in Remote Sensing with Structured and Native Multimodal Qwen Models | 2026 arXiv | [paper](https://arxiv.org/abs/2604.18429) | 未核验到官方代码 | 直接面向 Change VQA，对比结构化 pipeline 与 native multimodal Qwen，适合作为强 VLM baseline。 |
| RSRCC: Remote Sensing Regional Change Comprehension Benchmark | 2026 arXiv | [paper](https://arxiv.org/abs/2604.20623) | 未核验到官方代码 | 新的 change question-answering benchmark，126K 问题；可与 QAG-360K/ChangeChat-105k 互补。 |
| ChangeQuery: Disaster Change Query | 2026 arXiv | [paper](https://arxiv.org/abs/2604.22333), [project](https://sundongwei.github.io/changequery/) | project page | mixed-modality 灾害交互式变化理解；因包含 SAR，不作为本方向主线，但其 statistics-first annotation pipeline 值得借鉴。 |
| GeoChat | 2024 CVPR | [CVF](https://openaccess.thecvf.com/content/CVPR2024/html/Kuckreja_GeoChat_Grounded_Large_Vision-Language_Model_for_Remote_Sensing_CVPR_2024_paper.html) | [GitHub](https://github.com/mbzuai-oryx/GeoChat) | 通用 grounded RS-VLM，可作为单时相 grounding/VQA 组件，但需要改造为双时相输入。 |
| OmniEarth | 2026 arXiv | [paper](https://arxiv.org/abs/2603.09471) | [Hugging Face dataset](https://huggingface.co/datasets/sjeeudd/OmniEarth) | 通用 geospatial VLM benchmark，含 open-ended VQA、box、mask 输出；可借鉴 blind test 与 semantic consistency 设计。 |
| GEOBench-VLM | 2025 ICCV | [CVF PDF](https://openaccess.thecvf.com/content/ICCV2025/papers/Danish_GEOBench-VLM_Benchmarking_Vision-Language_Models_for_Geospatial_Tasks_ICCV_2025_paper.pdf) | [GitHub](https://github.com/The-AI-Alliance/GEO-Bench-VLM) | 包含 temporal analysis 等地理 VLM 能力维度；适合对齐通用 RS-VLM 评测格式。 |

## 方法族比较

### 1. Mask-first：传统变化检测扩展到问答

先训练 binary/semantic change detection 模型得到变化 mask 或 transition map，再用规则或 LLM 将 mask 统计转成答案。

优点：证据区域可控，mIoU/F1 等指标清楚。  
缺点：问题类型受限，开放式问答弱，难处理“为什么/哪一块更严重/相比另一处如何”的交互式问题。  
代表：TERRA-CD、传统 SCD 模型、VisTA 中的 grounding 分支可借鉴。

### 2. Caption-first：变化描述扩展到问答

先做 change captioning，再把 caption 转成 QA 或用 VLM 直接回答。

优点：自然语言表达强，适合用户理解。  
缺点：证据 mask 弱，容易“描述对但区域错”；caption 指标 BLEU/CIDEr 不能保证空间正确。  
代表：LEVIR-CC、RSCC、SECOND-CC、HiSem、Change3D 的 captioning 部分。

### 3. Instruction-first：双时相 VLM 统一交互式分析

把 caption、classification、counting、localization、open-ended QA、多轮对话做成 instruction tuning 数据。

优点：任务统一，用户体验接近真实需求。  
缺点：合成 instruction 可能带来语言偏置；若没有 mask/box 监督，证据一致性难保障。  
代表：ChangeChat、DeltaVLM、ChangeVG、UniRS。

### 4. Grounding-first：问答必须输出证据 mask/box

问题、答案和视觉证据绑定，模型被迫回答“在哪里变了”。

优点：最贴合 Semantic Change VQA 的研究目标。  
缺点：标注成本高，mask 与文本答案的对齐很难；开放词表类别更复杂。  
代表：VisTA/QAG-360K、Referring Change Detection、OmniEarth 的 mask/box 输出范式。

## 建议的 Benchmark 设计

### 数据来源

优先组合三类数据，避免只靠一种标签：

1. 变化 mask / semantic transition：LEVIR-CD、SECOND、HRSCD、TERRA-CD、xBD 等。
2. change caption：LEVIR-CC、RSCC、SECOND-CC、DUBAI-CC、WHU-CDC。
3. question-answer-grounding：QAG-360K、ChangeChat-87k/105k、RSRCC、ChangeIMTI。

### 问题类型

| 类型 | 示例问题 | 需要输出 | 指标 |
|---|---|---|---|
| Change existence | 这一区域是否发生显著变化？ | yes/no + confidence | Accuracy, calibration |
| Category-specific change | 新增建筑在哪里？ | answer + mask/box | IoU/F1, answer accuracy |
| Transition question | 哪些区域从植被变成建筑？ | transition label + mask | transition mIoU |
| Quantity question | 新增建筑大约有多少个/面积多少？ | number/area + evidence | MAE, count F1, mask consistency |
| Location question | 变化主要发生在图像哪一侧？ | text + region | spatial relation accuracy |
| Comparison question | 左上角和右下角哪处变化更大？ | comparative answer + evidence | pairwise accuracy |
| Cause/effect clue | 这更像洪水淹没还是建筑扩张？ | explanation + uncertainty | human/LLM judge + evidence score |
| Multi-turn | 先找水体变化，再只看其中新增建筑 | dialogue state + masks | turn-level success, state consistency |

### 关键评测指标

不要只用 VQA Accuracy。建议至少报告：

- Answer Acc / Exact Match / relaxed semantic match。
- Evidence IoU：答案涉及的变化区域与 GT mask/box 的 IoU。
- Answer-Evidence Consistency：答案类别和证据 mask 类别是否一致。
- Quantity Consistency：文本里的数量/面积与 mask 统计是否一致。
- Temporal Robustness：季节、光照、云影、配准误差 hard negatives 下的性能。
- Calibration：模型说“不确定/无法判断”时是否真的对应难例。
- No-change Rejection：无变化样本中是否误报变化和编造解释。

## 实验矩阵

| 组别 | 模型/基线 | 输入 | 输出 | 用途 |
|---|---|---|---|---|
| B1 | ChangeFormer / BIT / Siamese Transformer | T1,T2 | binary mask | 基础变化检测下限 |
| B2 | Semantic CD model / TERRA-CD baseline | T1,T2 | semantic transition map | 类别变化监督 |
| B3 | Change3D | T1,T2 as tiny video | CD mask + caption | 统一视觉差异编码器 |
| B4 | HiSem / RSCaMa / RSICCFormer | T1,T2 | caption | caption-first 基线 |
| B5 | GeoChat / RSUniVLM adapted | T1,T2 concatenated or two images | answer / grounding | 通用 RS-VLM 迁移 |
| B6 | ChangeChat | T1,T2 + instruction | answer / caption / localization | interactive VLM 基线 |
| B7 | DeltaVLM | T1,T2 + instruction | multi-turn answer | 强交互式基线 |
| B8 | VisTA | T1,T2 + question | answer + mask | 核心 CDQAG 基线 |
| B9 | Qwen2.5/3-VL native multimodal | two images + prompt | answer | 大 VLM 零/少样本基线 |
| Ours | Evidence-Grounded Semantic Change VQA | T1,T2 + question + optional class prompt | answer + mask + confidence + rationale | 目标方法 |

### 推荐最小实验

1. 数据：QAG-360K 作为主训练/测试，LEVIR-CC/RSCC 提供 caption transfer，TERRA-CD 提供 semantic transition map。
2. 模型：Change3D 或 Siamese ViT 作为差异编码器，Q-former/adapter 对齐到 LLM；mask decoder 单独输出证据。
3. 训练：先训练 mask/transition，再训练 QA，再加入 consistency loss。
4. 测试：标准问题 + hard negatives，包括无变化、季节差异、配准偏移、相似类别、只问局部区域。
5. 指标：Answer Acc、Evidence IoU、Consistency、No-change false alarm、Count/Area error。

## 可投稿方法草案

### 题目

Evidence-Grounded Semantic Change VQA for Optical Remote Sensing

### 核心假设

如果把“变化问答答案”和“变化证据 mask/transition map”作为相互约束的联合输出，而不是先生成自由文本再事后解释，可以显著降低遥感 change VQA 的幻觉，并提升类别特定变化、数量问答和局部定位问题的可靠性。

### 方法模块

1. Temporal Difference Encoder：用 Change3D-style tiny-video encoder 或 Siamese ViT 提取 T1/T2 差异 token。
2. Query-Aware Difference Selection：用问题文本选择相关变化 token，避免所有变化都进入 LLM。
3. Evidence Mask Decoder：输出 question-conditioned change mask，可支持 binary / semantic / referring change。
4. Answer Generator：基于 difference tokens、mask pooled features 和 question 生成答案。
5. Consistency Loss：约束答案类别、mask 类别、数量统计一致；无变化问题加入 refusal / uncertainty supervision。
6. Hard Negative Training：加入季节、云影、配准偏移、同类纹理变化和 no-change 样本。

### 数据与标注策略

- 从 semantic change map 自动生成模板 QA：类别、转移、数量、位置。
- 从 caption 数据生成 open-ended QA，但必须回链到 mask 或区域证据。
- 对没有 mask 的 caption 数据，用 SAM/Change3D/semantic CD 生成候选 mask，再人工抽检小比例样本。
- 对 no-change 和伪变化样本构造 hard negative，防止模型总是回答“有变化”。

### 消融实验

| 消融 | 目的 |
|---|---|
| 无 evidence mask decoder | 验证答案是否会幻觉 |
| 无 consistency loss | 验证 answer-mask 数量/类别一致性 |
| 无 hard negatives | 验证抗季节/配准干扰能力 |
| Change3D encoder vs Siamese encoder | 验证 tiny-video 表征对 VQA 的收益 |
| native VLM vs structured pipeline | 对齐 Revisiting Change VQA 的问题设置 |
| template QA vs human/GPT-assisted QA | 验证合成语言偏置 |

## 当前方向的主要风险

- 数据集可能互相派生，容易 train-test contamination；需要地理坐标和图像哈希去重。
- Open-ended QA 自动评测不稳定；需要把自由文本拆成类别、数量、位置、证据四类指标。
- 变化原因推断容易越界；没有外部气象/灾害/土地利用数据时，应表述为“视觉线索显示”，不要声称真实因果。
- SAR/光学混合灾害数据有价值，但本方向若目标是光学遥感，应把 mixed-modality 作为外部泛化测试，而不是主训练核心。
- mask 证据可能比答案更难标；需要从 semantic CD 数据、caption 数据和 CDQAG 数据组合出成本可控的数据管线。

## 未来研究方向

1. Answer-mask consistency metric：专门检测“回答正确但证据错”的情况。
2. Multi-turn change state tracking：连续追问时，上一轮 mask/对象是否被正确继承。
3. Region-restricted change VQA：用户先框选区域，再只回答该区域变化，适合大幅面遥感。
4. Open-vocabulary transition VQA：支持“农田变建筑”“裸地变水体”等自然语言 transition。
5. No-change and pseudo-change benchmark：将季节、阴影、云、配准误差作为负样本。
6. Disaster semantic change VQA：灾害场景加入损毁等级、面积、道路阻断、避险通道等结构化答案。
7. Geo-metadata aware reasoning：把日期、GSD、地区、灾害事件元数据作为可选条件，但防止模型只靠文本猜测。

## 下一步阅读队列

1. [VisTA / QAG-360K](https://github.com/like413/VisTA)
2. [ChangeChat](https://github.com/hanlinwu/ChangeChat)
3. [DeltaVLM](https://github.com/hanlinwu/DeltaVLM)
4. [Change3D](https://github.com/zhuduowang/Change3D)
5. [OmniCD](https://arxiv.org/abs/2605.30168)
6. [TERRA-CD](https://github.com/omkarsoak/TERRA-CD)
7. [HiSem](https://arxiv.org/abs/2605.15024)
8. [RSCC dataset](https://github.com/Bili-Sakura/RSCC)
9. [Referring Change Detection in Remote Sensing Imagery](https://yilmazkorkmaz1.github.io/RCD/)
10. [OmniEarth](https://huggingface.co/datasets/sjeeudd/OmniEarth)

