RS-16 Semantic Change VQA
RS-16 Semantic Change VQA
范围:双时相/多时相光学遥感为主;灾害类工作若包含 SAR,只作为 mixed-modality 参考,不作为本方向主线。核心问题是:给定同一区域不同时相影像,模型不仅要输出变化区域,还要回答“变了什么、在哪里、多少、为什么像是这种变化、证据区域在哪里”。
结论摘要
- 2024-2026 已经出现直接命中的任务定义:CDQAG、Change VQA、RSICA、interactive change understanding。它们把传统 change detection 的 mask 监督扩展为 question-answer-grounding 三元组。
- 最值得跟进的锚点是 VisTA/QAG-360K:它明确提出 Change Detection Question Answering and Grounding,要求文本答案和视觉 mask 同时可解释。
- ChangeChat 和 DeltaVLM 是交互式变化分析路线:把 change captioning、分类、计数、定位、多轮问答统一成指令微调。
- OmniCD、TERRA-CD、HiSem、Change3D 分别补上 multimodal semantic guidance、多类别语义变化数据、change caption 的层级语义解耦、以及“把双时相当 tiny video”的统一变化表征。
- 当前空白:很多模型会给变化描述,但证据 mask、数量、类别层级和开放式回答之间不一致;多数 benchmark 还没有把“答对但证据错”“mask 对但语义错”“变化存在但原因解释错”拆开评估。
问题由来
传统遥感变化检测主要回答“哪里变了”,输出二值变化图;语义变化检测进一步回答“从什么变成什么”,输出 changed / unchanged 或 class transition map;change captioning 用自然语言描述变化,但通常是一段单向 caption,不支持用户按类别、区域、数量或原因追问。
Semantic Change VQA 的动机来自这个缺口:真实用户不会只问“是否变化”,而会问:
- 新增建筑在哪里?面积大约多少?
- 道路有没有扩建?证据区域在哪个角落?
- 水体减少是边界收缩还是被建筑/裸地替代?
- 这张灾前/灾后影像中,损毁最严重的建筑群在哪里?
- 如果只关心 vegetation-to-urban 的变化,模型能否给出 mask 和文字解释?
因此,这个方向的关键不是把 VQA 硬套到双时相图像上,而是建立一个约束链条:
bi-temporal images -> temporal difference representation -> semantic answer -> evidence mask/box -> quantitative consistency -> uncertainty
代表论文与项目
| 项目/论文 | 年份/来源 | 链接 | 代码/数据 | 与 RS-16 的关系 |
|---|---|---|---|---|
| Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection | 2024 arXiv | paper | VisTA/QAG-360K | 直接定义 CDQAG;构造 360K+ question-answer-mask triplets,覆盖 10 类土地覆盖和 8 类问题。 |
| ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning | 2024 arXiv | paper | GitHub | 早期 bitemporal VLM;支持 change captioning、类别量化、定位和交互式问答。 |
| RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented MoE | 2024 arXiv | paper, project | GitHub | 统一图像级、区域级、像素级任务;包含 multi-image change detection/change captioning 线索。 |
| UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models | 2024 arXiv | paper | 未核验到稳定代码 | 用 VLM 统一多时相任务,包括 VQA、change captioning、video scene classification。 |
| Change3D: Revisiting Change Detection and Captioning from A Video Modeling Perspective | 2025 CVPR Highlight | CVF, arXiv | GitHub | 把双时相影像看作 tiny video,通过 learnable perception frames 统一 change detection 与 captioning。可作为 Semantic Change VQA 的视觉差异编码器。 |
| DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception | 2025 arXiv | paper | GitHub | 提出 RSICA;ChangeChat-105k 覆盖 caption、classification、quantification、localization、open-ended QA、多轮对话。 |
| Towards Comprehensive Interactive Change Understanding in Remote Sensing / ChangeVG | 2025 arXiv | paper | 论文称公开 GitHub,需后续核验 | 构造 ChangeIMTI;四类任务包括 captioning、binary classification、counting、localization。 |
| RSCC: A Large-Scale Remote Sensing Change Caption Dataset for Disaster Events | 2025 NeurIPS Datasets & Benchmarks | project, arXiv | GitHub | 大规模灾害 change caption 数据;适合扩展灾害类 semantic change VQA。 |
| SECOND-CC / MModalCC | 2025 arXiv | paper | GitHub planned | 提供语义分割图和 change caption,可补充“caption-mask consistency”评测。 |
| Referring Change Detection in Remote Sensing Imagery | 2026 WACV | project | project page links GitHub / weights | 用文本指代表达定位变化类别;非常适合做“问题中指定类别/属性 -> mask”的子任务。 |
| OmniCD: A Foundational Framework for Remote Sensing Image Change Detection Guided by Multimodal Semantics | 2026 arXiv | paper | 未核验到官方 GitHub;论文称 RSITCD 300K+ image-text pairs | 把文本描述、语义图、地理元数据作为变化检测语义引导;适合做 foundation backbone/baseline。 |
| TERRA-CD: Multi-Temporal Framework for Multi-class and Semantic Change Detection | 2026 arXiv | paper | GitHub | 多时相、多类别和语义变化检测数据/基线;适合提供 transition-level mask 监督。 |
| HiSem: Hierarchical Semantic Disentangling for Remote Sensing Image Change Captioning | 2026 arXiv | paper | GitHub planned | 将 change existence 与 fine-grained semantics 分层解耦;适合借鉴为 “先判是否变化,再答细问题”。 |
| Revisiting Change VQA in Remote Sensing with Structured and Native Multimodal Qwen Models | 2026 arXiv | paper | 未核验到官方代码 | 直接面向 Change VQA,对比结构化 pipeline 与 native multimodal Qwen,适合作为强 VLM baseline。 |
| RSRCC: Remote Sensing Regional Change Comprehension Benchmark | 2026 arXiv | paper | 未核验到官方代码 | 新的 change question-answering benchmark,126K 问题;可与 QAG-360K/ChangeChat-105k 互补。 |
| ChangeQuery: Disaster Change Query | 2026 arXiv | paper, project | project page | mixed-modality 灾害交互式变化理解;因包含 SAR,不作为本方向主线,但其 statistics-first annotation pipeline 值得借鉴。 |
| GeoChat | 2024 CVPR | CVF | GitHub | 通用 grounded RS-VLM,可作为单时相 grounding/VQA 组件,但需要改造为双时相输入。 |
| OmniEarth | 2026 arXiv | paper | Hugging Face dataset | 通用 geospatial VLM benchmark,含 open-ended VQA、box、mask 输出;可借鉴 blind test 与 semantic consistency 设计。 |
| GEOBench-VLM | 2025 ICCV | CVF PDF | GitHub | 包含 temporal analysis 等地理 VLM 能力维度;适合对齐通用 RS-VLM 评测格式。 |
方法族比较
1. Mask-first:传统变化检测扩展到问答
先训练 binary/semantic change detection 模型得到变化 mask 或 transition map,再用规则或 LLM 将 mask 统计转成答案。
优点:证据区域可控,mIoU/F1 等指标清楚。
缺点:问题类型受限,开放式问答弱,难处理“为什么/哪一块更严重/相比另一处如何”的交互式问题。
代表:TERRA-CD、传统 SCD 模型、VisTA 中的 grounding 分支可借鉴。
2. Caption-first:变化描述扩展到问答
先做 change captioning,再把 caption 转成 QA 或用 VLM 直接回答。
优点:自然语言表达强,适合用户理解。
缺点:证据 mask 弱,容易“描述对但区域错”;caption 指标 BLEU/CIDEr 不能保证空间正确。
代表:LEVIR-CC、RSCC、SECOND-CC、HiSem、Change3D 的 captioning 部分。
3. Instruction-first:双时相 VLM 统一交互式分析
把 caption、classification、counting、localization、open-ended QA、多轮对话做成 instruction tuning 数据。
优点:任务统一,用户体验接近真实需求。
缺点:合成 instruction 可能带来语言偏置;若没有 mask/box 监督,证据一致性难保障。
代表:ChangeChat、DeltaVLM、ChangeVG、UniRS。
4. Grounding-first:问答必须输出证据 mask/box
问题、答案和视觉证据绑定,模型被迫回答“在哪里变了”。
优点:最贴合 Semantic Change VQA 的研究目标。
缺点:标注成本高,mask 与文本答案的对齐很难;开放词表类别更复杂。
代表:VisTA/QAG-360K、Referring Change Detection、OmniEarth 的 mask/box 输出范式。
建议的 Benchmark 设计
数据来源
优先组合三类数据,避免只靠一种标签:
- 变化 mask / semantic transition:LEVIR-CD、SECOND、HRSCD、TERRA-CD、xBD 等。
- change caption:LEVIR-CC、RSCC、SECOND-CC、DUBAI-CC、WHU-CDC。
- question-answer-grounding:QAG-360K、ChangeChat-87k/105k、RSRCC、ChangeIMTI。
问题类型
| 类型 | 示例问题 | 需要输出 | 指标 |
|---|---|---|---|
| Change existence | 这一区域是否发生显著变化? | yes/no + confidence | Accuracy, calibration |
| Category-specific change | 新增建筑在哪里? | answer + mask/box | IoU/F1, answer accuracy |
| Transition question | 哪些区域从植被变成建筑? | transition label + mask | transition mIoU |
| Quantity question | 新增建筑大约有多少个/面积多少? | number/area + evidence | MAE, count F1, mask consistency |
| Location question | 变化主要发生在图像哪一侧? | text + region | spatial relation accuracy |
| Comparison question | 左上角和右下角哪处变化更大? | comparative answer + evidence | pairwise accuracy |
| Cause/effect clue | 这更像洪水淹没还是建筑扩张? | explanation + uncertainty | human/LLM judge + evidence score |
| Multi-turn | 先找水体变化,再只看其中新增建筑 | dialogue state + masks | turn-level success, state consistency |
关键评测指标
不要只用 VQA Accuracy。建议至少报告:
- Answer Acc / Exact Match / relaxed semantic match。
- Evidence IoU:答案涉及的变化区域与 GT mask/box 的 IoU。
- Answer-Evidence Consistency:答案类别和证据 mask 类别是否一致。
- Quantity Consistency:文本里的数量/面积与 mask 统计是否一致。
- Temporal Robustness:季节、光照、云影、配准误差 hard negatives 下的性能。
- Calibration:模型说“不确定/无法判断”时是否真的对应难例。
- No-change Rejection:无变化样本中是否误报变化和编造解释。
实验矩阵
| 组别 | 模型/基线 | 输入 | 输出 | 用途 |
|---|---|---|---|---|
| B1 | ChangeFormer / BIT / Siamese Transformer | T1,T2 | binary mask | 基础变化检测下限 |
| B2 | Semantic CD model / TERRA-CD baseline | T1,T2 | semantic transition map | 类别变化监督 |
| B3 | Change3D | T1,T2 as tiny video | CD mask + caption | 统一视觉差异编码器 |
| B4 | HiSem / RSCaMa / RSICCFormer | T1,T2 | caption | caption-first 基线 |
| B5 | GeoChat / RSUniVLM adapted | T1,T2 concatenated or two images | answer / grounding | 通用 RS-VLM 迁移 |
| B6 | ChangeChat | T1,T2 + instruction | answer / caption / localization | interactive VLM 基线 |
| B7 | DeltaVLM | T1,T2 + instruction | multi-turn answer | 强交互式基线 |
| B8 | VisTA | T1,T2 + question | answer + mask | 核心 CDQAG 基线 |
| B9 | Qwen2.5/3-VL native multimodal | two images + prompt | answer | 大 VLM 零/少样本基线 |
| Ours | Evidence-Grounded Semantic Change VQA | T1,T2 + question + optional class prompt | answer + mask + confidence + rationale | 目标方法 |
推荐最小实验
- 数据:QAG-360K 作为主训练/测试,LEVIR-CC/RSCC 提供 caption transfer,TERRA-CD 提供 semantic transition map。
- 模型:Change3D 或 Siamese ViT 作为差异编码器,Q-former/adapter 对齐到 LLM;mask decoder 单独输出证据。
- 训练:先训练 mask/transition,再训练 QA,再加入 consistency loss。
- 测试:标准问题 + hard negatives,包括无变化、季节差异、配准偏移、相似类别、只问局部区域。
- 指标:Answer Acc、Evidence IoU、Consistency、No-change false alarm、Count/Area error。
可投稿方法草案
题目
Evidence-Grounded Semantic Change VQA for Optical Remote Sensing
核心假设
如果把“变化问答答案”和“变化证据 mask/transition map”作为相互约束的联合输出,而不是先生成自由文本再事后解释,可以显著降低遥感 change VQA 的幻觉,并提升类别特定变化、数量问答和局部定位问题的可靠性。
方法模块
- Temporal Difference Encoder:用 Change3D-style tiny-video encoder 或 Siamese ViT 提取 T1/T2 差异 token。
- Query-Aware Difference Selection:用问题文本选择相关变化 token,避免所有变化都进入 LLM。
- Evidence Mask Decoder:输出 question-conditioned change mask,可支持 binary / semantic / referring change。
- Answer Generator:基于 difference tokens、mask pooled features 和 question 生成答案。
- Consistency Loss:约束答案类别、mask 类别、数量统计一致;无变化问题加入 refusal / uncertainty supervision。
- Hard Negative Training:加入季节、云影、配准偏移、同类纹理变化和 no-change 样本。
数据与标注策略
- 从 semantic change map 自动生成模板 QA:类别、转移、数量、位置。
- 从 caption 数据生成 open-ended QA,但必须回链到 mask 或区域证据。
- 对没有 mask 的 caption 数据,用 SAM/Change3D/semantic CD 生成候选 mask,再人工抽检小比例样本。
- 对 no-change 和伪变化样本构造 hard negative,防止模型总是回答“有变化”。
消融实验
| 消融 | 目的 |
|---|---|
| 无 evidence mask decoder | 验证答案是否会幻觉 |
| 无 consistency loss | 验证 answer-mask 数量/类别一致性 |
| 无 hard negatives | 验证抗季节/配准干扰能力 |
| Change3D encoder vs Siamese encoder | 验证 tiny-video 表征对 VQA 的收益 |
| native VLM vs structured pipeline | 对齐 Revisiting Change VQA 的问题设置 |
| template QA vs human/GPT-assisted QA | 验证合成语言偏置 |
当前方向的主要风险
- 数据集可能互相派生,容易 train-test contamination;需要地理坐标和图像哈希去重。
- Open-ended QA 自动评测不稳定;需要把自由文本拆成类别、数量、位置、证据四类指标。
- 变化原因推断容易越界;没有外部气象/灾害/土地利用数据时,应表述为“视觉线索显示”,不要声称真实因果。
- SAR/光学混合灾害数据有价值,但本方向若目标是光学遥感,应把 mixed-modality 作为外部泛化测试,而不是主训练核心。
- mask 证据可能比答案更难标;需要从 semantic CD 数据、caption 数据和 CDQAG 数据组合出成本可控的数据管线。
未来研究方向
- Answer-mask consistency metric:专门检测“回答正确但证据错”的情况。
- Multi-turn change state tracking:连续追问时,上一轮 mask/对象是否被正确继承。
- Region-restricted change VQA:用户先框选区域,再只回答该区域变化,适合大幅面遥感。
- Open-vocabulary transition VQA:支持“农田变建筑”“裸地变水体”等自然语言 transition。
- No-change and pseudo-change benchmark:将季节、阴影、云、配准误差作为负样本。
- Disaster semantic change VQA:灾害场景加入损毁等级、面积、道路阻断、避险通道等结构化答案。
- Geo-metadata aware reasoning:把日期、GSD、地区、灾害事件元数据作为可选条件,但防止模型只靠文本猜测。
评论