RS-16 Semantic Change VQA

Series - 2024-2026 遥感 AI 细分研究方向

RS-16 Semantic Change VQA

范围:双时相/多时相光学遥感为主;灾害类工作若包含 SAR,只作为 mixed-modality 参考,不作为本方向主线。核心问题是:给定同一区域不同时相影像,模型不仅要输出变化区域,还要回答“变了什么、在哪里、多少、为什么像是这种变化、证据区域在哪里”。

  • 2024-2026 已经出现直接命中的任务定义:CDQAG、Change VQA、RSICA、interactive change understanding。它们把传统 change detection 的 mask 监督扩展为 question-answer-grounding 三元组。
  • 最值得跟进的锚点是 VisTA/QAG-360K:它明确提出 Change Detection Question Answering and Grounding,要求文本答案和视觉 mask 同时可解释。
  • ChangeChatDeltaVLM 是交互式变化分析路线:把 change captioning、分类、计数、定位、多轮问答统一成指令微调。
  • OmniCDTERRA-CDHiSemChange3D 分别补上 multimodal semantic guidance、多类别语义变化数据、change caption 的层级语义解耦、以及“把双时相当 tiny video”的统一变化表征。
  • 当前空白:很多模型会给变化描述,但证据 mask、数量、类别层级和开放式回答之间不一致;多数 benchmark 还没有把“答对但证据错”“mask 对但语义错”“变化存在但原因解释错”拆开评估。

传统遥感变化检测主要回答“哪里变了”,输出二值变化图;语义变化检测进一步回答“从什么变成什么”,输出 changed / unchanged 或 class transition map;change captioning 用自然语言描述变化,但通常是一段单向 caption,不支持用户按类别、区域、数量或原因追问。

Semantic Change VQA 的动机来自这个缺口:真实用户不会只问“是否变化”,而会问:

  • 新增建筑在哪里?面积大约多少?
  • 道路有没有扩建?证据区域在哪个角落?
  • 水体减少是边界收缩还是被建筑/裸地替代?
  • 这张灾前/灾后影像中,损毁最严重的建筑群在哪里?
  • 如果只关心 vegetation-to-urban 的变化,模型能否给出 mask 和文字解释?

因此,这个方向的关键不是把 VQA 硬套到双时相图像上,而是建立一个约束链条:

bi-temporal images -> temporal difference representation -> semantic answer -> evidence mask/box -> quantitative consistency -> uncertainty

项目/论文年份/来源链接代码/数据与 RS-16 的关系
Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection2024 arXivpaperVisTA/QAG-360K直接定义 CDQAG;构造 360K+ question-answer-mask triplets,覆盖 10 类土地覆盖和 8 类问题。
ChangeChat: An Interactive Model for Remote Sensing Change Analysis via Multimodal Instruction Tuning2024 arXivpaperGitHub早期 bitemporal VLM;支持 change captioning、类别量化、定位和交互式问答。
RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented MoE2024 arXivpaper, projectGitHub统一图像级、区域级、像素级任务;包含 multi-image change detection/change captioning 线索。
UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models2024 arXivpaper未核验到稳定代码用 VLM 统一多时相任务,包括 VQA、change captioning、video scene classification。
Change3D: Revisiting Change Detection and Captioning from A Video Modeling Perspective2025 CVPR HighlightCVF, arXivGitHub把双时相影像看作 tiny video,通过 learnable perception frames 统一 change detection 与 captioning。可作为 Semantic Change VQA 的视觉差异编码器。
DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception2025 arXivpaperGitHub提出 RSICA;ChangeChat-105k 覆盖 caption、classification、quantification、localization、open-ended QA、多轮对话。
Towards Comprehensive Interactive Change Understanding in Remote Sensing / ChangeVG2025 arXivpaper论文称公开 GitHub,需后续核验构造 ChangeIMTI;四类任务包括 captioning、binary classification、counting、localization。
RSCC: A Large-Scale Remote Sensing Change Caption Dataset for Disaster Events2025 NeurIPS Datasets & Benchmarksproject, arXivGitHub大规模灾害 change caption 数据;适合扩展灾害类 semantic change VQA。
SECOND-CC / MModalCC2025 arXivpaperGitHub planned提供语义分割图和 change caption,可补充“caption-mask consistency”评测。
Referring Change Detection in Remote Sensing Imagery2026 WACVprojectproject page links GitHub / weights用文本指代表达定位变化类别;非常适合做“问题中指定类别/属性 -> mask”的子任务。
OmniCD: A Foundational Framework for Remote Sensing Image Change Detection Guided by Multimodal Semantics2026 arXivpaper未核验到官方 GitHub;论文称 RSITCD 300K+ image-text pairs把文本描述、语义图、地理元数据作为变化检测语义引导;适合做 foundation backbone/baseline。
TERRA-CD: Multi-Temporal Framework for Multi-class and Semantic Change Detection2026 arXivpaperGitHub多时相、多类别和语义变化检测数据/基线;适合提供 transition-level mask 监督。
HiSem: Hierarchical Semantic Disentangling for Remote Sensing Image Change Captioning2026 arXivpaperGitHub planned将 change existence 与 fine-grained semantics 分层解耦;适合借鉴为 “先判是否变化,再答细问题”。
Revisiting Change VQA in Remote Sensing with Structured and Native Multimodal Qwen Models2026 arXivpaper未核验到官方代码直接面向 Change VQA,对比结构化 pipeline 与 native multimodal Qwen,适合作为强 VLM baseline。
RSRCC: Remote Sensing Regional Change Comprehension Benchmark2026 arXivpaper未核验到官方代码新的 change question-answering benchmark,126K 问题;可与 QAG-360K/ChangeChat-105k 互补。
ChangeQuery: Disaster Change Query2026 arXivpaper, projectproject pagemixed-modality 灾害交互式变化理解;因包含 SAR,不作为本方向主线,但其 statistics-first annotation pipeline 值得借鉴。
GeoChat2024 CVPRCVFGitHub通用 grounded RS-VLM,可作为单时相 grounding/VQA 组件,但需要改造为双时相输入。
OmniEarth2026 arXivpaperHugging Face dataset通用 geospatial VLM benchmark,含 open-ended VQA、box、mask 输出;可借鉴 blind test 与 semantic consistency 设计。
GEOBench-VLM2025 ICCVCVF PDFGitHub包含 temporal analysis 等地理 VLM 能力维度;适合对齐通用 RS-VLM 评测格式。

先训练 binary/semantic change detection 模型得到变化 mask 或 transition map,再用规则或 LLM 将 mask 统计转成答案。

优点:证据区域可控,mIoU/F1 等指标清楚。
缺点:问题类型受限,开放式问答弱,难处理“为什么/哪一块更严重/相比另一处如何”的交互式问题。
代表:TERRA-CD、传统 SCD 模型、VisTA 中的 grounding 分支可借鉴。

先做 change captioning,再把 caption 转成 QA 或用 VLM 直接回答。

优点:自然语言表达强,适合用户理解。
缺点:证据 mask 弱,容易“描述对但区域错”;caption 指标 BLEU/CIDEr 不能保证空间正确。
代表:LEVIR-CC、RSCC、SECOND-CC、HiSem、Change3D 的 captioning 部分。

把 caption、classification、counting、localization、open-ended QA、多轮对话做成 instruction tuning 数据。

优点:任务统一,用户体验接近真实需求。
缺点:合成 instruction 可能带来语言偏置;若没有 mask/box 监督,证据一致性难保障。
代表:ChangeChat、DeltaVLM、ChangeVG、UniRS。

问题、答案和视觉证据绑定,模型被迫回答“在哪里变了”。

优点:最贴合 Semantic Change VQA 的研究目标。
缺点:标注成本高,mask 与文本答案的对齐很难;开放词表类别更复杂。
代表:VisTA/QAG-360K、Referring Change Detection、OmniEarth 的 mask/box 输出范式。

优先组合三类数据,避免只靠一种标签:

  1. 变化 mask / semantic transition:LEVIR-CD、SECOND、HRSCD、TERRA-CD、xBD 等。
  2. change caption:LEVIR-CC、RSCC、SECOND-CC、DUBAI-CC、WHU-CDC。
  3. question-answer-grounding:QAG-360K、ChangeChat-87k/105k、RSRCC、ChangeIMTI。
类型示例问题需要输出指标
Change existence这一区域是否发生显著变化?yes/no + confidenceAccuracy, calibration
Category-specific change新增建筑在哪里?answer + mask/boxIoU/F1, answer accuracy
Transition question哪些区域从植被变成建筑?transition label + masktransition mIoU
Quantity question新增建筑大约有多少个/面积多少?number/area + evidenceMAE, count F1, mask consistency
Location question变化主要发生在图像哪一侧?text + regionspatial relation accuracy
Comparison question左上角和右下角哪处变化更大?comparative answer + evidencepairwise accuracy
Cause/effect clue这更像洪水淹没还是建筑扩张?explanation + uncertaintyhuman/LLM judge + evidence score
Multi-turn先找水体变化,再只看其中新增建筑dialogue state + masksturn-level success, state consistency

不要只用 VQA Accuracy。建议至少报告:

  • Answer Acc / Exact Match / relaxed semantic match。
  • Evidence IoU:答案涉及的变化区域与 GT mask/box 的 IoU。
  • Answer-Evidence Consistency:答案类别和证据 mask 类别是否一致。
  • Quantity Consistency:文本里的数量/面积与 mask 统计是否一致。
  • Temporal Robustness:季节、光照、云影、配准误差 hard negatives 下的性能。
  • Calibration:模型说“不确定/无法判断”时是否真的对应难例。
  • No-change Rejection:无变化样本中是否误报变化和编造解释。
组别模型/基线输入输出用途
B1ChangeFormer / BIT / Siamese TransformerT1,T2binary mask基础变化检测下限
B2Semantic CD model / TERRA-CD baselineT1,T2semantic transition map类别变化监督
B3Change3DT1,T2 as tiny videoCD mask + caption统一视觉差异编码器
B4HiSem / RSCaMa / RSICCFormerT1,T2captioncaption-first 基线
B5GeoChat / RSUniVLM adaptedT1,T2 concatenated or two imagesanswer / grounding通用 RS-VLM 迁移
B6ChangeChatT1,T2 + instructionanswer / caption / localizationinteractive VLM 基线
B7DeltaVLMT1,T2 + instructionmulti-turn answer强交互式基线
B8VisTAT1,T2 + questionanswer + mask核心 CDQAG 基线
B9Qwen2.5/3-VL native multimodaltwo images + promptanswer大 VLM 零/少样本基线
OursEvidence-Grounded Semantic Change VQAT1,T2 + question + optional class promptanswer + mask + confidence + rationale目标方法
  1. 数据:QAG-360K 作为主训练/测试,LEVIR-CC/RSCC 提供 caption transfer,TERRA-CD 提供 semantic transition map。
  2. 模型:Change3D 或 Siamese ViT 作为差异编码器,Q-former/adapter 对齐到 LLM;mask decoder 单独输出证据。
  3. 训练:先训练 mask/transition,再训练 QA,再加入 consistency loss。
  4. 测试:标准问题 + hard negatives,包括无变化、季节差异、配准偏移、相似类别、只问局部区域。
  5. 指标:Answer Acc、Evidence IoU、Consistency、No-change false alarm、Count/Area error。

Evidence-Grounded Semantic Change VQA for Optical Remote Sensing

如果把“变化问答答案”和“变化证据 mask/transition map”作为相互约束的联合输出,而不是先生成自由文本再事后解释,可以显著降低遥感 change VQA 的幻觉,并提升类别特定变化、数量问答和局部定位问题的可靠性。

  1. Temporal Difference Encoder:用 Change3D-style tiny-video encoder 或 Siamese ViT 提取 T1/T2 差异 token。
  2. Query-Aware Difference Selection:用问题文本选择相关变化 token,避免所有变化都进入 LLM。
  3. Evidence Mask Decoder:输出 question-conditioned change mask,可支持 binary / semantic / referring change。
  4. Answer Generator:基于 difference tokens、mask pooled features 和 question 生成答案。
  5. Consistency Loss:约束答案类别、mask 类别、数量统计一致;无变化问题加入 refusal / uncertainty supervision。
  6. Hard Negative Training:加入季节、云影、配准偏移、同类纹理变化和 no-change 样本。
  • 从 semantic change map 自动生成模板 QA:类别、转移、数量、位置。
  • 从 caption 数据生成 open-ended QA,但必须回链到 mask 或区域证据。
  • 对没有 mask 的 caption 数据,用 SAM/Change3D/semantic CD 生成候选 mask,再人工抽检小比例样本。
  • 对 no-change 和伪变化样本构造 hard negative,防止模型总是回答“有变化”。
消融目的
无 evidence mask decoder验证答案是否会幻觉
无 consistency loss验证 answer-mask 数量/类别一致性
无 hard negatives验证抗季节/配准干扰能力
Change3D encoder vs Siamese encoder验证 tiny-video 表征对 VQA 的收益
native VLM vs structured pipeline对齐 Revisiting Change VQA 的问题设置
template QA vs human/GPT-assisted QA验证合成语言偏置
  • 数据集可能互相派生,容易 train-test contamination;需要地理坐标和图像哈希去重。
  • Open-ended QA 自动评测不稳定;需要把自由文本拆成类别、数量、位置、证据四类指标。
  • 变化原因推断容易越界;没有外部气象/灾害/土地利用数据时,应表述为“视觉线索显示”,不要声称真实因果。
  • SAR/光学混合灾害数据有价值,但本方向若目标是光学遥感,应把 mixed-modality 作为外部泛化测试,而不是主训练核心。
  • mask 证据可能比答案更难标;需要从 semantic CD 数据、caption 数据和 CDQAG 数据组合出成本可控的数据管线。
  1. Answer-mask consistency metric:专门检测“回答正确但证据错”的情况。
  2. Multi-turn change state tracking:连续追问时,上一轮 mask/对象是否被正确继承。
  3. Region-restricted change VQA:用户先框选区域,再只回答该区域变化,适合大幅面遥感。
  4. Open-vocabulary transition VQA:支持“农田变建筑”“裸地变水体”等自然语言 transition。
  5. No-change and pseudo-change benchmark:将季节、阴影、云、配准误差作为负样本。
  6. Disaster semantic change VQA:灾害场景加入损毁等级、面积、道路阻断、避险通道等结构化答案。
  7. Geo-metadata aware reasoning:把日期、GSD、地区、灾害事件元数据作为可选条件,但防止模型只靠文本猜测。
  1. VisTA / QAG-360K
  2. ChangeChat
  3. DeltaVLM
  4. Change3D
  5. OmniCD
  6. TERRA-CD
  7. HiSem
  8. RSCC dataset
  9. Referring Change Detection in Remote Sensing Imagery
  10. OmniEarth

Related Content

评论