RS-19 Change Caption Evidence Grounding

WangTong included in category 遥感基础模型与多模态理解 and series 2024-2026 遥感 AI 细分研究方向

2026-06-07 09:18:00 2026-06-07 09:18:00 874 words 4 minutes

Series - 2024-2026 遥感 AI 细分研究方向

RS-19 Change Caption Evidence Grounding

核心问题

遥感 change captioning 的目标是输入同一区域的双时相或多时相影像，输出自然语言变化描述，例如“新建了几栋建筑”“农田变成裸地”“洪水淹没了道路和建筑”。这个任务比普通变化检测更接近人类解释，但也更容易出现一种危险失败：句子读起来合理，BLEU/CIDEr 也不低，却没有被变化区域真正支撑。

RS-19 的细问题是：如何判断 change caption 中每个变化短语是否有 bbox/mask 级证据支撑。例如 caption 说“two buildings were destroyed and surrounding roads were flooded”，评估不应只看文本相似度，而要拆成：

对象：building、road、water/flood。
属性：destroyed、flooded、newly built、removed、expanded。
数量：two、several、large area。
位置关系：surrounding、near、north of、along the road。
时间关系：pre-event 存在、post-event 消失/受损/出现。
证据区域：对象变化 mask、损毁建筑 bbox、洪水区域 mask、道路变化线状 mask。

一个好的 evidence-grounded change caption 评测，应区分四类结果：

文本正确且证据正确。
文本正确但证据区域错。
证据区域覆盖真实变化，但文本属性/数量错。
文本和证据都错，或对 no-change 图像产生幻觉变化。

代表论文与资源

工作	年份/来源	链接	官方代码/数据	和 evidence grounding 的关系
RSICCFormer / LEVIR-CC	2022 TGRS	论文 PDF	LEVIR-CC 数据集	早期核心基准；每对图像有多条变化描述，但主要按文本指标评估，缺少 phrase-to-region 证据。
PromptCC	2023 TGRS	GitHub	GitHub	用 prompt learning 和预训练语言模型做 RSICC；代码中包含 LEVIR-CC 训练、推理、指标脚本，可作为复现实验基线。
Chg2Cap	2023/2024	arXiv	GitHub	用 attentive decoder 定位 change-related features，再生成 caption；注意力可作为弱证据，但不是显式 bbox/mask 证据。
Semantic-CC	2024 arXiv	arXiv	未稳定确认官方代码	用 foundation knowledge 与 change detection pixel-level semantic guidance 联合训练，直接把 CD mask/语义引入 caption，是 RS-19 最重要的 baseline 之一。
VRSBench	2024 NeurIPS Datasets & Benchmarks	arXiv, GitHub	GitHub	包含 caption、object references、QA 和 visual grounding。虽不是 change caption 专门数据，但提供 phrase/object grounding 数据构造范式。
SAT-Cap	2025 arXiv	arXiv	论文称代码/模型将发布	单阶段 Transformer change caption，强调低复杂度和细节提取；适合作为文本强基线，但证据约束仍弱。
SECOND-CC / MModalCC	2025 arXiv / JSTARS 关联	arXiv, GitHub	GitHub	提供 6,041 对高分 RGB 双时相图、语义分割图和 30,205 条句子；语义图可直接用于 phrase-to-mask evidence score。
DeltaVLM / ChangeChat-105k	2025 arXiv/HF	HF paper, GitHub	GitHub, HF dataset	将 change caption、classification、quantification、localization、open QA、多轮对话统一成 interactive change analysis。localization 子任务可直接补证据监督。
ChangeIMTI / ChangeVG	2025 arXiv	arXiv 摘要线索	论文称 GitHub 公开	构造包含 change captioning、binary classification、counting、localization 的交互式多任务数据集；和 RS-19 的“caption 句子必须对齐定位”高度相关。
RSCC disaster change caption dataset	2025 NeurIPS D&B	NeurIPS PDF, GitHub	GitHub	62,351 对灾前/灾后影像，使用 xBD/EBD 等灾害标签生成并人工核验 caption；建筑损毁框/等级可用作证据监督。
HiSem	2026 arXiv	arXiv	论文称代码将发布	提出层级语义解耦：先区分 changed/no-change，再对 changed 样本做 token-level MoE。问题意识很接近 RS-19，但仍主要报告 BLEU/CIDEr 等文本指标。
OmniCD	2026 arXiv	arXiv	论文页线索	用 multimodal semantics 引导变化检测 foundation framework。可作为 mask/semantic evidence 生成器，给 caption 评测提供候选变化证据。
OmniEarth	2026 arXiv	arXiv	数据/评测线索	覆盖文本、bbox、mask 等输出形态，可借鉴其多输出一致性评测思想，迁移到 change caption。

问题由来

1. 传统指标只评价句子相似，不评价证据

RSICC 早期主要沿用 BLEU、METEOR、ROUGE-L、CIDEr、SPICE 等 caption 指标。这些指标适合快速比较模型，但对遥感 change caption 有三个缺陷：

同一个真实变化可以有多种等价表述，文本指标会惩罚合理改写。
模型可能生成高频模板句，例如“some buildings appeared”，获得不差分数，却没有定位依据。
句子中最关键的变化属性，如“destroyed”“flooded”“removed”，如果没有落到真实变化区域，文本指标也不一定能发现。

2. Change caption 天然需要“时序证据”

普通 image caption 只需说明一张图有什么；change caption 必须说明 t1 -> t2 的差分。一个短语是否有证据，需要同时检查：

t1 中对象是否存在。
t2 中对象是否存在或属性是否改变。
差分区域是否与句子描述一致。
变化是否真实，而不是光照、阴影、季节、配准误差。

这也是 HiSem 强调 changed/unchanged 样本具有不同语义粒度的原因：no-change 样本只需判断“没有显著变化”，changed 样本才需要细粒度对象和属性描述。

3. 新数据集开始提供 mask/语义/定位线索

SECOND-CC 提供语义分割图，RSCC 从 xBD/EBD 灾害标签提取建筑损毁信息，DeltaVLM/ChangeChat-105k 和 ChangeIMTI 把 localization/counting 与 caption 放进同一任务体系。这说明 RS-19 的 evidence score 已经具备数据基础：不必重新标完整数据集，可以用已有 mask/box/semantic labels 构建 phrase-level 证据评测子集。

方法脉络

A. Text-only change caption

代表：RSICCFormer、PromptCC、SAT-Cap、Chg2Cap。
特点：输入双时相图像，输出文本；训练和评估主要依赖 caption loss 与文本指标。

优点：复现简单，已有 LEVIR-CC、Dubai-CCD、WHU-CDC 等基准。
不足：注意力热图不等于证据；无法判断“句子里的建筑/道路/水体变化”是否真的落到正确区域。

B. CD-guided / semantic-guided caption

代表：Semantic-CC、MModalCC、OmniCD 可迁移。
特点：引入 change detection mask、semantic segmentation map 或多任务 decoder，让 caption decoder 接收像素级变化先验。

优点：天然适合 evidence grounding；可把 mask 作为监督或评测对象。
不足：如果 CD mask 本身错，caption 会被错误证据牵着走；文本中的属性和关系仍需额外解析。

C. Interactive change understanding

代表：DeltaVLM、ChangeVG/ChangeIMTI、RSCC disaster caption benchmark。
特点：把 caption、分类、计数、定位、QA、多轮对话合并；模型不仅描述，还能回答“哪里变化了”“多少建筑受损”“哪个区域被淹”。

优点：可以用 localization/counting 子任务反向验证 caption。
不足：很多 instruction 数据由规则或 GPT 辅助生成，仍需检查语言幻觉和视觉证据一致性。

D. 通用 VLM caption grounding 迁移

VRSBench、OmniEarth、GEOBench-VLM、RSHBench/RADAR 等不是专门 change caption，但提供了 object reference、visual grounding、bbox/mask 输出和幻觉诊断思路。RS-19 可以把这些思想迁移到双时相：

把 caption 解析成结构化事件。
对每个事件生成或匹配 evidence region。
用 bbox/mask IoU、类别一致性、数量一致性、时序一致性联合评分。

建议的 Evidence Score

1. Caption 结构化

把生成 caption 和参考 caption 都解析为事件集合：

{
  "events": [
    {
      "object": "building",
      "change_type": "destroyed",
      "count": 2,
      "attributes": ["severe damage"],
      "spatial_relation": "near road",
      "evidence_required": ["pre_object", "post_damage", "change_mask"]
    },
    {
      "object": "road",
      "change_type": "flooded",
      "count": null,
      "attributes": ["surrounding"],
      "evidence_required": ["post_water_mask", "road_overlap"]
    }
  ]
}

结构化可用三种方式实现：

规则 + 地物词表：适合 LEVIR-CC、SECOND-CC、RSCC 的高频类别。
LLM parser：把 caption 转为 JSON，但必须人工抽检。
数据集标签反推：xBD damage label、semantic map、CD mask 可直接生成事件。

2. Phrase-to-region 匹配

对每个事件匹配证据：

object_evidence: object bbox/mask 是否覆盖对应地物。
change_evidence: changed pixels 是否与该对象或区域重叠。
temporal_evidence: t1/t2 状态是否满足出现、消失、扩张、损毁、淹没。
relation_evidence: 空间关系是否成立，如道路附近、建筑周围、水体覆盖。

3. 指标定义

建议主指标命名为 Change Caption Grounding Score (CCGS)：

CCGS = mean_event(
  w_obj * ObjectMatch
  + w_change * ChangeIoU
  + w_attr * AttributeConsistency
  + w_count * CountConsistency
  + w_rel * RelationConsistency
  + w_time * TemporalConsistency
)

具体分量：

ObjectMatch: 生成事件 object 是否能在 GT semantic/bbox/mask 中找到匹配，类别可用 taxonomy-aware mapping。
ChangeIoU: 事件对应变化区域与 GT change mask 的 IoU / mIoU。
AttributeConsistency: destroyed/flooded/newly-built/removed/expanded 等属性是否与标签或变化模式一致。
CountConsistency: 对建筑、车辆等实例目标，用 count error 或 F1。
RelationConsistency: 根据 mask/bbox 几何关系计算 near/inside/around/along。
TemporalConsistency: 检查 pre/post 状态是否符合 change_type。
No-change Hallucination Rate: no-change 样本中生成变化事件的比例。

文本指标仍保留，但作为辅助：

final_report = {
  text_metrics: BLEU/METEOR/ROUGE/CIDEr/SPICE/BERTScore,
  grounding_metrics: CCGS, ChangeIoU, AttributeConsistency,
  hallucination_metrics: NoChangeHallucination, UnsupportedPhraseRate,
  calibration: confidence-ECE if model outputs confidence
}

实验矩阵

维度	推荐设置
数据集	LEVIR-CC、WHU-CDC、Dubai-CCD、SECOND-CC、RSCC disaster、ChangeChat-105k/ChangeIMTI 子集
证据来源	GT change mask、semantic map、xBD building damage bbox、SAM/OmniCD 伪 mask、人工抽检子集
Baseline caption 模型	PromptCC、Chg2Cap、SAT-Cap、Semantic-CC、MModalCC、DeltaVLM
Evidence baseline	attention heatmap threshold、Grad-CAM、CD model mask、SAM mask + text matching、OmniCD mask
文本指标	BLEU-4、METEOR、ROUGE-L、CIDEr、SPICE、BERTScore
证据指标	CCGS、event-level F1、phrase grounding IoU、unsupported phrase rate、no-change hallucination rate
分层报告	changed/no-change、建筑/道路/水体/植被、实例目标/区域目标、灾害/非灾害、配准误差/阴影/季节扰动

最小可复现实验

选 SECOND-CC，因为它同时有 image pair、caption 和 semantic segmentation maps。
选 PromptCC 或 Chg2Cap 作为 text-only baseline，选 Semantic-CC/MModalCC 作为 semantic-guided baseline。
用规则词表解析 caption 中的 object/change_type。
将 semantic map 或 change mask 转为 evidence mask。
计算传统文本指标 + CCGS。
人工抽检 100-200 个样本，验证 CCGS 是否比 CIDEr 更能暴露幻觉变化。

扩展实验

在 RSCC disaster 上利用 xBD building damage boxes，评估 destroyed/minor/major damage 等属性的一致性。
在 LEVIR-CC/WHU-CDC 上使用 OmniCD 或强 CD 模型生成伪 evidence，比较 GT evidence 与 pseudo evidence 的相关性。
让 DeltaVLM/ChangeVG 输出 caption + localization，再评估它是否比 text-only 模型更低 unsupported phrase rate。
对 no-change pairs 专门测试 false change hallucination。

可投稿的小方法方案

题目草案

Grounded Change Captioning for Remote Sensing: Event-Level Evidence Scoring with Mask and Temporal Consistency

方法模块

Event Parser: 把 change caption 解析成 object、change_type、attribute、count、relation。
Evidence Retriever: 从 GT mask、CD model、SAM、semantic segmentation 或 xBD damage labels 中获得候选证据区域。
Temporal Verifier: 检查 pre/post 状态是否支持事件。
Grounding Score: 计算 CCGS 和 unsupported phrase rate。
Feedback Training: 可选，把 CCGS 作为 reward 或 reranker，训练 caption 模型减少无证据短语。

预期贡献

提出 RSICC 的 phrase/event-level evidence grounding 评测，不再只依赖文本相似度。
构建一个小型人工核验 benchmark，标注每个 change phrase 的 bbox/mask 证据。
系统比较 text-only、semantic-guided、interactive VLM 三类模型的证据一致性。
提供可复现实验脚本和错误类型 taxonomy。

未来研究方向

Caption-to-mask 反向监督：让模型在生成每个变化短语时同步输出 mask，用 mask loss 约束语言。
No-change 拒答机制：对无变化或仅有光照/季节变化的样本，要求模型输出无显著变化并给出低变化置信度。
事件级不确定性：不是整句一个 confidence，而是每个事件一个 confidence；对不确定区域提示人工核验。
长尾变化类别：针对灾害、违建、农田轮作、临时设施等长尾事件，评估 CCGS 是否能发现模板化错误。
跨数据集证据迁移：在 SECOND-CC 用语义图开发指标，在 RSCC/xBD 用建筑损毁框验证，在 LEVIR-CC 用伪 mask 迁移。
地理关系 grounding：把 near/along/inside/surrounding 等空间关系纳入指标，而不只看对象 IoU。
LLM-as-parser 风险控制：结构化解析如果用 LLM，需要稳定 schema、置信度和人工抽检，否则会把 parser 错误当模型错误。

Contents

RS-19 Change Caption Evidence Grounding

RS-19 Change Caption Evidence Grounding

核心问题

代表论文与资源

问题由来

1. 传统指标只评价句子相似，不评价证据

2. Change caption 天然需要“时序证据”

3. 新数据集开始提供 mask/语义/定位线索

方法脉络

A. Text-only change caption

B. CD-guided / semantic-guided caption

C. Interactive change understanding

D. 通用 VLM caption grounding 迁移

建议的 Evidence Score

1. Caption 结构化

2. Phrase-to-region 匹配

3. 指标定义

实验矩阵

最小可复现实验

扩展实验

可投稿的小方法方案

题目草案

方法模块

预期贡献

未来研究方向

推荐阅读顺序

Related Content

评论

RS-19 Change Caption Evidence Grounding

RS-19 Change Caption Evidence Grounding

核心问题

代表论文与资源

问题由来

1. 传统指标只评价句子相似，不评价证据

2. Change caption 天然需要“时序证据”

3. 新数据集开始提供 mask/语义/定位线索

方法脉络

A. Text-only change caption

B. CD-guided / semantic-guided caption

C. Interactive change understanding

D. 通用 VLM caption grounding 迁移

建议的 Evidence Score

1. Caption 结构化

2. Phrase-to-region 匹配

3. 指标定义

实验矩阵

最小可复现实验

扩展实验

可投稿的小方法方案

题目草案

方法模块

预期贡献

未来研究方向

推荐阅读顺序

Related Content

TUE-CD：震后建筑变化检测真正难的是短时间隔下的侧视错位

CSI-Net：变化检测里真正难的是压住伪变化

SST-CD：把无标签建筑变化检测从差异图变成自训练

RS-20 Temporal Foundation Model for Cloud/Season Robustness

RS-18 Temporal Hard Negatives for Change Models

评论