RS-06 Evidence-Grounded RS-VQA

Series - 2024-2026 遥感 AI 细分研究方向

RS-06 Evidence-Grounded RS-VQA

遥感 VQA 里最危险的失败不是“答错”,而是“答案看起来对,但证据区域错”。例如模型回答“有 3 架飞机”,但它看的 attention/box 落在建筑屋顶;或者回答“这是洪水区域”,但证据 mask 覆盖的是云影。自然图像 VQA 中这种问题已经存在,遥感里会更严重,因为遥感图像常有:

  • 超大图和 tile 切片,问题相关区域可能只占极少像素。
  • 小目标密集,车、飞机、船、球场等容易被背景纹理混淆。
  • 俯视视角和 GSD 差异,同一个地物在 0.3m、1m、10m 影像中视觉证据完全不同。
  • 语义依赖地理上下文,模型可能用“机场附近应该有飞机”这类先验猜答案。
  • 公开数据中 caption/QA/grounding 多由检测框、模板或 VLM 合成,证据链不一定被人工核验。

因此 RS-06 的目标不是再做一个普通 RS-VQA 数据集,而是设计一个强制输出 answer + bbox/mask + confidence 的 evidence-grounded RS-VQA benchmark。它要能诊断三类错误:答案错、答案对但证据错、答案和证据都对但置信度不可信。

工作年份/来源链接证据/grounding 设计对 RS-06 的启发
GeoChat: Grounded Large Vision-Language Model for Remote SensingCVPR 2024CVF, GitHub支持 image/region caption、VQA、grounded conversations、referring object detection;项目页说明已开源代码、模型、数据和评测脚本。说明 RS-VLM 可以把自然语言回答和目标位置交织输出,但还需要独立评估“回答和框是否一致”。
VHM: Versatile and Honest VLM for Remote Sensing Image AnalysisarXiv 2024 / AAAI 2025 方向arXiv, GitHub强调 honest QA,用不存在目标/欺骗性问题减轻幻觉。RS-06 可借鉴 false-premise QA,但要进一步要求证据框/mask 和拒答置信度。
VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image UnderstandingNeurIPS 2024 Datasets & BenchmarksNeurIPS, GitHub包含 29,614 图、人工核验 caption、52,472 object references、123,221 QA,覆盖 caption、visual grounding、VQA。可作为 answer-grounding 联合样本来源;但需要把 VQA 与 reference/object evidence 强绑定。
GEOBench-VLMICCV 2025CVF PDF, GitHub覆盖 8 大类、31 个细粒度 geospatial VLM 任务,包括计数、定位、分割、caption、event、temporal 等;采用 MCQ 以降低开放回答评测偏差。提供任务谱系和客观评测思路,但 RS-06 应从 MCQ 扩展到开放答案 + 证据区域。
OmniEartharXiv 2026arXiv28 个细粒度任务,支持 MCQ 与 open-ended VQA;开放形式含文本、bbox、mask;采用 blind test 和 quintuple semantic consistency 降低语言偏差。最接近 RS-06 的 benchmark 形态,可直接借鉴“任务维度 + box/mask 输出 + 语义一致性”。
RSHBench / RADAR: Seeing Clearly without TrainingarXiv 2026arXiv, GitHub 计划RSHBench 诊断 RS-VQA 中 factual/logical hallucination;RADAR 是 training-free 推理方法,用模型内在 attention 做渐进定位和局部推理。证明幻觉主要来自 grounding failure 和小目标误读;RS-06 应把局部化过程显式纳入指标。
ScaleEarth: Continuous Scale Conditioning for RS-VLMsarXiv 2026arXiv把 GSD 当连续条件变量,用 CS-HLoRA 动态调制 LoRA 子空间;构造 GeoScale-VQA,问题生成与物理尺度条件绑定。RS-06 必须记录 GSD,并将“证据区域是否足以支持答案”按尺度分层评估。
SATGroundarXiv 2025/2026arXiv面向遥感 visual grounding 的空间感知方法,强化语言与空间定位联合推理。可作为 evidence box 生成/校准 baseline。
RSHallu / RSHalluEvalarXiv 2026 方向paper page提出遥感 MLLM 幻觉 taxonomy,区分 object-centric 与 image-level inconsistencies,并做双模式检查。可补足 RS-06 的幻觉类别定义,特别是 modality、resolution、scene-level 语义错误。
RSHR-Bench2025/2026 方向HF dataset面向超高分辨率遥感 MLLM,含 VQA/caption 等任务。可用于大图场景的 evidence localization 和 token/tiling 失败诊断。

早期 RS-VQA 主要优化 answer accuracy:分类式答案、文本匹配或 LLM judge。GeoChat 之后,模型开始可以把回答和位置一起输出,例如 grounded description、referring expression、region caption。问题是多数评测仍把 VQA、grounding、caption 分开算;模型只要答案对,就可能掩盖证据区域错误。

RS-06 应将样本定义为:

image / image tiles / metadata
question
answer
evidence_type: bbox | rotated_bbox | mask | point_set | region_set
evidence_annotation
confidence_target or calibration split
negative_evidence if applicable
GSD / sensor / date / region metadata

GEOBench-VLM 使用 MCQ 降低开放答案评测偏差,这是合理的 benchmark 工程选择。但 evidence-grounded RS-VQA 不能只停在 MCQ,因为真实系统需要指出“我依据哪里回答”。OmniEarth 已经把 open-ended 输出扩展到文本、bbox 和 mask,这是 RS-06 可以直接承接的方向。

建议输出格式:

{
  "answer": "3",
  "evidence": [
    {"type": "bbox", "xyxy": [102, 85, 140, 123], "class": "airplane", "confidence": 0.74},
    {"type": "bbox", "xyxy": [188, 96, 231, 131], "class": "airplane", "confidence": 0.71},
    {"type": "bbox", "xyxy": [255, 90, 294, 128], "class": "airplane", "confidence": 0.68}
  ],
  "answer_confidence": 0.70,
  "abstain": false
}

RSHBench/RADAR 把 RS-VQA 幻觉归因到大场景 grounding failure 和小目标细粒度误读。RS-06 应把它转成指标:

  • Answer accuracy:答案是否正确。
  • Evidence IoU / mIoU:证据框或 mask 是否覆盖答案相关目标。
  • Answer-evidence consistency:答案数量/类别/属性是否可由证据区域推出。
  • Negative evidence handling:问题问不存在目标时,是否拒答或给出低置信度,而不是乱框。
  • Calibration:answer_confidence 与实际 correctness / evidence correctness 是否一致。
  • Scale-stratified score:按 GSD、目标像素面积、tile 大小分层报告。
任务示例问题证据要求失败模式
Presence图中是否有飞机?至少一个飞机 bbox/mask;无飞机时 evidence 为空且低置信度根据机场场景先验猜有飞机
Counting有多少个网球场?每个实例一个 bbox/mask,数量与 answer 一致答对数量但框错;漏小目标
Attribute哪些建筑受损?损毁建筑 mask + 属性标签把阴影/屋顶纹理当损毁
Spatial relation游泳池在住宅区的哪一侧?游泳池与住宅区两个区域只输出一个目标,关系无法验证
Fine-grained class这是跑道还是道路?目标区域 + 类别置信度语义近邻混淆
Change VQA哪些区域从农田变为建筑?双时相变化 mask季节/配准误差误判
Scale-aware QA该尺度下能否可靠计数车辆?车辆证据或 abstainGSD 太粗时仍自信回答
  1. VRSBench:caption、object references、QA 三者齐全,适合构造 answer-evidence 联合样本。
  2. GEOBench-VLM:可抽取定位、计数、分割、temporal 任务作为类别框架。
  3. OmniEarth:开放答案、bbox、mask 输出范式可作为目标格式。
  4. GeoChat instruction 数据:适合训练/初始评测 grounded dialogue。
  5. DIOR-RSVG、DOTA、iSAID、xView、Vaihingen/Potsdam、LoveDA、xBD:可补足检测、旋转框、分割和灾害类证据。
  6. RSHBench/RSHallu hard negatives:用于不存在目标、语言先验和小目标幻觉诊断。
  • 正样本:由检测框/分割 mask/人工 reference expression 生成 QA,再人工核查 answer 和 evidence。
  • 负样本:同场景但目标不存在、相似目标干扰、尺度不足以识别、被云/阴影遮挡。
  • 多证据样本:计数、关系、变化任务需要多个 evidence region。
  • 证据粒度:先支持 HBB + mask;旋转目标增加 OBB;道路/河流/地块支持 polyline/polygon。
  • 元数据:每张图记录 GSD、sensor、location split、date/season、tile origin。
类别模型用法
RS-specific VLMGeoChat、VHM、SkySenseGPT、EarthDial、RSUniVLM评估遥感专用模型是否比通用 VLM 更会定位证据
通用 VLMQwen2.5-VL/Qwen3-VL、LLaVA-OneVision、InternVL、GPT-4o/GPT-5 系列如可用测试通用模型在 RS evidence 上的迁移能力
Grounding baselineGroundingDINO + SAM/SAM2、SATGround、GeoChat grounding head将“回答”和“定位”拆开组合
Training-free mitigationRADAR测试 attention-guided progressive localization 是否提升 evidence correctness
Scale-awareScaleEarth 或 GSD-conditioned LoRA 复现测试 GSD 条件化是否减少尺度相关幻觉
  1. Zero-shot evaluation
    直接要求模型输出 JSON:answer、evidence、confidence。重点看格式可控性、拒答能力和证据 IoU。

  2. Evidence-aware instruction tuning
    用 VRSBench/GeoChat/OmniEarth 风格数据训练 LoRA,损失包含文本答案、bbox token/mask decoder、confidence calibration。

  3. Training-free localization refinement
    对模型回答后的 evidence 用 RADAR、GroundingDINO、SAM2 或 attention rollout 做二次定位,比较是否减少“答案对证据错”。

AnsAcc = answer correctness
[email protected] / E-mIoU = evidence localization quality
AEC = answer-evidence consistency
JointScore = AnsAcc * EvidenceCorrect
Calib-ECE = confidence calibration for joint correctness
Abstain-F1 = false-premise or unresolvable question handling
ScaleSlice = metrics grouped by GSD and object pixel area
GeoSlice = metrics grouped by region/city/climate split

建议主指标使用 JointScore,否则模型会通过语言猜测拿高分。

题目草案:EviRS-VQA: Evidence-Calibrated Visual Question Answering for Remote Sensing

如果训练和评测同时要求模型输出答案、证据区域和置信度,并用 GSD/目标尺度分层约束,RS-VQA 的幻觉率会显著下降,尤其在计数、小目标和 false-premise 问题上。

  1. Evidence schema:统一 HBB/OBB/mask/empty evidence 的 JSON 输出格式。
  2. Evidence-aware data construction:从 VRSBench、GeoChat、OmniEarth、DOTA/iSAID/xBD 构造 QA-evidence 对,加入 hard negatives。
  3. Evidence consistency loss:答案 token loss + bbox/mask loss + answer-evidence consistency regularizer。
  4. Confidence head:预测 joint correctness 的置信度,而不是只预测 answer confidence。
  5. Scale conditioner:引入 GSD scalar 或目标像素面积 bucket,参考 ScaleEarth 的连续条件化思路,但保持轻量。
  6. Optional refinement:用 RADAR 或 SAM/GroundingDINO 做 test-time evidence refinement。
  • 数据:VRSBench 子集 + DOTA/iSAID 计数/存在问题 + xBD 损毁问题 + hard negatives。
  • 模型:GeoChat、Qwen2.5-VL、VHM、GroundingDINO+SAM、RADAR-style refinement。
  • 训练:只训练 LoRA + confidence head。
  • 指标:AnsAcc、E-IoU、JointScore、Calib-ECE、Abstain-F1。
  • 消融:无 evidence loss、无 hard negatives、无 GSD、无 refinement、HBB vs mask。
  1. 答案对但证据错的专门排行榜:把 AnsAcc=1, EvidenceCorrect=0 作为核心错误类型,而不是被平均分掩盖。
  2. GSD-aware abstention:当 GSD 不足以识别车辆/屋顶损毁时,模型应输出“不确定/无法可靠判断”。
  3. 多证据关系推理:空间关系和变化问题需要多个区域共同支撑,不能只给一个 attention hot spot。
  4. 证据可编辑 benchmark:允许人类修改 evidence,观察模型能否基于新证据修正答案。
  5. 从 bbox 到 mask 的证据升级:先用 HBB 建立可复现 benchmark,再用 SAM/SAM2 生成 mask 并人工抽检。
  6. 地理偏置诊断:同一问题在不同国家/气候带/城市形态下的证据错误是否系统性不同。
  7. closed-source VLM 可审计评测:无法访问 attention 时,要求显式输出 evidence,并用外部 verifier 检查。

如果继续实现该方向,建议在项目中建立:

research/rs06_evidence_grounded_rsvqa.md
data_cards/evirs_vqa_dataset_card.md
protocols/evirs_vqa_annotation_protocol.md
experiments/evirs_vqa_baseline_matrix.md

Related Content

评论