RS-06 Evidence-Grounded RS-VQA

WangTong included in category 遥感基础模型与多模态理解 and series 2024-2026 遥感 AI 细分研究方向

2026-06-07 09:05:00 2026-06-07 09:05:00 845 words 4 minutes

Series - 2024-2026 遥感 AI 细分研究方向

RS-06 Evidence-Grounded RS-VQA

核心问题

遥感 VQA 里最危险的失败不是“答错”，而是“答案看起来对，但证据区域错”。例如模型回答“有 3 架飞机”，但它看的 attention/box 落在建筑屋顶；或者回答“这是洪水区域”，但证据 mask 覆盖的是云影。自然图像 VQA 中这种问题已经存在，遥感里会更严重，因为遥感图像常有：

超大图和 tile 切片，问题相关区域可能只占极少像素。
小目标密集，车、飞机、船、球场等容易被背景纹理混淆。
俯视视角和 GSD 差异，同一个地物在 0.3m、1m、10m 影像中视觉证据完全不同。
语义依赖地理上下文，模型可能用“机场附近应该有飞机”这类先验猜答案。
公开数据中 caption/QA/grounding 多由检测框、模板或 VLM 合成，证据链不一定被人工核验。

因此 RS-06 的目标不是再做一个普通 RS-VQA 数据集，而是设计一个强制输出 answer + bbox/mask + confidence 的 evidence-grounded RS-VQA benchmark。它要能诊断三类错误：答案错、答案对但证据错、答案和证据都对但置信度不可信。

代表论文与资源

工作	年份/来源	链接	证据/grounding 设计	对 RS-06 的启发
GeoChat: Grounded Large Vision-Language Model for Remote Sensing	CVPR 2024	CVF, GitHub	支持 image/region caption、VQA、grounded conversations、referring object detection；项目页说明已开源代码、模型、数据和评测脚本。	说明 RS-VLM 可以把自然语言回答和目标位置交织输出，但还需要独立评估“回答和框是否一致”。
VHM: Versatile and Honest VLM for Remote Sensing Image Analysis	arXiv 2024 / AAAI 2025 方向	arXiv, GitHub	强调 honest QA，用不存在目标/欺骗性问题减轻幻觉。	RS-06 可借鉴 false-premise QA，但要进一步要求证据框/mask 和拒答置信度。
VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding	NeurIPS 2024 Datasets & Benchmarks	NeurIPS, GitHub	包含 29,614 图、人工核验 caption、52,472 object references、123,221 QA，覆盖 caption、visual grounding、VQA。	可作为 answer-grounding 联合样本来源；但需要把 VQA 与 reference/object evidence 强绑定。
GEOBench-VLM	ICCV 2025	CVF PDF, GitHub	覆盖 8 大类、31 个细粒度 geospatial VLM 任务，包括计数、定位、分割、caption、event、temporal 等；采用 MCQ 以降低开放回答评测偏差。	提供任务谱系和客观评测思路，但 RS-06 应从 MCQ 扩展到开放答案 + 证据区域。
OmniEarth	arXiv 2026	arXiv	28 个细粒度任务，支持 MCQ 与 open-ended VQA；开放形式含文本、bbox、mask；采用 blind test 和 quintuple semantic consistency 降低语言偏差。	最接近 RS-06 的 benchmark 形态，可直接借鉴“任务维度 + box/mask 输出 + 语义一致性”。
RSHBench / RADAR: Seeing Clearly without Training	arXiv 2026	arXiv, GitHub 计划	RSHBench 诊断 RS-VQA 中 factual/logical hallucination；RADAR 是 training-free 推理方法，用模型内在 attention 做渐进定位和局部推理。	证明幻觉主要来自 grounding failure 和小目标误读；RS-06 应把局部化过程显式纳入指标。
ScaleEarth: Continuous Scale Conditioning for RS-VLMs	arXiv 2026	arXiv	把 GSD 当连续条件变量，用 CS-HLoRA 动态调制 LoRA 子空间；构造 GeoScale-VQA，问题生成与物理尺度条件绑定。	RS-06 必须记录 GSD，并将“证据区域是否足以支持答案”按尺度分层评估。
SATGround	arXiv 2025/2026	arXiv	面向遥感 visual grounding 的空间感知方法，强化语言与空间定位联合推理。	可作为 evidence box 生成/校准 baseline。
RSHallu / RSHalluEval	arXiv 2026 方向	paper page	提出遥感 MLLM 幻觉 taxonomy，区分 object-centric 与 image-level inconsistencies，并做双模式检查。	可补足 RS-06 的幻觉类别定义，特别是 modality、resolution、scene-level 语义错误。
RSHR-Bench	2025/2026 方向	HF dataset	面向超高分辨率遥感 MLLM，含 VQA/caption 等任务。	可用于大图场景的 evidence localization 和 token/tiling 失败诊断。

方法脉络

1. 从“回答问题”到“回答并定位”

早期 RS-VQA 主要优化 answer accuracy：分类式答案、文本匹配或 LLM judge。GeoChat 之后，模型开始可以把回答和位置一起输出，例如 grounded description、referring expression、region caption。问题是多数评测仍把 VQA、grounding、caption 分开算；模型只要答案对，就可能掩盖证据区域错误。

RS-06 应将样本定义为：

image / image tiles / metadata
question
answer
evidence_type: bbox | rotated_bbox | mask | point_set | region_set
evidence_annotation
confidence_target or calibration split
negative_evidence if applicable
GSD / sensor / date / region metadata

2. 从“开放答案难评估”到“结构化输出”

GEOBench-VLM 使用 MCQ 降低开放答案评测偏差，这是合理的 benchmark 工程选择。但 evidence-grounded RS-VQA 不能只停在 MCQ，因为真实系统需要指出“我依据哪里回答”。OmniEarth 已经把 open-ended 输出扩展到文本、bbox 和 mask，这是 RS-06 可以直接承接的方向。

建议输出格式：

{
  "answer": "3",
  "evidence": [
    {"type": "bbox", "xyxy": [102, 85, 140, 123], "class": "airplane", "confidence": 0.74},
    {"type": "bbox", "xyxy": [188, 96, 231, 131], "class": "airplane", "confidence": 0.71},
    {"type": "bbox", "xyxy": [255, 90, 294, 128], "class": "airplane", "confidence": 0.68}
  ],
  "answer_confidence": 0.70,
  "abstain": false
}

3. 从“幻觉诊断”到“证据一致性指标”

RSHBench/RADAR 把 RS-VQA 幻觉归因到大场景 grounding failure 和小目标细粒度误读。RS-06 应把它转成指标：

Answer accuracy：答案是否正确。
Evidence IoU / mIoU：证据框或 mask 是否覆盖答案相关目标。
Answer-evidence consistency：答案数量/类别/属性是否可由证据区域推出。
Negative evidence handling：问题问不存在目标时，是否拒答或给出低置信度，而不是乱框。
Calibration：answer_confidence 与实际 correctness / evidence correctness 是否一致。
Scale-stratified score：按 GSD、目标像素面积、tile 大小分层报告。

Benchmark 设计方案

任务类型

任务	示例问题	证据要求	失败模式
Presence	图中是否有飞机？	至少一个飞机 bbox/mask；无飞机时 evidence 为空且低置信度	根据机场场景先验猜有飞机
Counting	有多少个网球场？	每个实例一个 bbox/mask，数量与 answer 一致	答对数量但框错；漏小目标
Attribute	哪些建筑受损？	损毁建筑 mask + 属性标签	把阴影/屋顶纹理当损毁
Spatial relation	游泳池在住宅区的哪一侧？	游泳池与住宅区两个区域	只输出一个目标，关系无法验证
Fine-grained class	这是跑道还是道路？	目标区域 + 类别置信度	语义近邻混淆
Change VQA	哪些区域从农田变为建筑？	双时相变化 mask	季节/配准误差误判
Scale-aware QA	该尺度下能否可靠计数车辆？	车辆证据或 abstain	GSD 太粗时仍自信回答

数据来源组合

VRSBench：caption、object references、QA 三者齐全，适合构造 answer-evidence 联合样本。
GEOBench-VLM：可抽取定位、计数、分割、temporal 任务作为类别框架。
OmniEarth：开放答案、bbox、mask 输出范式可作为目标格式。
GeoChat instruction 数据：适合训练/初始评测 grounded dialogue。
DIOR-RSVG、DOTA、iSAID、xView、Vaihingen/Potsdam、LoveDA、xBD：可补足检测、旋转框、分割和灾害类证据。
RSHBench/RSHallu hard negatives：用于不存在目标、语言先验和小目标幻觉诊断。

标注策略

正样本：由检测框/分割 mask/人工 reference expression 生成 QA，再人工核查 answer 和 evidence。
负样本：同场景但目标不存在、相似目标干扰、尺度不足以识别、被云/阴影遮挡。
多证据样本：计数、关系、变化任务需要多个 evidence region。
证据粒度：先支持 HBB + mask；旋转目标增加 OBB；道路/河流/地块支持 polyline/polygon。
元数据：每张图记录 GSD、sensor、location split、date/season、tile origin。

可复现实验计划

Baseline 模型

类别	模型	用法
RS-specific VLM	GeoChat、VHM、SkySenseGPT、EarthDial、RSUniVLM	评估遥感专用模型是否比通用 VLM 更会定位证据
通用 VLM	Qwen2.5-VL/Qwen3-VL、LLaVA-OneVision、InternVL、GPT-4o/GPT-5 系列如可用	测试通用模型在 RS evidence 上的迁移能力
Grounding baseline	GroundingDINO + SAM/SAM2、SATGround、GeoChat grounding head	将“回答”和“定位”拆开组合
Training-free mitigation	RADAR	测试 attention-guided progressive localization 是否提升 evidence correctness
Scale-aware	ScaleEarth 或 GSD-conditioned LoRA 复现	测试 GSD 条件化是否减少尺度相关幻觉

三阶段实验

Zero-shot evaluation
直接要求模型输出 JSON：answer、evidence、confidence。重点看格式可控性、拒答能力和证据 IoU。
Evidence-aware instruction tuning
用 VRSBench/GeoChat/OmniEarth 风格数据训练 LoRA，损失包含文本答案、bbox token/mask decoder、confidence calibration。
Training-free localization refinement
对模型回答后的 evidence 用 RADAR、GroundingDINO、SAM2 或 attention rollout 做二次定位，比较是否减少“答案对证据错”。

指标

AnsAcc = answer correctness
[email protected] / E-mIoU = evidence localization quality
AEC = answer-evidence consistency
JointScore = AnsAcc * EvidenceCorrect
Calib-ECE = confidence calibration for joint correctness
Abstain-F1 = false-premise or unresolvable question handling
ScaleSlice = metrics grouped by GSD and object pixel area
GeoSlice = metrics grouped by region/city/climate split

建议主指标使用 JointScore，否则模型会通过语言猜测拿高分。

一个可投稿的小方法方案

题目草案：EviRS-VQA: Evidence-Calibrated Visual Question Answering for Remote Sensing

假设

如果训练和评测同时要求模型输出答案、证据区域和置信度，并用 GSD/目标尺度分层约束，RS-VQA 的幻觉率会显著下降，尤其在计数、小目标和 false-premise 问题上。

方法

Evidence schema：统一 HBB/OBB/mask/empty evidence 的 JSON 输出格式。
Evidence-aware data construction：从 VRSBench、GeoChat、OmniEarth、DOTA/iSAID/xBD 构造 QA-evidence 对，加入 hard negatives。
Evidence consistency loss：答案 token loss + bbox/mask loss + answer-evidence consistency regularizer。
Confidence head：预测 joint correctness 的置信度，而不是只预测 answer confidence。
Scale conditioner：引入 GSD scalar 或目标像素面积 bucket，参考 ScaleEarth 的连续条件化思路，但保持轻量。
Optional refinement：用 RADAR 或 SAM/GroundingDINO 做 test-time evidence refinement。

最小实验

数据：VRSBench 子集 + DOTA/iSAID 计数/存在问题 + xBD 损毁问题 + hard negatives。
模型：GeoChat、Qwen2.5-VL、VHM、GroundingDINO+SAM、RADAR-style refinement。
训练：只训练 LoRA + confidence head。
指标：AnsAcc、E-IoU、JointScore、Calib-ECE、Abstain-F1。
消融：无 evidence loss、无 hard negatives、无 GSD、无 refinement、HBB vs mask。

未来研究方向

答案对但证据错的专门排行榜：把 AnsAcc=1, EvidenceCorrect=0 作为核心错误类型，而不是被平均分掩盖。
GSD-aware abstention：当 GSD 不足以识别车辆/屋顶损毁时，模型应输出“不确定/无法可靠判断”。
多证据关系推理：空间关系和变化问题需要多个区域共同支撑，不能只给一个 attention hot spot。
证据可编辑 benchmark：允许人类修改 evidence，观察模型能否基于新证据修正答案。
从 bbox 到 mask 的证据升级：先用 HBB 建立可复现 benchmark，再用 SAM/SAM2 生成 mask 并人工抽检。
地理偏置诊断：同一问题在不同国家/气候带/城市形态下的证据错误是否系统性不同。
closed-source VLM 可审计评测：无法访问 attention 时，要求显式输出 evidence，并用外部 verifier 检查。

建议产物结构

如果继续实现该方向，建议在项目中建立：

research/rs06_evidence_grounded_rsvqa.md
data_cards/evirs_vqa_dataset_card.md
protocols/evirs_vqa_annotation_protocol.md
experiments/evirs_vqa_baseline_matrix.md

参考链接

GeoChat CVPR 2024: https://openaccess.thecvf.com/content/CVPR2024/html/Kuckreja_GeoChat_Grounded_Large_Vision-Language_Model_for_Remote_Sensing_CVPR_2024_paper.html
GeoChat GitHub: https://github.com/mbzuai-oryx/GeoChat
VHM arXiv: https://arxiv.org/abs/2403.20213
VHM GitHub: https://github.com/opendatalab/VHM
VRSBench NeurIPS 2024: https://proceedings.neurips.cc/paper_files/paper/2024/hash/05b7f821234f66b78f99e7803fffa78a-Abstract-Datasets_and_Benchmarks_Track.html
VRSBench GitHub: https://github.com/lx709/VRSBench
GEOBench-VLM ICCV 2025: https://openaccess.thecvf.com/content/ICCV2025/papers/Danish_GEOBench-VLM_Benchmarking_Vision-Language_Models_for_Geospatial_Tasks_ICCV_2025_paper.pdf
GEOBench-VLM GitHub: https://github.com/The-AI-Alliance/GEO-Bench-VLM
OmniEarth arXiv 2026: https://arxiv.org/abs/2603.09471
RSHBench/RADAR arXiv 2026: https://arxiv.org/abs/2603.02754
RADAR GitHub planned: https://github.com/MiliLab/RADAR
ScaleEarth arXiv 2026: https://arxiv.org/abs/2605.07562
SATGround arXiv: https://arxiv.org/abs/2512.08881
RSHR-Bench Hugging Face: https://huggingface.co/datasets/RL-MIND/RSHR-Bench

Contents

RS-06 Evidence-Grounded RS-VQA

RS-06 Evidence-Grounded RS-VQA

核心问题

代表论文与资源

方法脉络

1. 从“回答问题”到“回答并定位”

2. 从“开放答案难评估”到“结构化输出”

3. 从“幻觉诊断”到“证据一致性指标”

Benchmark 设计方案

任务类型

数据来源组合

标注策略

可复现实验计划

Baseline 模型

三阶段实验

指标

一个可投稿的小方法方案

假设

方法

最小实验

未来研究方向

建议产物结构

参考链接

Related Content

评论

RS-06 Evidence-Grounded RS-VQA

RS-06 Evidence-Grounded RS-VQA

核心问题

代表论文与资源

方法脉络

1. 从“回答问题”到“回答并定位”

2. 从“开放答案难评估”到“结构化输出”

3. 从“幻觉诊断”到“证据一致性指标”

Benchmark 设计方案

任务类型

数据来源组合

标注策略

可复现实验计划

Baseline 模型

三阶段实验

指标

一个可投稿的小方法方案

假设

方法

最小实验

未来研究方向

建议产物结构

参考链接

Related Content

RS-10 Reference-Free Caption Evaluation for Remote Sensing

RS-09 HBB/OBB/Mask Unified Visual Grounding

RS-08 Text-to-Region Retrieval in Large EO Mosaics

RS-07 Remote Sensing VLM Hallucination Diagnostics

评论