# RS-06 Evidence-Grounded RS-VQA


# RS-06 Evidence-Grounded RS-VQA

## 核心问题

遥感 VQA 里最危险的失败不是“答错”，而是“答案看起来对，但证据区域错”。例如模型回答“有 3 架飞机”，但它看的 attention/box 落在建筑屋顶；或者回答“这是洪水区域”，但证据 mask 覆盖的是云影。自然图像 VQA 中这种问题已经存在，遥感里会更严重，因为遥感图像常有：

- 超大图和 tile 切片，问题相关区域可能只占极少像素。
- 小目标密集，车、飞机、船、球场等容易被背景纹理混淆。
- 俯视视角和 GSD 差异，同一个地物在 0.3m、1m、10m 影像中视觉证据完全不同。
- 语义依赖地理上下文，模型可能用“机场附近应该有飞机”这类先验猜答案。
- 公开数据中 caption/QA/grounding 多由检测框、模板或 VLM 合成，证据链不一定被人工核验。

因此 RS-06 的目标不是再做一个普通 RS-VQA 数据集，而是设计一个强制输出 `answer + bbox/mask + confidence` 的 evidence-grounded RS-VQA benchmark。它要能诊断三类错误：答案错、答案对但证据错、答案和证据都对但置信度不可信。

## 代表论文与资源

| 工作 | 年份/来源 | 链接 | 证据/grounding 设计 | 对 RS-06 的启发 |
|---|---:|---|---|---|
| GeoChat: Grounded Large Vision-Language Model for Remote Sensing | CVPR 2024 | [CVF](https://openaccess.thecvf.com/content/CVPR2024/html/Kuckreja_GeoChat_Grounded_Large_Vision-Language_Model_for_Remote_Sensing_CVPR_2024_paper.html), [GitHub](https://github.com/mbzuai-oryx/GeoChat) | 支持 image/region caption、VQA、grounded conversations、referring object detection；项目页说明已开源代码、模型、数据和评测脚本。 | 说明 RS-VLM 可以把自然语言回答和目标位置交织输出，但还需要独立评估“回答和框是否一致”。 |
| VHM: Versatile and Honest VLM for Remote Sensing Image Analysis | arXiv 2024 / AAAI 2025 方向 | [arXiv](https://arxiv.org/abs/2403.20213), [GitHub](https://github.com/opendatalab/VHM) | 强调 honest QA，用不存在目标/欺骗性问题减轻幻觉。 | RS-06 可借鉴 false-premise QA，但要进一步要求证据框/mask 和拒答置信度。 |
| VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding | NeurIPS 2024 Datasets & Benchmarks | [NeurIPS](https://proceedings.neurips.cc/paper_files/paper/2024/hash/05b7f821234f66b78f99e7803fffa78a-Abstract-Datasets_and_Benchmarks_Track.html), [GitHub](https://github.com/lx709/VRSBench) | 包含 29,614 图、人工核验 caption、52,472 object references、123,221 QA，覆盖 caption、visual grounding、VQA。 | 可作为 answer-grounding 联合样本来源；但需要把 VQA 与 reference/object evidence 强绑定。 |
| GEOBench-VLM | ICCV 2025 | [CVF PDF](https://openaccess.thecvf.com/content/ICCV2025/papers/Danish_GEOBench-VLM_Benchmarking_Vision-Language_Models_for_Geospatial_Tasks_ICCV_2025_paper.pdf), [GitHub](https://github.com/The-AI-Alliance/GEO-Bench-VLM) | 覆盖 8 大类、31 个细粒度 geospatial VLM 任务，包括计数、定位、分割、caption、event、temporal 等；采用 MCQ 以降低开放回答评测偏差。 | 提供任务谱系和客观评测思路，但 RS-06 应从 MCQ 扩展到开放答案 + 证据区域。 |
| OmniEarth | arXiv 2026 | [arXiv](https://arxiv.org/abs/2603.09471) | 28 个细粒度任务，支持 MCQ 与 open-ended VQA；开放形式含文本、bbox、mask；采用 blind test 和 quintuple semantic consistency 降低语言偏差。 | 最接近 RS-06 的 benchmark 形态，可直接借鉴“任务维度 + box/mask 输出 + 语义一致性”。 |
| RSHBench / RADAR: Seeing Clearly without Training | arXiv 2026 | [arXiv](https://arxiv.org/abs/2603.02754), [GitHub 计划](https://github.com/MiliLab/RADAR) | RSHBench 诊断 RS-VQA 中 factual/logical hallucination；RADAR 是 training-free 推理方法，用模型内在 attention 做渐进定位和局部推理。 | 证明幻觉主要来自 grounding failure 和小目标误读；RS-06 应把局部化过程显式纳入指标。 |
| ScaleEarth: Continuous Scale Conditioning for RS-VLMs | arXiv 2026 | [arXiv](https://arxiv.org/abs/2605.07562) | 把 GSD 当连续条件变量，用 CS-HLoRA 动态调制 LoRA 子空间；构造 GeoScale-VQA，问题生成与物理尺度条件绑定。 | RS-06 必须记录 GSD，并将“证据区域是否足以支持答案”按尺度分层评估。 |
| SATGround | arXiv 2025/2026 | [arXiv](https://arxiv.org/abs/2512.08881) | 面向遥感 visual grounding 的空间感知方法，强化语言与空间定位联合推理。 | 可作为 evidence box 生成/校准 baseline。 |
| RSHallu / RSHalluEval | arXiv 2026 方向 | [paper page](https://researchtrend.ai/papers/2602.10799) | 提出遥感 MLLM 幻觉 taxonomy，区分 object-centric 与 image-level inconsistencies，并做双模式检查。 | 可补足 RS-06 的幻觉类别定义，特别是 modality、resolution、scene-level 语义错误。 |
| RSHR-Bench | 2025/2026 方向 | [HF dataset](https://huggingface.co/datasets/RL-MIND/RSHR-Bench) | 面向超高分辨率遥感 MLLM，含 VQA/caption 等任务。 | 可用于大图场景的 evidence localization 和 token/tiling 失败诊断。 |

## 方法脉络

### 1. 从“回答问题”到“回答并定位”

早期 RS-VQA 主要优化 answer accuracy：分类式答案、文本匹配或 LLM judge。GeoChat 之后，模型开始可以把回答和位置一起输出，例如 grounded description、referring expression、region caption。问题是多数评测仍把 VQA、grounding、caption 分开算；模型只要答案对，就可能掩盖证据区域错误。

RS-06 应将样本定义为：

```text
image / image tiles / metadata
question
answer
evidence_type: bbox | rotated_bbox | mask | point_set | region_set
evidence_annotation
confidence_target or calibration split
negative_evidence if applicable
GSD / sensor / date / region metadata
```

### 2. 从“开放答案难评估”到“结构化输出”

GEOBench-VLM 使用 MCQ 降低开放答案评测偏差，这是合理的 benchmark 工程选择。但 evidence-grounded RS-VQA 不能只停在 MCQ，因为真实系统需要指出“我依据哪里回答”。OmniEarth 已经把 open-ended 输出扩展到文本、bbox 和 mask，这是 RS-06 可以直接承接的方向。

建议输出格式：

```json
{
  "answer": "3",
  "evidence": [
    {"type": "bbox", "xyxy": [102, 85, 140, 123], "class": "airplane", "confidence": 0.74},
    {"type": "bbox", "xyxy": [188, 96, 231, 131], "class": "airplane", "confidence": 0.71},
    {"type": "bbox", "xyxy": [255, 90, 294, 128], "class": "airplane", "confidence": 0.68}
  ],
  "answer_confidence": 0.70,
  "abstain": false
}
```

### 3. 从“幻觉诊断”到“证据一致性指标”

RSHBench/RADAR 把 RS-VQA 幻觉归因到大场景 grounding failure 和小目标细粒度误读。RS-06 应把它转成指标：

- Answer accuracy：答案是否正确。
- Evidence IoU / mIoU：证据框或 mask 是否覆盖答案相关目标。
- Answer-evidence consistency：答案数量/类别/属性是否可由证据区域推出。
- Negative evidence handling：问题问不存在目标时，是否拒答或给出低置信度，而不是乱框。
- Calibration：`answer_confidence` 与实际 correctness / evidence correctness 是否一致。
- Scale-stratified score：按 GSD、目标像素面积、tile 大小分层报告。

## Benchmark 设计方案

### 任务类型

| 任务 | 示例问题 | 证据要求 | 失败模式 |
|---|---|---|---|
| Presence | 图中是否有飞机？ | 至少一个飞机 bbox/mask；无飞机时 evidence 为空且低置信度 | 根据机场场景先验猜有飞机 |
| Counting | 有多少个网球场？ | 每个实例一个 bbox/mask，数量与 answer 一致 | 答对数量但框错；漏小目标 |
| Attribute | 哪些建筑受损？ | 损毁建筑 mask + 属性标签 | 把阴影/屋顶纹理当损毁 |
| Spatial relation | 游泳池在住宅区的哪一侧？ | 游泳池与住宅区两个区域 | 只输出一个目标，关系无法验证 |
| Fine-grained class | 这是跑道还是道路？ | 目标区域 + 类别置信度 | 语义近邻混淆 |
| Change VQA | 哪些区域从农田变为建筑？ | 双时相变化 mask | 季节/配准误差误判 |
| Scale-aware QA | 该尺度下能否可靠计数车辆？ | 车辆证据或 abstain | GSD 太粗时仍自信回答 |

### 数据来源组合

1. VRSBench：caption、object references、QA 三者齐全，适合构造 answer-evidence 联合样本。
2. GEOBench-VLM：可抽取定位、计数、分割、temporal 任务作为类别框架。
3. OmniEarth：开放答案、bbox、mask 输出范式可作为目标格式。
4. GeoChat instruction 数据：适合训练/初始评测 grounded dialogue。
5. DIOR-RSVG、DOTA、iSAID、xView、Vaihingen/Potsdam、LoveDA、xBD：可补足检测、旋转框、分割和灾害类证据。
6. RSHBench/RSHallu hard negatives：用于不存在目标、语言先验和小目标幻觉诊断。

### 标注策略

- 正样本：由检测框/分割 mask/人工 reference expression 生成 QA，再人工核查 answer 和 evidence。
- 负样本：同场景但目标不存在、相似目标干扰、尺度不足以识别、被云/阴影遮挡。
- 多证据样本：计数、关系、变化任务需要多个 evidence region。
- 证据粒度：先支持 HBB + mask；旋转目标增加 OBB；道路/河流/地块支持 polyline/polygon。
- 元数据：每张图记录 GSD、sensor、location split、date/season、tile origin。

## 可复现实验计划

### Baseline 模型

| 类别 | 模型 | 用法 |
|---|---|---|
| RS-specific VLM | GeoChat、VHM、SkySenseGPT、EarthDial、RSUniVLM | 评估遥感专用模型是否比通用 VLM 更会定位证据 |
| 通用 VLM | Qwen2.5-VL/Qwen3-VL、LLaVA-OneVision、InternVL、GPT-4o/GPT-5 系列如可用 | 测试通用模型在 RS evidence 上的迁移能力 |
| Grounding baseline | GroundingDINO + SAM/SAM2、SATGround、GeoChat grounding head | 将“回答”和“定位”拆开组合 |
| Training-free mitigation | RADAR | 测试 attention-guided progressive localization 是否提升 evidence correctness |
| Scale-aware | ScaleEarth 或 GSD-conditioned LoRA 复现 | 测试 GSD 条件化是否减少尺度相关幻觉 |

### 三阶段实验

1. Zero-shot evaluation  
   直接要求模型输出 JSON：answer、evidence、confidence。重点看格式可控性、拒答能力和证据 IoU。

2. Evidence-aware instruction tuning  
   用 VRSBench/GeoChat/OmniEarth 风格数据训练 LoRA，损失包含文本答案、bbox token/mask decoder、confidence calibration。

3. Training-free localization refinement  
   对模型回答后的 evidence 用 RADAR、GroundingDINO、SAM2 或 attention rollout 做二次定位，比较是否减少“答案对证据错”。

### 指标

```text
AnsAcc = answer correctness
E-IoU@0.5 / E-mIoU = evidence localization quality
AEC = answer-evidence consistency
JointScore = AnsAcc * EvidenceCorrect
Calib-ECE = confidence calibration for joint correctness
Abstain-F1 = false-premise or unresolvable question handling
ScaleSlice = metrics grouped by GSD and object pixel area
GeoSlice = metrics grouped by region/city/climate split
```

建议主指标使用 `JointScore`，否则模型会通过语言猜测拿高分。

## 一个可投稿的小方法方案

题目草案：**EviRS-VQA: Evidence-Calibrated Visual Question Answering for Remote Sensing**

### 假设

如果训练和评测同时要求模型输出答案、证据区域和置信度，并用 GSD/目标尺度分层约束，RS-VQA 的幻觉率会显著下降，尤其在计数、小目标和 false-premise 问题上。

### 方法

1. Evidence schema：统一 HBB/OBB/mask/empty evidence 的 JSON 输出格式。
2. Evidence-aware data construction：从 VRSBench、GeoChat、OmniEarth、DOTA/iSAID/xBD 构造 QA-evidence 对，加入 hard negatives。
3. Evidence consistency loss：答案 token loss + bbox/mask loss + answer-evidence consistency regularizer。
4. Confidence head：预测 joint correctness 的置信度，而不是只预测 answer confidence。
5. Scale conditioner：引入 GSD scalar 或目标像素面积 bucket，参考 ScaleEarth 的连续条件化思路，但保持轻量。
6. Optional refinement：用 RADAR 或 SAM/GroundingDINO 做 test-time evidence refinement。

### 最小实验

- 数据：VRSBench 子集 + DOTA/iSAID 计数/存在问题 + xBD 损毁问题 + hard negatives。
- 模型：GeoChat、Qwen2.5-VL、VHM、GroundingDINO+SAM、RADAR-style refinement。
- 训练：只训练 LoRA + confidence head。
- 指标：AnsAcc、E-IoU、JointScore、Calib-ECE、Abstain-F1。
- 消融：无 evidence loss、无 hard negatives、无 GSD、无 refinement、HBB vs mask。

## 未来研究方向

1. **答案对但证据错的专门排行榜**：把 `AnsAcc=1, EvidenceCorrect=0` 作为核心错误类型，而不是被平均分掩盖。
2. **GSD-aware abstention**：当 GSD 不足以识别车辆/屋顶损毁时，模型应输出“不确定/无法可靠判断”。
3. **多证据关系推理**：空间关系和变化问题需要多个区域共同支撑，不能只给一个 attention hot spot。
4. **证据可编辑 benchmark**：允许人类修改 evidence，观察模型能否基于新证据修正答案。
5. **从 bbox 到 mask 的证据升级**：先用 HBB 建立可复现 benchmark，再用 SAM/SAM2 生成 mask 并人工抽检。
6. **地理偏置诊断**：同一问题在不同国家/气候带/城市形态下的证据错误是否系统性不同。
7. **closed-source VLM 可审计评测**：无法访问 attention 时，要求显式输出 evidence，并用外部 verifier 检查。

## 建议产物结构

如果继续实现该方向，建议在项目中建立：

```text
research/rs06_evidence_grounded_rsvqa.md
data_cards/evirs_vqa_dataset_card.md
protocols/evirs_vqa_annotation_protocol.md
experiments/evirs_vqa_baseline_matrix.md
```

## 参考链接

- GeoChat CVPR 2024: https://openaccess.thecvf.com/content/CVPR2024/html/Kuckreja_GeoChat_Grounded_Large_Vision-Language_Model_for_Remote_Sensing_CVPR_2024_paper.html
- GeoChat GitHub: https://github.com/mbzuai-oryx/GeoChat
- VHM arXiv: https://arxiv.org/abs/2403.20213
- VHM GitHub: https://github.com/opendatalab/VHM
- VRSBench NeurIPS 2024: https://proceedings.neurips.cc/paper_files/paper/2024/hash/05b7f821234f66b78f99e7803fffa78a-Abstract-Datasets_and_Benchmarks_Track.html
- VRSBench GitHub: https://github.com/lx709/VRSBench
- GEOBench-VLM ICCV 2025: https://openaccess.thecvf.com/content/ICCV2025/papers/Danish_GEOBench-VLM_Benchmarking_Vision-Language_Models_for_Geospatial_Tasks_ICCV_2025_paper.pdf
- GEOBench-VLM GitHub: https://github.com/The-AI-Alliance/GEO-Bench-VLM
- OmniEarth arXiv 2026: https://arxiv.org/abs/2603.09471
- RSHBench/RADAR arXiv 2026: https://arxiv.org/abs/2603.02754
- RADAR GitHub planned: https://github.com/MiliLab/RADAR
- ScaleEarth arXiv 2026: https://arxiv.org/abs/2605.07562
- SATGround arXiv: https://arxiv.org/abs/2512.08881
- RSHR-Bench Hugging Face: https://huggingface.co/datasets/RL-MIND/RSHR-Bench