RS-06 Evidence-Grounded RS-VQA
RS-06 Evidence-Grounded RS-VQA
核心问题
遥感 VQA 里最危险的失败不是“答错”,而是“答案看起来对,但证据区域错”。例如模型回答“有 3 架飞机”,但它看的 attention/box 落在建筑屋顶;或者回答“这是洪水区域”,但证据 mask 覆盖的是云影。自然图像 VQA 中这种问题已经存在,遥感里会更严重,因为遥感图像常有:
- 超大图和 tile 切片,问题相关区域可能只占极少像素。
- 小目标密集,车、飞机、船、球场等容易被背景纹理混淆。
- 俯视视角和 GSD 差异,同一个地物在 0.3m、1m、10m 影像中视觉证据完全不同。
- 语义依赖地理上下文,模型可能用“机场附近应该有飞机”这类先验猜答案。
- 公开数据中 caption/QA/grounding 多由检测框、模板或 VLM 合成,证据链不一定被人工核验。
因此 RS-06 的目标不是再做一个普通 RS-VQA 数据集,而是设计一个强制输出 answer + bbox/mask + confidence 的 evidence-grounded RS-VQA benchmark。它要能诊断三类错误:答案错、答案对但证据错、答案和证据都对但置信度不可信。
代表论文与资源
| 工作 | 年份/来源 | 链接 | 证据/grounding 设计 | 对 RS-06 的启发 |
|---|---|---|---|---|
| GeoChat: Grounded Large Vision-Language Model for Remote Sensing | CVPR 2024 | CVF, GitHub | 支持 image/region caption、VQA、grounded conversations、referring object detection;项目页说明已开源代码、模型、数据和评测脚本。 | 说明 RS-VLM 可以把自然语言回答和目标位置交织输出,但还需要独立评估“回答和框是否一致”。 |
| VHM: Versatile and Honest VLM for Remote Sensing Image Analysis | arXiv 2024 / AAAI 2025 方向 | arXiv, GitHub | 强调 honest QA,用不存在目标/欺骗性问题减轻幻觉。 | RS-06 可借鉴 false-premise QA,但要进一步要求证据框/mask 和拒答置信度。 |
| VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding | NeurIPS 2024 Datasets & Benchmarks | NeurIPS, GitHub | 包含 29,614 图、人工核验 caption、52,472 object references、123,221 QA,覆盖 caption、visual grounding、VQA。 | 可作为 answer-grounding 联合样本来源;但需要把 VQA 与 reference/object evidence 强绑定。 |
| GEOBench-VLM | ICCV 2025 | CVF PDF, GitHub | 覆盖 8 大类、31 个细粒度 geospatial VLM 任务,包括计数、定位、分割、caption、event、temporal 等;采用 MCQ 以降低开放回答评测偏差。 | 提供任务谱系和客观评测思路,但 RS-06 应从 MCQ 扩展到开放答案 + 证据区域。 |
| OmniEarth | arXiv 2026 | arXiv | 28 个细粒度任务,支持 MCQ 与 open-ended VQA;开放形式含文本、bbox、mask;采用 blind test 和 quintuple semantic consistency 降低语言偏差。 | 最接近 RS-06 的 benchmark 形态,可直接借鉴“任务维度 + box/mask 输出 + 语义一致性”。 |
| RSHBench / RADAR: Seeing Clearly without Training | arXiv 2026 | arXiv, GitHub 计划 | RSHBench 诊断 RS-VQA 中 factual/logical hallucination;RADAR 是 training-free 推理方法,用模型内在 attention 做渐进定位和局部推理。 | 证明幻觉主要来自 grounding failure 和小目标误读;RS-06 应把局部化过程显式纳入指标。 |
| ScaleEarth: Continuous Scale Conditioning for RS-VLMs | arXiv 2026 | arXiv | 把 GSD 当连续条件变量,用 CS-HLoRA 动态调制 LoRA 子空间;构造 GeoScale-VQA,问题生成与物理尺度条件绑定。 | RS-06 必须记录 GSD,并将“证据区域是否足以支持答案”按尺度分层评估。 |
| SATGround | arXiv 2025/2026 | arXiv | 面向遥感 visual grounding 的空间感知方法,强化语言与空间定位联合推理。 | 可作为 evidence box 生成/校准 baseline。 |
| RSHallu / RSHalluEval | arXiv 2026 方向 | paper page | 提出遥感 MLLM 幻觉 taxonomy,区分 object-centric 与 image-level inconsistencies,并做双模式检查。 | 可补足 RS-06 的幻觉类别定义,特别是 modality、resolution、scene-level 语义错误。 |
| RSHR-Bench | 2025/2026 方向 | HF dataset | 面向超高分辨率遥感 MLLM,含 VQA/caption 等任务。 | 可用于大图场景的 evidence localization 和 token/tiling 失败诊断。 |
方法脉络
1. 从“回答问题”到“回答并定位”
早期 RS-VQA 主要优化 answer accuracy:分类式答案、文本匹配或 LLM judge。GeoChat 之后,模型开始可以把回答和位置一起输出,例如 grounded description、referring expression、region caption。问题是多数评测仍把 VQA、grounding、caption 分开算;模型只要答案对,就可能掩盖证据区域错误。
RS-06 应将样本定义为:
image / image tiles / metadata
question
answer
evidence_type: bbox | rotated_bbox | mask | point_set | region_set
evidence_annotation
confidence_target or calibration split
negative_evidence if applicable
GSD / sensor / date / region metadata2. 从“开放答案难评估”到“结构化输出”
GEOBench-VLM 使用 MCQ 降低开放答案评测偏差,这是合理的 benchmark 工程选择。但 evidence-grounded RS-VQA 不能只停在 MCQ,因为真实系统需要指出“我依据哪里回答”。OmniEarth 已经把 open-ended 输出扩展到文本、bbox 和 mask,这是 RS-06 可以直接承接的方向。
建议输出格式:
{
"answer": "3",
"evidence": [
{"type": "bbox", "xyxy": [102, 85, 140, 123], "class": "airplane", "confidence": 0.74},
{"type": "bbox", "xyxy": [188, 96, 231, 131], "class": "airplane", "confidence": 0.71},
{"type": "bbox", "xyxy": [255, 90, 294, 128], "class": "airplane", "confidence": 0.68}
],
"answer_confidence": 0.70,
"abstain": false
}3. 从“幻觉诊断”到“证据一致性指标”
RSHBench/RADAR 把 RS-VQA 幻觉归因到大场景 grounding failure 和小目标细粒度误读。RS-06 应把它转成指标:
- Answer accuracy:答案是否正确。
- Evidence IoU / mIoU:证据框或 mask 是否覆盖答案相关目标。
- Answer-evidence consistency:答案数量/类别/属性是否可由证据区域推出。
- Negative evidence handling:问题问不存在目标时,是否拒答或给出低置信度,而不是乱框。
- Calibration:
answer_confidence与实际 correctness / evidence correctness 是否一致。 - Scale-stratified score:按 GSD、目标像素面积、tile 大小分层报告。
Benchmark 设计方案
任务类型
| 任务 | 示例问题 | 证据要求 | 失败模式 |
|---|---|---|---|
| Presence | 图中是否有飞机? | 至少一个飞机 bbox/mask;无飞机时 evidence 为空且低置信度 | 根据机场场景先验猜有飞机 |
| Counting | 有多少个网球场? | 每个实例一个 bbox/mask,数量与 answer 一致 | 答对数量但框错;漏小目标 |
| Attribute | 哪些建筑受损? | 损毁建筑 mask + 属性标签 | 把阴影/屋顶纹理当损毁 |
| Spatial relation | 游泳池在住宅区的哪一侧? | 游泳池与住宅区两个区域 | 只输出一个目标,关系无法验证 |
| Fine-grained class | 这是跑道还是道路? | 目标区域 + 类别置信度 | 语义近邻混淆 |
| Change VQA | 哪些区域从农田变为建筑? | 双时相变化 mask | 季节/配准误差误判 |
| Scale-aware QA | 该尺度下能否可靠计数车辆? | 车辆证据或 abstain | GSD 太粗时仍自信回答 |
数据来源组合
- VRSBench:caption、object references、QA 三者齐全,适合构造 answer-evidence 联合样本。
- GEOBench-VLM:可抽取定位、计数、分割、temporal 任务作为类别框架。
- OmniEarth:开放答案、bbox、mask 输出范式可作为目标格式。
- GeoChat instruction 数据:适合训练/初始评测 grounded dialogue。
- DIOR-RSVG、DOTA、iSAID、xView、Vaihingen/Potsdam、LoveDA、xBD:可补足检测、旋转框、分割和灾害类证据。
- RSHBench/RSHallu hard negatives:用于不存在目标、语言先验和小目标幻觉诊断。
标注策略
- 正样本:由检测框/分割 mask/人工 reference expression 生成 QA,再人工核查 answer 和 evidence。
- 负样本:同场景但目标不存在、相似目标干扰、尺度不足以识别、被云/阴影遮挡。
- 多证据样本:计数、关系、变化任务需要多个 evidence region。
- 证据粒度:先支持 HBB + mask;旋转目标增加 OBB;道路/河流/地块支持 polyline/polygon。
- 元数据:每张图记录 GSD、sensor、location split、date/season、tile origin。
可复现实验计划
Baseline 模型
| 类别 | 模型 | 用法 |
|---|---|---|
| RS-specific VLM | GeoChat、VHM、SkySenseGPT、EarthDial、RSUniVLM | 评估遥感专用模型是否比通用 VLM 更会定位证据 |
| 通用 VLM | Qwen2.5-VL/Qwen3-VL、LLaVA-OneVision、InternVL、GPT-4o/GPT-5 系列如可用 | 测试通用模型在 RS evidence 上的迁移能力 |
| Grounding baseline | GroundingDINO + SAM/SAM2、SATGround、GeoChat grounding head | 将“回答”和“定位”拆开组合 |
| Training-free mitigation | RADAR | 测试 attention-guided progressive localization 是否提升 evidence correctness |
| Scale-aware | ScaleEarth 或 GSD-conditioned LoRA 复现 | 测试 GSD 条件化是否减少尺度相关幻觉 |
三阶段实验
Zero-shot evaluation
直接要求模型输出 JSON:answer、evidence、confidence。重点看格式可控性、拒答能力和证据 IoU。Evidence-aware instruction tuning
用 VRSBench/GeoChat/OmniEarth 风格数据训练 LoRA,损失包含文本答案、bbox token/mask decoder、confidence calibration。Training-free localization refinement
对模型回答后的 evidence 用 RADAR、GroundingDINO、SAM2 或 attention rollout 做二次定位,比较是否减少“答案对证据错”。
指标
AnsAcc = answer correctness
[email protected] / E-mIoU = evidence localization quality
AEC = answer-evidence consistency
JointScore = AnsAcc * EvidenceCorrect
Calib-ECE = confidence calibration for joint correctness
Abstain-F1 = false-premise or unresolvable question handling
ScaleSlice = metrics grouped by GSD and object pixel area
GeoSlice = metrics grouped by region/city/climate split建议主指标使用 JointScore,否则模型会通过语言猜测拿高分。
一个可投稿的小方法方案
题目草案:EviRS-VQA: Evidence-Calibrated Visual Question Answering for Remote Sensing
假设
如果训练和评测同时要求模型输出答案、证据区域和置信度,并用 GSD/目标尺度分层约束,RS-VQA 的幻觉率会显著下降,尤其在计数、小目标和 false-premise 问题上。
方法
- Evidence schema:统一 HBB/OBB/mask/empty evidence 的 JSON 输出格式。
- Evidence-aware data construction:从 VRSBench、GeoChat、OmniEarth、DOTA/iSAID/xBD 构造 QA-evidence 对,加入 hard negatives。
- Evidence consistency loss:答案 token loss + bbox/mask loss + answer-evidence consistency regularizer。
- Confidence head:预测 joint correctness 的置信度,而不是只预测 answer confidence。
- Scale conditioner:引入 GSD scalar 或目标像素面积 bucket,参考 ScaleEarth 的连续条件化思路,但保持轻量。
- Optional refinement:用 RADAR 或 SAM/GroundingDINO 做 test-time evidence refinement。
最小实验
- 数据:VRSBench 子集 + DOTA/iSAID 计数/存在问题 + xBD 损毁问题 + hard negatives。
- 模型:GeoChat、Qwen2.5-VL、VHM、GroundingDINO+SAM、RADAR-style refinement。
- 训练:只训练 LoRA + confidence head。
- 指标:AnsAcc、E-IoU、JointScore、Calib-ECE、Abstain-F1。
- 消融:无 evidence loss、无 hard negatives、无 GSD、无 refinement、HBB vs mask。
未来研究方向
- 答案对但证据错的专门排行榜:把
AnsAcc=1, EvidenceCorrect=0作为核心错误类型,而不是被平均分掩盖。 - GSD-aware abstention:当 GSD 不足以识别车辆/屋顶损毁时,模型应输出“不确定/无法可靠判断”。
- 多证据关系推理:空间关系和变化问题需要多个区域共同支撑,不能只给一个 attention hot spot。
- 证据可编辑 benchmark:允许人类修改 evidence,观察模型能否基于新证据修正答案。
- 从 bbox 到 mask 的证据升级:先用 HBB 建立可复现 benchmark,再用 SAM/SAM2 生成 mask 并人工抽检。
- 地理偏置诊断:同一问题在不同国家/气候带/城市形态下的证据错误是否系统性不同。
- closed-source VLM 可审计评测:无法访问 attention 时,要求显式输出 evidence,并用外部 verifier 检查。
建议产物结构
如果继续实现该方向,建议在项目中建立:
research/rs06_evidence_grounded_rsvqa.md
data_cards/evirs_vqa_dataset_card.md
protocols/evirs_vqa_annotation_protocol.md
experiments/evirs_vqa_baseline_matrix.md参考链接
- GeoChat CVPR 2024: https://openaccess.thecvf.com/content/CVPR2024/html/Kuckreja_GeoChat_Grounded_Large_Vision-Language_Model_for_Remote_Sensing_CVPR_2024_paper.html
- GeoChat GitHub: https://github.com/mbzuai-oryx/GeoChat
- VHM arXiv: https://arxiv.org/abs/2403.20213
- VHM GitHub: https://github.com/opendatalab/VHM
- VRSBench NeurIPS 2024: https://proceedings.neurips.cc/paper_files/paper/2024/hash/05b7f821234f66b78f99e7803fffa78a-Abstract-Datasets_and_Benchmarks_Track.html
- VRSBench GitHub: https://github.com/lx709/VRSBench
- GEOBench-VLM ICCV 2025: https://openaccess.thecvf.com/content/ICCV2025/papers/Danish_GEOBench-VLM_Benchmarking_Vision-Language_Models_for_Geospatial_Tasks_ICCV_2025_paper.pdf
- GEOBench-VLM GitHub: https://github.com/The-AI-Alliance/GEO-Bench-VLM
- OmniEarth arXiv 2026: https://arxiv.org/abs/2603.09471
- RSHBench/RADAR arXiv 2026: https://arxiv.org/abs/2603.02754
- RADAR GitHub planned: https://github.com/MiliLab/RADAR
- ScaleEarth arXiv 2026: https://arxiv.org/abs/2605.07562
- SATGround arXiv: https://arxiv.org/abs/2512.08881
- RSHR-Bench Hugging Face: https://huggingface.co/datasets/RL-MIND/RSHR-Bench
评论