RS-46 Synthetic Instruction Data Quality for RS-VLM
RS-46 Synthetic Instruction Data Quality for RS-VLM
细问题:遥感 VLM 的合成 instruction/caption 数据质量如何评估、过滤和人工抽检?
摘要
2024-2026 年遥感 VLM 的核心数据路线可以概括为三类:把已有 caption/VQA/检测/分割数据转成 instruction;用 GPT-4V/通用 VLM/LLM 生成多轮问答、细粒度 caption 或 scene graph;再用人工验证、负样本或 benchmark 协议约束模型幻觉。问题是,遥感图像有小目标、俯视视角、尺度/GSD、地理上下文和类别层级,通用 VLM 生成的数据很容易出现“看不见却说有”“模板句式过强”“类别先验替代图像证据”“地理常识编造”等伪细节。
本方向最值得做的小课题不是再堆一个更大的 instruction 数据集,而是提出一个可复现的 Synthetic RS-VLM Data Quality Protocol:对每条 image-instruction-answer 做来源追踪、视觉证据检查、地理/尺度一致性检查、负样本压力测试、人工分层抽检和训练收益验证。
问题由来
遥感 VLM 训练数据的难点来自两个冲突:
- 大规模 instruction 数据必须自动化生成,否则成本不可承受。
- 遥感场景又极其依赖证据,自动生成的一句 caption 或 QA 只要错一个小目标、方向、类别层级,就会把模型训练成“会说但不看图”。
2024 年的 RS-LLaVA、SkyEyeGPT、GeoChat、RS-GPT4V、SkySenseGPT、VHM 都在扩充 instruction 数据;2025-2026 年的 GEOBench-VLM、OmniEarth、RSHBench/RADAR 则开始反过来诊断这些数据和模型是否真的可靠。这个演化说明:数据质量本身已经成为遥感 VLM 的研究问题。
代表论文与资源
| 工作 | 年份/venue | 数据构造方式 | 与数据质量相关的贡献 | 主要风险/可借鉴点 | 链接 |
|---|---|---|---|---|---|
| RS-LLaVA | 2024 Remote Sensing | 将 caption 和 VQA 数据混合成 RS-instructions | 早期 LLaVA-style RS caption+VQA 指令数据 | 多来自既有数据集,任务覆盖窄,容易继承原数据集偏差 | paper, GitHub |
| SkyEyeGPT | 2024 arXiv / 2025 ISPRS JPRS | 构造 SkyEye-968k,单任务和多任务 instruction | 统一多种 RS vision-language 任务 | 模板化和任务格式转换质量需要审计 | arXiv, GitHub |
| GeoChat | 2024 CVPR | 构造 grounded RS instruction,包含 region dialogue / grounding | 强调遥感 grounded conversation,开源代码、模型、数据和评测 | grounding 数据能缓解纯语言幻觉,但 bbox/region 与答案一致性仍需检查 | CVF, GitHub |
| VHM | 2024 arXiv / 2025 AAAI | VersaD rich captions + HnstD honest/deceptive questions | 引入详细 caption 和不存在目标的欺骗性问题,直接针对“诚实性” | 很适合作为 RS-VLM 数据负样本构造模板 | arXiv, GitHub |
| RS-GPT4V | 2024 arXiv | 用 GPT-4V 构造统一多模态 instruction-following 数据 | 代表 GPT-4V 生成遥感指令数据路线 | 需要系统验证 GPT-4V 生成细节是否有图像证据 | arXiv, GitHub |
| SkySenseGPT / FIT-RS | 2024 arXiv | FIT-RS,约 1.8M instruction,含关系推理、scene graph | 关注复杂语义关系和细粒度理解 | 大规模合成/转换数据必须检查关系三元组是否可见 | arXiv, GitHub |
| VRSBench | 2024 NeurIPS Datasets & Benchmarks | 高质量 RS vision-language benchmark,caption/object reference/VQA | 将 benchmark 从简单问答扩展到多任务 | 可作为抽检协议和人工验证标准参考 | paper, GitHub |
| RSUniVLM | 2024 arXiv | 图像级、区域级、像素级、多图输入统一 | 粒度 MoE 让 instruction 覆盖多粒度任务 | 需要检查不同粒度标签互相是否一致 | arXiv, project |
| GeoGround | 2024 arXiv | 用 HBB/OBB/mask 支持遥感视觉 grounding | 提供更细的视觉证据约束 | 可用于过滤“有答案但无定位证据”的样本 | arXiv, GitHub |
| GEOBench-VLM | 2025 ICCV | 多任务 geospatial VLM benchmark,包含自动与人工验证标注 | 用 MCQ 降低 open-ended 评估偏差,覆盖计数、定位、时序、关系等 | 可借鉴其任务 taxonomy 和人工核验方式 | CVF PDF, GitHub |
| OmniEarth | 2026 arXiv | 44,210 manually verified instructions,含 MCQ/open-ended、bbox/mask | blind test + semantic consistency,用于检验是否依赖视觉证据 | 很适合作为“数据质量目标函数”的 benchmark | arXiv, HF dataset |
| RSHBench/RADAR | 2026 arXiv | 细粒度诊断 RS-VQA 事实/逻辑幻觉 | 把幻觉归因到 grounding failure 和小目标误读 | 可直接用于合成数据负样本和失败模式分类 | arXiv, GitHub |
| Cambrian-1 | 2024 NeurIPS | 通用 MLLM 数据策展和分布平衡 | 强调高质量视觉指令数据、数据源平衡、视觉中心 benchmark | 可迁移为 RS-VLM 数据混合比例和质量审计原则 | NeurIPS, GitHub |
| What matters when building VLMs? | 2024 NeurIPS | 通用 VLM 构建消融 | 讨论训练混合、数据重复、合成 caption 对 VLM 的影响 | 可作为 RS 合成 caption 是否真正增益的消融模板 | paper |
数据构造路线对比
| 路线 | 典型做法 | 优点 | 质量风险 | 建议检查 |
|---|---|---|---|---|
| 既有数据集转 instruction | 将 caption/VQA/detection/segmentation 标签包装为自然语言 QA | 成本低、可复现 | 模板化强,问题答案分布单一,继承旧数据标签噪声 | 模板多样性、答案分布、同图多问一致性 |
| GPT-4V/通用 VLM 生成 | 给图像生成 caption、多轮 QA、关系描述 | 规模大,语言自然 | 小目标、尺度、类别和空间关系幻觉 | 视觉证据核验、负样本、人工抽检 |
| LLM 基于标签生成 | 用已有 bbox/mask/class 让 LLM 生成问答 | 语义可控,便于批量生成 | 答案可能只来自标签而不是图像;语言先验强 | bbox/mask-answer 一致性、图像可见性 |
| detector/SAM/VLM 联合自动标注 | GroundingDINO/SAM/CLIP/VLM 产生区域和描述 | 有区域证据,适合 grounding | detector 漏检、SAM 类别无关、CLIP 类别混淆 | 多模型一致性、mask stability、类别置信度 |
| 人工验证 benchmark | 人工校验 instruction、答案和证据 | 可信度高,适合评测 | 成本高,覆盖有限 | 分层抽样、双人标注、一致性统计 |
| hard negative / deceptive QA | 问不存在对象、相似类别、空间关系陷阱 | 直接抑制幻觉 | 构造不自然会让模型学到模板捷径 | 负样本自然度、与正样本配对、难度分层 |
质量问题分类
- 伪细节幻觉:caption 里出现图像中没有的飞机、船、道路、建筑损毁等。
- 小目标误读:把 tiny vehicle、storage tank、greenhouse、ship 等当成纹理或相似类别。
- 空间关系错误:left/right、near、inside、parallel、surrounded by 在俯视图中容易错。
- 尺度/GSD 错误:把球场、停车场、房屋屋顶等按自然图像尺度理解。
- 类别层级混乱:land cover 与 object label 混用,例如 impervious surface/road/runway/building。
- 模板偏置:模型靠问题句式猜答案,而不是看图。
- 答案分布偏置:yes/no、选项位置、常见类别过度集中。
- 地理常识编造:根据地区名、典型场景或语言先验推断不可见信息。
- 多粒度不一致:同一图像的 image-level caption、region QA、mask label 互相矛盾。
- 训练-测试污染:合成数据来自公开 benchmark 或同一区域瓦片,导致评测虚高。
可执行的数据过滤协议
Stage 0: 数据血缘记录
每条样本保存:
image_idsource_datasetgeo_bboxtimestampsensorgsdlabel_source: human / GPT-4V / LLM-from-label / detector / SAM / mixedgenerator_modelprompt_template_idevidence_type: none / bbox / obb / mask / point / polygonverification_status: unchecked / auto_pass / human_pass / human_revised / reject
Stage 1: 自动一致性检查
| 检查 | 方法 | 拒绝或降权条件 |
|---|---|---|
| 图像-文本匹配 | RS-CLIP/RemoteCLIP/GeoRSCLIP similarity | 低相似度 caption 或 QA 降权 |
| 答案-证据一致 | answer 中对象必须落在 bbox/mask/class evidence | 答案对象无证据拒绝 |
| 多问一致性 | 同一图像不同 QA 对同一事实不能矛盾 | 互斥答案拒绝 |
| 负样本一致 | 不存在对象问题应有 hard visual negative | 只有模板否定、无相似干扰降权 |
| 类别 taxonomy | 映射到统一层级词表 | 无法映射或层级冲突标记 |
| 地理/尺度 | GSD 与目标尺寸范围约束 | 目标尺寸明显不合理标记 |
| 重复污染 | perceptual hash + embedding + geo/time overlap | near-duplicate 进入隔离池 |
Stage 2: 分层人工抽检
建议每轮训练数据发布前,按以下维度分层抽检,而不是随机抽样:
- 任务:caption、VQA、counting、grounding、relation、change、segmentation。
- 来源:GPT-4V 直接生成、LLM from labels、human、detector/SAM。
- 场景:urban、agriculture、water、forest、industrial、disaster。
- 难度:小目标、密集目标、相似类别、低分辨率、遮挡/云影。
- 地理:不同国家/气候带/城市形态。
- 类别频率:head、medium、tail classes。
推荐抽检字段:
| 字段 | 取值 |
|---|---|
| visual evidence | pass / partial / fail |
| answer correctness | pass / ambiguous / fail |
| spatial relation | pass / not_applicable / fail |
| scale consistency | pass / ambiguous / fail |
| hallucination type | none / nonexistent_object / wrong_attribute / wrong_count / wrong_relation / geo_prior |
| action | keep / revise / reject / need_second_annotator |
Stage 3: 训练收益验证
过滤协议不能只报告“通过率”,还要验证是否改善模型:
- 固定 base model,比较 raw synthetic、filtered synthetic、human-verified subset、mixed data。
- 下游评测覆盖 GEOBench-VLM、OmniEarth、VRSBench、RSHBench/RADAR 和一个 held-out 私有或新区域测试集。
- 同时报告 open-ended accuracy、MCQ accuracy、grounding IoU、mask IoU、hallucination rate、calibration、跨区域性能。
- 记录每类过滤规则移除多少样本,以及对应性能变化,避免过度过滤导致长尾类别消失。
实验矩阵
| 实验 | 目的 | 数据 | 模型 | 指标 |
|---|---|---|---|---|
| E1 raw vs filtered | 验证过滤协议是否有效 | RS-GPT4V/FIT-RS 风格合成子集 | LLaVA-style RS-VLM | VQA acc、caption score、hallucination rate |
| E2 negative QA ablation | 验证 deceptive/hard negative 对诚实性影响 | HnstD 风格负样本 + 普通 QA | GeoChat/VHM-style model | false-positive rate、RSHBench score |
| E3 evidence filtering | 验证 bbox/mask 证据是否减少幻觉 | GeoChat/GeoGround/OmniEarth-style samples | RS-VLM + grounding head | answer-evidence consistency、IoU |
| E4 taxonomy cleaning | 验证类别层级归一化效果 | land cover/object 混合数据 | RS-VLM | hierarchy-aware accuracy、confusion reduction |
| E5 distribution balancing | 验证数据混合比例 | caption/VQA/grounding/relation/change | 统一模型 | 各任务平均分与最差任务分 |
| E6 contamination audit | 验证地理/图像去重影响 | pretrain + benchmark splits | 同一模型两套 split | SOTA drop、near-duplicate rate |
一个可投稿的小方法方案
题目草案:TrustFIT-RS: Evidence-Calibrated Filtering for Synthetic Instruction Data in Remote Sensing Vision-Language Models
核心假设:遥感 VLM 的合成 instruction 数据中,真正损害泛化的不是语言质量低,而是“语言断言缺少可见证据”。如果把 evidence consistency、hard negatives、taxonomy consistency 和 geo/scale sanity check 加入数据过滤,就能在不增加大量人工标注的情况下减少幻觉并提升跨区域评测。
方法模块:
- 数据血缘记录器:对每条样本记录来源、生成模型、prompt 模板、地理时间元数据和证据类型。
- Evidence verifier:用 detector/SAM/grounding/VLM 交叉验证 answer 中对象是否有 bbox/mask/region 支撑。
- Geo-scale verifier:基于 GSD 和类别尺寸先验过滤不合理描述。
- Taxonomy normalizer:把自由文本类别映射到统一遥感层级词表。
- Hard-negative generator:为每个正样本生成相似但不存在的对象/关系问题。
- Human audit sampler:按任务、来源、场景、难度和长尾类别分层抽检。
最小实验:
- 数据:从 RS-GPT4V、SkySenseGPT/FIT-RS、GeoChat 数据格式中抽取 50k-200k 样本,构造 raw、auto-filtered、human-audited 三个版本。
- 模型:选择一个开源 LLaVA-style RS-VLM 或 GeoChat/SkyEyeGPT 兼容框架。
- 评测:GEOBench-VLM、VRSBench、OmniEarth、RSHBench/RADAR;若资源有限,先做 VQA + grounding + honest QA 三项。
- Baseline:随机过滤、CLIP similarity 过滤、只按 generator confidence 过滤、人工小样本过滤。
- 预期贡献:不是新模型,而是 RS-VLM instruction 数据的质量控制协议和可复现过滤器。
风险
- 很多遥感 VLM 数据集并非完全开放,可能需要用公开子集或复刻格式。
- GPT-4V 生成数据的原始 prompt 和中间输出不一定公开,难以完整复现。
- 自动 evidence verifier 自身会犯错,尤其对小目标和密集目标。
- 过滤过强可能移除难样本和长尾样本,提升短期准确率但损害泛化。
- 人工抽检需要遥感知识,普通众包可能无法判断细粒度地物。
下一步阅读队列
- RS-GPT4V 与 SkySenseGPT/FIT-RS:重点看生成 prompt、任务类型和数据清洗。
- VHM:重点看 HnstD 欺骗性问题如何定义。
- GEOBench-VLM 与 OmniEarth:重点看人工验证和语义一致性。
- RSHBench/RADAR:重点看 hallucination taxonomy。
- Cambrian-1 与 What matters when building VLMs?:迁移通用 MLLM 数据策展消融到遥感。
评论