遥感VLM - Tag - 堂堂一跑堂

RS-10 Reference-Free Caption Evaluation for Remote Sensing

Sun, 07 Jun 2026 09:09:00 +0800

RS-10 Reference-Free Caption Evaluation for Remote Sensing

1. 核心判断

遥感 caption 评测的主要矛盾已经从“生成句子是否像参考句”转向“句子是否忠实、可定位、可复核地描述影像”。传统 BLEU、METEOR、ROUGE、CIDEr、SPICE 依赖人工参考 caption 的 n-gram 或场景图相似度，适合比较旧式 encoder-decoder caption 模型，但很难评价 2024-2026 的遥感 VLM/MLLM 生成的长描述、区域描述、变化描述和开放式解释。

更具体地说，遥感 caption 的参考无关评测需要回答三个问题：

可重建语义：如果只看 caption，是否能恢复出影像中关键地物、属性、数量、空间布局和场景类型？
证据区域：caption 中每个对象、属性、变化或关系是否能在图像中定位到 bbox/mask/region？
地物关系：caption 是否正确描述道路、建筑、水体、农田、港口、机场等对象之间的空间关系，而不是只罗列类别词？

RemoteDescriber/ReconScore 的价值在于，它把遥感 caption 评价从“参考文本匹配”推向“参考无关、可重建、可解释”的方向。通用 caption metric 如 FLEUR、InfoMetIC、Pearl、CLIPScore/RefCLIPScore 可以迁移，但需要遥感专门改造：小目标、俯视视角、尺度/GSD、密集实例、地理关系、土地覆盖层级标签和多时相变化。

2. 为什么 BLEU/CIDEr 不足

问题	在自然图像中的表现	在遥感 caption 中的放大效应
参考 caption 不唯一	同一图可有多种合理描述	遥感图可从 land cover、object、human activity、risk、变化等多粒度描述，单参考更不充分
n-gram 匹配偏向常见表达	句式相近得分高	“dense residential area” 与 “clustered buildings along roads” 语义相近但词面不同
不能惩罚证据错误	幻觉对象可能仍有高文本相似	模型说“airport runway”但图中是 highway/industrial roof，传统指标可能看不出
数量和空间关系弱	few/many/left/right 常被忽略	遥感任务常关心道路连通、建筑密度、农田边界、水体邻接等关系
细粒度层级混乱	dog/animal 层级尚可处理	land cover 与 object 混用严重，如 impervious surface/road/runway/building
长 caption 评价不稳	长描述更易包含额外信息	VLM 可能加入地理常识或业务解释，传统指标无法分辨有证据推断和无证据幻觉

结论：BLEU/CIDEr 仍可作为旧数据集上的可比基线，但不适合作为遥感 caption/VLM 的主指标。更合理的是把它们降级为 “legacy text-overlap metrics”，主评测转向 image-grounded、region-grounded、relation-aware 和 reference-free。

RS-09 HBB/OBB/Mask Unified Visual Grounding

Sun, 07 Jun 2026 09:08:00 +0800

RS-09 HBB/OBB/Mask Unified Visual Grounding

任务 Prompt

执行摘要

遥感 visual grounding 的输出正在从单一 HBB 走向 HBB/OBB/mask 统一：HBB 适合粗定位，OBB 适合飞机、船、车辆、跑道等旋转目标，mask 适合建筑、道路、水体、农田等形状复杂目标。
GeoChat 先把遥感 VLM 带到 grounded dialogue，但主要输出框；GeoGround 进一步把 HBB、OBB、mask 统一成同一套 RS visual grounding 框架，并用 Text-Mask 与 hybrid supervision 对齐三种几何信号。
RSUniVLM 侧重多粒度任务统一，把 object localization、VQA、semantic segmentation 等都归入 text-only generation；OmniEarth 则把 bbox 和 mask 输出纳入 RSVLM benchmark，强调模型是否真正依赖视觉证据。
RS2-SAM2 从 referring remote sensing image segmentation 切入：用文本-视觉联合编码生成 dense mask prompt 给 SAM2，代表“语言 grounding -> SAM2 精修 mask”的路线。
一个值得做的小课题是：把 VLM/grounding 模型的 HBB/OBB 粗定位，与 SAM2/RS2-SAM2 的 mask prompt 生成、旋转几何约束和密集小目标去粘连机制串起来，构造统一的 text -> HBB/OBB -> mask pipeline。

问题由来

遥感图像和自然图像的 grounding 差异很硬：

RS-08 Text-to-Region Retrieval in Large EO Mosaics

Sun, 07 Jun 2026 09:07:00 +0800

RS-08 Text-to-Region Retrieval in Large EO Mosaics

研究问题

把遥感图文检索从“给一句文本，检索一张固定裁剪图”推进到“给一句自然语言，在大范围地理空间影像镶嵌图中检索一个或多个候选区域”。例如：

“找到沿河分布、旁边有密集建筑的太阳能板区域。”
“找出疑似新建物流园区：大屋顶、规则停车区、靠近高速出入口。”
“在这个城市范围内找可能的采石场或裸土扩张区域。”

这不是普通 RS image-text retrieval 的简单放大版。普通检索默认候选是预切好的 image chips；text-to-region retrieval 的候选空间是连续地理空间，需要解决尺度、tile 粒度、候选区域生成、坐标索引、跨 tile 上下文、语义歧义和证据定位。

为什么这个问题出现了

2024-2026 的几个趋势把这个问题推到了台前：

遥感 CLIP/RS-VLM 已经能做图文检索和语义定位。RemoteCLIP、GeoRSCLIP/RS5M、PriorCLIP 等把 CLIP 式 image-text alignment 迁移到遥感。
大范围检索需求来自真实应用。用户通常不是要找“最像这张图的图片”，而是在一个城市、省域或全球瓦片中找符合自然语言描述的区域。
GeoFM embedding 变成可索引资产。AlphaEarth Foundations 把年度多源 EO 信息压缩成 Google Earth Engine 中的 64 维 10m embedding，说明“先建全球 embedding，再按任务检索/制图”已经可操作。
VLM2GeoVec 开始把图像、文本、bbox 和地理坐标放入统一向量空间，并引入 semantic geospatial retrieval 评测，说明“文本 + 坐标 + 区域语义”的检索正在从想法变成任务。
LRS-VQA 证明超大遥感图像不能直接整体送入 VLM，需要 coarse-to-fine tile selection 和 text-guided token pruning。这套思想可直接迁移到 text-to-region retrieval。

代表论文与项目

方向	论文/项目	年份/venue	链接	代码/模型/数据	对 text-to-region 的价值
遥感 VLM 基座	RemoteCLIP: A Vision Language Foundation Model for Remote Sensing	2024 TGRS	GitHub repo	RemoteCLIP GitHub	提供 RSITR 常用基座和 RSITMD/RSICD/UCM 检索脚本，可作 text-to-chip baseline。
大规模图文数据	RS5M and GeoRSCLIP	2024 TGRS	arXiv	RS5M GitHub, GeoRSCLIP HF	5M 遥感图文对和 GeoRSCLIP，支持 cross-modal retrieval 与 semantic localization，是检索模型强基线。
噪声与先验	PriorCLIP / PIR-CLIP	2024 arXiv	HF paper page	论文页含 GitHub 入口	关注遥感图文检索中的语义噪声和 open-domain retrieval，可用于处理自然语言查询歧义。
多光谱检索	Multi-Spectral Remote Sensing Image Retrieval Using Geospatial Foundation Models	2024 arXiv	arXiv	IBM GitHub	用 Prithvi 等 GeoFM 做多光谱 image retrieval，提示 text-to-region 不应只依赖 RGB chip。
组合检索	Composed Image Retrieval for Remote Sensing	2024 IGARSS	arXiv	GitHub	将 image query + text modification 用于遥感检索，可扩展为“初始区域 + 文本约束”的交互式区域检索。
位置与区域统一 embedding	VLM2GeoVec	2025 arXiv	arXiv	论文称 acceptance 后开源	单编码器把 image/text/bbox/coordinates 放进统一 embedding，并提出 RSMEB，包含 semantic geospatial retrieval。
超大图 VLM	When Large Vision-Language Model Meets Large Remote Sensing Imagery	2025 ICCV	CVF, arXiv	LRS-VQA GitHub	Dynamic Image Pyramid + text-guided token pruning，可迁移为 coarse-to-fine region retrieval。
全球 embedding	AlphaEarth Foundations / Satellite Embedding V1	2025 Google DeepMind / Earth Engine	DeepMind blog, paper PDF	Earth Engine catalog, GCS guide	提供年度 10m 全球 embedding，可作为大范围候选索引或 reranking 特征。
组合检索评测	Benchmarking Composed Image Retrieval for Applied Earth Observation	2026 arXiv	arXiv	未核到官方 GitHub	将 composed retrieval 推向应用 EO 和变化中心数据集，可借鉴任务构造和指标。
地理先验 CLIP	GeoPriorCLIP	2026 TGRS/ORNL page	ORNL page	未核到官方代码	通过级联地理信息先验增强 RSVLM；适合检索时加入地理、边界和空间关系。

方法脉络

1. Text-to-chip retrieval

输入文本，候选库是固定大小 image chips。RemoteCLIP、GeoRSCLIP、PriorCLIP、PR-CLIP、CMPAGL 等都属于这条线。优点是易复现、指标成熟；缺点是候选 chip 的边界由数据集预先定义，不解决“在大图中找区域”的问题。

RS-07 Remote Sensing VLM Hallucination Diagnostics

Sun, 07 Jun 2026 09:06:00 +0800

RS-07 Remote Sensing VLM Hallucination Diagnostics

研究问题：遥感 VLM/MLLM 为什么会在不存在目标、相似地物、尺度、空间关系和语言先验上产生幻觉；如何构造 hard-negative QA 与自动评测指标。

1. 问题由来

遥感 VLM 的幻觉比自然图像 VLM 更尖锐，原因不是模型“不会说话”，而是视觉证据更难被可靠读取：

俯视视角导致自然图像中常见的物体外观先验失效，例如车辆、飞机、船、储罐都可能变成很小的纹理块。
大幅面遥感影像常被切成 patch，VLM 看到的是局部切片或低分辨率缩略图，容易把上下文补全成语言常识。
许多地物是相似纹理和尺度组合，例如 parking lot、impervious surface、road、runway、roof、container yard，语言类别边界不清。
遥感问题经常要求空间关系、数量、尺度和存在性判断，例如“机场旁是否有大型停机坪”“河道北侧是否出现采矿裸地”。这些问题只答文本不够，必须有证据区域。
2024 年后大量 RS-VLM 数据由 GPT-4V、模板、检测标签、caption 扩展得到；如果没有 hard negative 和事实核验，训练集会鼓励模型给出“看起来合理”的肯定回答。

因此，本方向的核心不只是降低 hallucination rate，而是把幻觉拆成可诊断、可复现、可定位的错误类型。

2. 代表论文与资源

工作	年份/venue	资源链接	与幻觉诊断的关系
VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis	2024 arXiv / 2025 AAAI	arXiv, AAAI PDF, GitHub	引入 VersaD 详细 caption 和 HnstD honest instruction，包含 factual 与 deceptive questions，用“不存在目标”训练模型避免无脑肯定。
DDFAV / RSPOPE: Remote Sensing LVLM Dataset and Evaluation Benchmark	2024 arXiv / 2025 Remote Sensing	arXiv, MDPI, GitHub, HF mirror	面向遥感 LVLM 的 hallucination evaluation，借鉴 POPE 式二元存在性问答，适合做 object-existence hallucination 基线。
Seeing Clearly without Training / RSHBench / RADAR	2026 arXiv	arXiv, GitHub placeholder/承诺	将 RS-VQA 幻觉细分为 factual 与 logical hallucinations；RADAR 用 attention 驱动 progressive localization 和 local reasoning，训练自由。需注意：截至本次检索，官方代码/数据可能仍未完整释放。
OmniEarth: A Benchmark for Evaluating VLMs in Geospatial Tasks	2026 arXiv	arXiv, HF dataset	支持 multiple-choice 和 open-ended VQA；采用 blind test 与 semantic consistency 来降低语言偏置，适合作为综合评测框架。
GEOBench-VLM	2025 ICCV	CVF PDF, arXiv, GitHub	覆盖计数、定位、细粒度分类、分割、时序等 geospatial tasks，可用于把“幻觉”扩展到空间定位、数量和几何错误。
RS-GPT4V	2024 arXiv	arXiv, HF paper page, GitHub	GPT-4V 构造多模态 instruction-following 数据，适合分析合成数据中的伪细节、语言模板和肯定偏置。
SkySenseGPT / FIT-RS	2024 arXiv	arXiv, HF paper page, GitHub	强调 fine-grained relation comprehension 和 scene graph，可用于空间关系幻觉诊断；也要检查复杂关系样本是否由模板和裁剪策略带来偏差。
GeoChat	2024 CVPR	CVF, Project, GitHub	遥感 grounded dialogue 代表；可作为 evidence-grounded answer 的模型基线。
HallusionBench	2024 CVPR	CVF PDF, GitHub	通用 VLM 幻觉诊断，可迁移其“视觉错觉 + 语言幻觉纠缠”的题型设计到遥感相似地物和尺度误判。
M-HalDetect	2024 AAAI	AAAI, GitHub	通用 LVLM hallucination detection/prevention 数据，可借鉴 reward model 或 detector 作为自动评测器。
GROUNDHOG	2024 CVPR	Project, CVPR poster	将 grounding 变成 segmentation entity selection；可迁移到“回答必须绑定 mask/entity”的遥感 VQA。

3. 方法脉络

3.1 从“存在性二元问答”开始

VHM/HnstD 与 DDFAV/RSPOPE 都抓住了一个很小但很关键的问题：当问题问“图中是否有 X”时，如果 X 并不存在，RS-VLM 是否会因为遥感场景常识或训练集肯定偏置回答“有”。这类题容易自动评测，适合建立第一版 hallucination rate：

RS-06 Evidence-Grounded RS-VQA

Sun, 07 Jun 2026 09:05:00 +0800

RS-06 Evidence-Grounded RS-VQA

核心问题

遥感 VQA 里最危险的失败不是“答错”，而是“答案看起来对，但证据区域错”。例如模型回答“有 3 架飞机”，但它看的 attention/box 落在建筑屋顶；或者回答“这是洪水区域”，但证据 mask 覆盖的是云影。自然图像 VQA 中这种问题已经存在，遥感里会更严重，因为遥感图像常有：

超大图和 tile 切片，问题相关区域可能只占极少像素。
小目标密集，车、飞机、船、球场等容易被背景纹理混淆。
俯视视角和 GSD 差异，同一个地物在 0.3m、1m、10m 影像中视觉证据完全不同。
语义依赖地理上下文，模型可能用“机场附近应该有飞机”这类先验猜答案。
公开数据中 caption/QA/grounding 多由检测框、模板或 VLM 合成，证据链不一定被人工核验。

因此 RS-06 的目标不是再做一个普通 RS-VQA 数据集，而是设计一个强制输出 answer + bbox/mask + confidence 的 evidence-grounded RS-VQA benchmark。它要能诊断三类错误：答案错、答案对但证据错、答案和证据都对但置信度不可信。

代表论文与资源

工作	年份/来源	链接	证据/grounding 设计	对 RS-06 的启发
GeoChat: Grounded Large Vision-Language Model for Remote Sensing	CVPR 2024	CVF, GitHub	支持 image/region caption、VQA、grounded conversations、referring object detection；项目页说明已开源代码、模型、数据和评测脚本。	说明 RS-VLM 可以把自然语言回答和目标位置交织输出，但还需要独立评估“回答和框是否一致”。
VHM: Versatile and Honest VLM for Remote Sensing Image Analysis	arXiv 2024 / AAAI 2025 方向	arXiv, GitHub	强调 honest QA，用不存在目标/欺骗性问题减轻幻觉。	RS-06 可借鉴 false-premise QA，但要进一步要求证据框/mask 和拒答置信度。
VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding	NeurIPS 2024 Datasets & Benchmarks	NeurIPS, GitHub	包含 29,614 图、人工核验 caption、52,472 object references、123,221 QA，覆盖 caption、visual grounding、VQA。	可作为 answer-grounding 联合样本来源；但需要把 VQA 与 reference/object evidence 强绑定。
GEOBench-VLM	ICCV 2025	CVF PDF, GitHub	覆盖 8 大类、31 个细粒度 geospatial VLM 任务，包括计数、定位、分割、caption、event、temporal 等；采用 MCQ 以降低开放回答评测偏差。	提供任务谱系和客观评测思路，但 RS-06 应从 MCQ 扩展到开放答案 + 证据区域。
OmniEarth	arXiv 2026	arXiv	28 个细粒度任务，支持 MCQ 与 open-ended VQA；开放形式含文本、bbox、mask；采用 blind test 和 quintuple semantic consistency 降低语言偏差。	最接近 RS-06 的 benchmark 形态，可直接借鉴“任务维度 + box/mask 输出 + 语义一致性”。
RSHBench / RADAR: Seeing Clearly without Training	arXiv 2026	arXiv, GitHub 计划	RSHBench 诊断 RS-VQA 中 factual/logical hallucination；RADAR 是 training-free 推理方法，用模型内在 attention 做渐进定位和局部推理。	证明幻觉主要来自 grounding failure 和小目标误读；RS-06 应把局部化过程显式纳入指标。
ScaleEarth: Continuous Scale Conditioning for RS-VLMs	arXiv 2026	arXiv	把 GSD 当连续条件变量，用 CS-HLoRA 动态调制 LoRA 子空间；构造 GeoScale-VQA，问题生成与物理尺度条件绑定。	RS-06 必须记录 GSD，并将“证据区域是否足以支持答案”按尺度分层评估。
SATGround	arXiv 2025/2026	arXiv	面向遥感 visual grounding 的空间感知方法，强化语言与空间定位联合推理。	可作为 evidence box 生成/校准 baseline。
RSHallu / RSHalluEval	arXiv 2026 方向	paper page	提出遥感 MLLM 幻觉 taxonomy，区分 object-centric 与 image-level inconsistencies，并做双模式检查。	可补足 RS-06 的幻觉类别定义，特别是 modality、resolution、scene-level 语义错误。
RSHR-Bench	2025/2026 方向	HF dataset	面向超高分辨率遥感 MLLM，含 VQA/caption 等任务。	可用于大图场景的 evidence localization 和 token/tiling 失败诊断。

方法脉络

1. 从“回答问题”到“回答并定位”

早期 RS-VQA 主要优化 answer accuracy：分类式答案、文本匹配或 LLM judge。GeoChat 之后，模型开始可以把回答和位置一起输出，例如 grounded description、referring expression、region caption。问题是多数评测仍把 VQA、grounding、caption 分开算；模型只要答案对，就可能掩盖证据区域错误。