# RS-10 Reference-Free Caption Evaluation for Remote Sensing


# RS-10 Reference-Free Caption Evaluation for Remote Sensing

## 1. 核心判断

遥感 caption 评测的主要矛盾已经从“生成句子是否像参考句”转向“句子是否忠实、可定位、可复核地描述影像”。传统 BLEU、METEOR、ROUGE、CIDEr、SPICE 依赖人工参考 caption 的 n-gram 或场景图相似度，适合比较旧式 encoder-decoder caption 模型，但很难评价 2024-2026 的遥感 VLM/MLLM 生成的长描述、区域描述、变化描述和开放式解释。

更具体地说，遥感 caption 的参考无关评测需要回答三个问题：

1. **可重建语义**：如果只看 caption，是否能恢复出影像中关键地物、属性、数量、空间布局和场景类型？
2. **证据区域**：caption 中每个对象、属性、变化或关系是否能在图像中定位到 bbox/mask/region？
3. **地物关系**：caption 是否正确描述道路、建筑、水体、农田、港口、机场等对象之间的空间关系，而不是只罗列类别词？

RemoteDescriber/ReconScore 的价值在于，它把遥感 caption 评价从“参考文本匹配”推向“参考无关、可重建、可解释”的方向。通用 caption metric 如 FLEUR、InfoMetIC、Pearl、CLIPScore/RefCLIPScore 可以迁移，但需要遥感专门改造：小目标、俯视视角、尺度/GSD、密集实例、地理关系、土地覆盖层级标签和多时相变化。

## 2. 为什么 BLEU/CIDEr 不足

| 问题 | 在自然图像中的表现 | 在遥感 caption 中的放大效应 |
|---|---|---|
| 参考 caption 不唯一 | 同一图可有多种合理描述 | 遥感图可从 land cover、object、human activity、risk、变化等多粒度描述，单参考更不充分 |
| n-gram 匹配偏向常见表达 | 句式相近得分高 | “dense residential area” 与 “clustered buildings along roads” 语义相近但词面不同 |
| 不能惩罚证据错误 | 幻觉对象可能仍有高文本相似 | 模型说“airport runway”但图中是 highway/industrial roof，传统指标可能看不出 |
| 数量和空间关系弱 | few/many/left/right 常被忽略 | 遥感任务常关心道路连通、建筑密度、农田边界、水体邻接等关系 |
| 细粒度层级混乱 | dog/animal 层级尚可处理 | land cover 与 object 混用严重，如 impervious surface/road/runway/building |
| 长 caption 评价不稳 | 长描述更易包含额外信息 | VLM 可能加入地理常识或业务解释，传统指标无法分辨有证据推断和无证据幻觉 |

结论：BLEU/CIDEr 仍可作为旧数据集上的可比基线，但不适合作为遥感 caption/VLM 的主指标。更合理的是把它们降级为 “legacy text-overlap metrics”，主评测转向 image-grounded、region-grounded、relation-aware 和 reference-free。

## 3. 代表论文、数据和工具

| 名称 | 年份/来源 | 链接 | 代码/数据 | 与 RS-10 的关系 |
|---|---:|---|---|---|
| RemoteDescriber / ReconScore | 2026 arXiv | [arXiv:2604.22855](https://arxiv.org/abs/2604.22855) | 需进一步确认官方 GitHub | 直接面向遥感图像描述的参考无关评测；核心思想是超越参考文本偏置，用可重建/可解释质量评价 caption |
| VRSBench | 2024 NeurIPS Datasets & Benchmarks | [paper](https://proceedings.neurips.cc/paper_files/paper/2024/file/05b7f821234f66b78f99e7803fffa78a-Paper-Datasets_and_Benchmarks_Track.pdf), [arXiv](https://arxiv.org/abs/2406.12384) | [project](https://vrsbench.github.io), [GitHub](https://github.com/lx709/VRSBench) | 包含 image captioning、object reference、VQA，可用于训练/评估 caption 的对象证据和描述质量 |
| GEOBench-VLM | 2025 ICCV | [CVF PDF](https://openaccess.thecvf.com/content/ICCV2025/papers/Danish_GEOBench-VLM_Benchmarking_Vision-Language_Models_for_Geospatial_Tasks_ICCV_2025_paper.pdf), [arXiv](https://arxiv.org/abs/2411.19325) | [GitHub](https://github.com/The-AI-Alliance/GEO-Bench-VLM) | 提供 geospatial VLM 多任务评测框架，可迁移其定位、计数、细粒度分类任务来拆解 caption |
| OmniEarth | 2026 arXiv | [arXiv:2603.09471](https://arxiv.org/abs/2603.09471) | 数据/项目需按论文页确认 | 2026 综合遥感 MLLM benchmark，含 caption/box/mask/VQA 线索，适合做参考无关 metric 的多任务验证 |
| ChatEarthNet | 2024 arXiv / ESSD preprint | [arXiv:2402.11325](https://arxiv.org/abs/2402.11325) | [GitHub](https://github.com/zhu-xlab/ChatEarthNet) | 全球 Sentinel-2 image-text 数据，可测试长描述、多地理区域和 ChatGPT/GPT-4V 生成 caption 的偏差 |
| RS-CapRet | 2024 arXiv | [arXiv:2402.06475](https://arxiv.org/abs/2402.06475) | 代码需进一步确认 | caption + retrieval 统一模型，可作为生成 caption 和检索一致性 baseline |
| RS5M / GeoRSCLIP | 2024 TGRS 方向 | [arXiv:2306.11300](https://arxiv.org/abs/2306.11300) | [GitHub](https://github.com/om-ai-lab/RS5M), [HF GeoRSCLIP](https://huggingface.co/Zilun/GeoRSCLIP) | 大规模遥感图文数据和 RS-CLIP，可作为 reference-free image-text alignment score 的 backbone |
| RSCC | 2025 NeurIPS Datasets & Benchmarks | [arXiv:2509.01907](https://arxiv.org/abs/2509.01907), [NeurIPS PDF](https://papers.neurips.cc/paper_files/paper/2025/file/62867024377cac4233195949b9db0ebd-Paper-Datasets_and_Benchmarks_Track.pdf) | [GitHub](https://github.com/Bili-Sakura/RSCC), [HF model](https://huggingface.co/BiliSakura/RSCCM) | 变化 caption 数据，适合把参考无关 metric 扩展到双时相灾害描述 |
| Diffusion-RSCC | 2024 arXiv | [arXiv:2405.12875](https://arxiv.org/abs/2405.12875) | [GitHub](https://github.com/Fay-Y/Diffusion-RSCC) | 变化 caption 模型和 LEVIR-CC 实验，可作为 change caption baseline |
| FLEUR | 2024 ACL | [arXiv:2406.06004](https://arxiv.org/abs/2406.06004) | [GitHub](https://github.com/Yebin46/FLEUR) | 通用 reference-free caption metric，利用 MLLM 直接看图评 caption 并给解释；可迁移为 RS-FLEUR |
| InfoMetIC | 2023 ACL | [arXiv:2305.06002](https://arxiv.org/abs/2305.06002) | [GitHub](https://github.com/HAWLYQ/InfoMetIC) | 提供 token-level 错词和遗漏区域反馈，特别适合改造成遥感对象/区域级错误诊断 |
| Pearl | 2025 arXiv / 2026 AAAI | [arXiv:2512.21582](https://arxiv.org/abs/2512.21582), [project](https://pearl.kinsta.page/) | 项目页 | LLM-free reference-flexible metric，适合避免 MLLM judge 偏向同源 VLM 输出 |
| CLIPScore / RefCLIPScore | 经典 reference-free metric | [GitHub](https://github.com/jmhessel/clipscore) | GitHub | 可作为 RS-CLIPScore baseline，但普通 CLIP 对遥感小目标和土地覆盖语义弱，建议替换为 RemoteCLIP/GeoRSCLIP |

## 4. 方法脉络

### 4.1 传统文本相似指标

BLEU、METEOR、ROUGE、CIDEr、SPICE 只需要 candidate caption 与 reference captions。优点是便宜、可复现、历史结果多。缺点是不能直接看图，无法判断“句子说的东西是否真的在图中”。

在 RSICD、UCM-Captions、Sydney-Captions 等老数据集上，继续报告这些指标是为了和旧论文对齐；在 ChatEarthNet、VRSBench、OmniEarth 这类 VLM 数据上，它们只能作为附属指标。

### 4.2 Image-text alignment 指标

CLIPScore 用图像和 caption 的 embedding 相似度做 reference-free 评价。迁移到遥感时应使用 RemoteCLIP、GeoRSCLIP 或其他 RS-VLM backbone，而不是自然图像 CLIP。

局限：embedding 相似度容易奖励场景级词汇，例如 “urban area”“farmland”，但对数量、空间关系、边界、细粒度对象和幻觉不敏感。

### 4.3 MLLM-as-judge 指标

FLEUR 代表用 MLLM 直接看图和 caption，按给定准则打分并解释。遥感迁移可以定义专门 rubric：对象准确性、属性准确性、数量、空间关系、覆盖度、无幻觉、语言清晰度、地理尺度一致性。

风险：如果 judge MLLM 与 caption generator 同源，可能偏向其表达风格；如果 judge 本身对遥感不强，也可能把错误地物当正确。需要人工校准集和多 judge ensemble。

### 4.4 Fine-grained diagnostic 指标

InfoMetIC 的思路更适合遥感：不只输出总分，还指出错误词和遗漏区域。RS 版本可以把 caption 解析成 object/attribute/relation/event tuples，再用 detector、segmenter、grounding model、RS-CLIP 和 VLM 验证。

### 4.5 Reconstructability / ReconScore 路线

RemoteDescriber/ReconScore 暗示了一个很适合遥感的评价目标：好的 caption 应该让模型或人能重建出图像的关键语义结构。遥感不一定需要像素级重建，而是要重建：

- 场景类型：residential, industrial, farmland, port, airport, forest, river 等。
- 地物集合：buildings, roads, water, cropland, aircraft, ships, storage tanks 等。
- 数量/密度：sparse/dense/multiple/large cluster。
- 空间关系：roads crossing farmland, buildings along roads, ships in harbor, runway near terminal。
- 区域证据：每个重要对象或关系在图像中的位置。

## 5. 建议的新指标：GeoReconCap

我建议把 RS-10 细化成一个可投稿的小课题：**GeoReconCap: Reference-Free and Evidence-Grounded Evaluation for Remote Sensing Image Captioning**。

### 5.1 输入输出

输入：

- image：单时相遥感图像，可扩展到双时相。
- caption：待评价描述。
- optional metadata：GSD、传感器、时间、区域。

输出：

- 总分 `GeoReconCapScore`
- 五个子分：semantic coverage、object precision、region evidence、spatial relation、scale/count consistency
- 错误报告：幻觉对象、遗漏关键区域、错误关系、尺度/数量错误、过度推断
- 可视化：caption 中短语对应的 bbox/mask/heatmap

### 5.2 Metric 组成

`GeoReconCapScore = 0.25 S_sem + 0.20 S_obj + 0.20 S_reg + 0.20 S_rel + 0.15 S_scale`

每个分量含义：

- `S_sem`：场景级语义是否覆盖图像主类。使用 GeoRSCLIP/RemoteCLIP + RS scene classifier + VLM judge。
- `S_obj`：caption 中对象短语是否存在。用 open-vocabulary detector/grounder、SAM/segmenter、VRSBench object reference 辅助验证。
- `S_reg`：关键短语是否能定位到证据区域。输出 phrase-region alignment，按 IoU、pointing game、region-text similarity 计分。
- `S_rel`：空间关系是否正确。把 caption 解析成 relation tuples，例如 `building along road`、`water adjacent to vegetation`，用 detected regions 的几何关系验证。
- `S_scale`：数量、密度、大小、GSD 相关描述是否合理。对 countable objects 用 detector/counting，对 land-cover 用面积占比，对 “large/small/dense/sparse” 用尺度归一化阈值。

### 5.3 关键实现步骤

1. caption parsing：用 LLM 或规则抽取 `(object, attribute, relation, count, location)`。
2. visual evidence extraction：用 GroundingDINO/OWL-ViT/RS grounding model + SAM/SegEarth-OV 生成候选区域。
3. RS alignment：用 RemoteCLIP/GeoRSCLIP 计算 image-region-text 相似度。
4. relation checking：基于候选区域几何中心、面积、邻接、覆盖、方向和道路/水体 topology 验证关系。
5. scale checking：引入 GSD 或估计尺度，对数量词和大小词做归一化。
6. judge calibration：构造人工评分集，对五个子分做权重拟合或 isotonic regression。

## 6. 可复现实验设计

### 6.1 数据集

| 数据集 | 用途 | 备注 |
|---|---|---|
| RSICD / UCM-Captions / Sydney-Captions | legacy caption baseline | 老数据集，适合保留 BLEU/CIDEr 对比 |
| VRSBench | caption + object reference + grounding | 最适合作 phrase-region evidence evaluation |
| ChatEarthNet | 全球 Sentinel-2 长描述 | 适合测长 caption、区域偏差和 GPT 生成 caption 噪声 |
| GEOBench-VLM | 多任务 VLM benchmark | 可把 caption 拆成 VQA/counting/grounding 子任务 |
| OmniEarth | 综合 MLLM benchmark | 用于 caption、box、mask、多粒度任务一致性验证 |
| RSCC / LEVIR-CC / SECOND-CC | change caption extension | 用于双时相 caption 的证据和关系评测 |

### 6.2 Baseline metrics

- BLEU-1/2/3/4、METEOR、ROUGE-L、CIDEr、SPICE
- CLIPScore、RefCLIPScore
- RS-CLIPScore：把 CLIP 替换为 RemoteCLIP/GeoRSCLIP
- FLEUR
- InfoMetIC
- Pearl
- RemoteDescriber/ReconScore
- Proposed GeoReconCap

### 6.3 Caption generators

- 传统 RS caption 模型：Transformer/attention/RSICD 上的公开模型。
- RS-CapRet。
- GeoChat、SkySenseGPT、RS-LLaVA、VHM 等 RS-VLM。
- 通用 MLLM：Qwen2.5-VL、GPT-4V/GPT-4o、LLaVA 系列，作为上界或对比。
- 人工 reference captions，作为 sanity check。

### 6.4 人工评价协议

每张图给 3-5 个 candidate captions，人工按五个维度打分：

1. 主体覆盖：是否描述主要地物。
2. 忠实性：是否有幻觉或错误属性。
3. 区域证据：关键描述能否在图中指出。
4. 空间关系：对象关系是否正确。
5. 可用性：对遥感解译/检索/报告是否有帮助。

报告 Kendall/Spearman correlation、pairwise accuracy、system-level ranking consistency、dimension-wise error analysis。

## 7. 最小可行实验

第一阶段可以不训练新模型，做一个 reference-free evaluator：

1. 从 VRSBench 取 1k 图像，保留 caption、object reference、bbox。
2. 生成候选 caption：reference、GeoChat、通用 VLM、随机扰动 caption、对象替换 caption、关系替换 caption。
3. 计算 BLEU/CIDEr/CLIPScore/RS-CLIPScore/FLEUR/GeoReconCap。
4. 人工标注 300-500 个 image-caption pair 的五维分数。
5. 看哪个 metric 与人工最一致，特别关注幻觉对象和空间关系错误。

这个实验足够小，但能直接验证论文假设：**遥感 caption 评价必须显式检查证据区域和地物关系，否则会高估语言流畅但图像不忠实的 VLM 输出。**

## 8. 未来研究方向

1. **Phrase-level evidence benchmark**：为 RS captions 标注 phrase-to-region 对齐，使评价能指出哪句话错。
2. **Change caption reference-free metric**：将 GeoReconCap 扩展到 pre/post 图像，验证变化对象、方向、程度和灾害类型。
3. **GSD-aware caption scoring**：把地面分辨率纳入 “large/small/dense/sparse” 的判断。
4. **Hierarchy-aware semantic scoring**：用遥感 taxonomy 处理 building/impervious surface/urban area 等层级关系。
5. **Judge bias audit**：比较 GPT-4o、Qwen-VL、LLaVA、domain-specific RS-VLM 作为 evaluator 的偏差。
6. **Caption metric for retrieval utility**：评价 caption 是否能作为 text-to-region retrieval 的有效查询。
7. **自动错误合成集**：构造对象替换、关系替换、数量替换、尺度替换、地理常识幻觉等 perturbation benchmark。

## 9. 推荐论文题目

**GeoReconCap: Reference-Free Evaluation of Remote Sensing Image Captions via Reconstructable Semantics, Region Evidence, and Spatial Relations**

可能贡献：

1. 指出 BLEU/CIDEr 在遥感 VLM caption 上系统性高估语言流畅但证据不足的输出。
2. 提出 reference-free、region-grounded、relation-aware 的评价指标。
3. 构建一个小规模人工校准集和自动扰动集。
4. 在 VRSBench、ChatEarthNet、GEOBench-VLM/OmniEarth 子集和 RSCC 上验证。
5. 开源 evaluator、错误分析可视化和 benchmark split。

目标 venue：

- CVPR/ICCV/ECCV workshop: EarthVision, VLM/MLLM evaluation workshop。
- NeurIPS Datasets & Benchmarks。
- IEEE TGRS / ISPRS JPRS，若数据和实验证据足够扎实。

## 10. 读取队列

1. RemoteDescriber / ReconScore: [arXiv:2604.22855](https://arxiv.org/abs/2604.22855)
2. VRSBench: [NeurIPS paper](https://proceedings.neurips.cc/paper_files/paper/2024/file/05b7f821234f66b78f99e7803fffa78a-Paper-Datasets_and_Benchmarks_Track.pdf), [GitHub](https://github.com/lx709/VRSBench)
3. GEOBench-VLM: [CVF](https://openaccess.thecvf.com/content/ICCV2025/papers/Danish_GEOBench-VLM_Benchmarking_Vision-Language_Models_for_Geospatial_Tasks_ICCV_2025_paper.pdf), [GitHub](https://github.com/The-AI-Alliance/GEO-Bench-VLM)
4. OmniEarth: [arXiv:2603.09471](https://arxiv.org/abs/2603.09471)
5. ChatEarthNet: [arXiv:2402.11325](https://arxiv.org/abs/2402.11325), [GitHub](https://github.com/zhu-xlab/ChatEarthNet)
6. FLEUR: [arXiv:2406.06004](https://arxiv.org/abs/2406.06004), [GitHub](https://github.com/Yebin46/FLEUR)
7. InfoMetIC: [arXiv:2305.06002](https://arxiv.org/abs/2305.06002), [GitHub](https://github.com/HAWLYQ/InfoMetIC)
8. Pearl: [arXiv:2512.21582](https://arxiv.org/abs/2512.21582), [project](https://pearl.kinsta.page/)
9. RS5M / GeoRSCLIP: [arXiv:2306.11300](https://arxiv.org/abs/2306.11300), [GitHub](https://github.com/om-ai-lab/RS5M)
10. RSCC: [arXiv:2509.01907](https://arxiv.org/abs/2509.01907), [GitHub](https://github.com/Bili-Sakura/RSCC)

