<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>数据集 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E6%95%B0%E6%8D%AE%E9%9B%86/</link><description>数据集 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Tue, 16 Jun 2026 13:00:02 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E6%95%B0%E6%8D%AE%E9%9B%86/" rel="self" type="application/rss+xml"/><item><title>FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座</title><link>https://spacetop.win/2026/06/20260616_130002_twohour_remote_sensing_radar/</link><pubDate>Tue, 16 Jun 2026 13:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260616_130002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="fusionrs把红外风格监督补进遥感-vlm-的-rgb-ir-text-数据底座" class="headerLink">
    <a href="#fusionrs%e6%8a%8a%e7%ba%a2%e5%a4%96%e9%a3%8e%e6%a0%bc%e7%9b%91%e7%9d%a3%e8%a1%a5%e8%bf%9b%e9%81%a5%e6%84%9f-vlm-%e7%9a%84-rgb-ir-text-%e6%95%b0%e6%8d%ae%e5%ba%95%e5%ba%a7" class="header-mark"></a>FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座</h1><p><strong>结论：这一轮最值得补进雷达的是 <em>FusionRS: A Large-Scale RGB-Infrared Remote Sensing Dataset for Dual-Modal Vision-Language Foundation Models</em>。它不是又一个只做 RGB caption/retrieval 的遥感 VLM 数据集，而是把 60 万组遥感 RGB 图像、翻译得到的 infrared-style 图像和文本描述组织成 RGB-IR-text triplets，并额外生成 49,068 条训练用 IR-aware captions 与 10,000 条测试用 IR-aware captions。论文用 FusionRS 训练 CLIP-style RGB-IR-text 对齐模型和生成式 VLM，显示 IR-aware captions 能显著增强红外图像描述、IR-cue QA 和红外-文本对齐。对遥感 AI 来说，它的价值不在于提供“真实热红外物理测量”，而在于提出一个很清晰的数据工程问题：如果遥感 VLM 要走向非 RGB、多模态、可解释描述，文本监督必须显式描述该模态的视觉证据，而不能只复用 RGB caption。</strong></p>
<p>我按 2026-06-16 13:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是 RGB/infrared vision-language 数据集与模型训练论文，红外在这里是 visible/infrared 或 infrared-style 视觉模态，不是 SAR、InSAR、微波后向散射或雷达相干。同期本地文章已经覆盖 RATS、Gaze Heads、TTABC、Clay-CNN Hybrids、AI4Land、MaskWAM、GeoFM layer probing、CoastlineVLM、Stateful Visual Encoders、LG-SAM、VecLang、TerraBench、OSTB 等方向，因此这里不重复已有条目。</p>]]></description></item><item><title>RS-50 Hierarchical Taxonomy Metrics for Remote Sensing</title><link>https://spacetop.win/2026/06/rs-50-hierarchical-taxonomy-metrics-for-remote-sensing/</link><pubDate>Sun, 07 Jun 2026 09:49:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/rs-50-hierarchical-taxonomy-metrics-for-remote-sensing/</guid><description><![CDATA[<h1 id="rs-50-hierarchical-taxonomy-metrics-for-remote-sensing" class="headerLink">
    <a href="#rs-50-hierarchical-taxonomy-metrics-for-remote-sensing" class="header-mark"></a>RS-50 Hierarchical Taxonomy Metrics for Remote Sensing</h1><h2 id="结论摘要" class="headerLink">
    <a href="#%e7%bb%93%e8%ae%ba%e6%91%98%e8%a6%81" class="header-mark"></a>结论摘要</h2><p>遥感分割和检测的类别体系天然不是平面的：<code>impervious surface / road / runway / building</code>、<code>crop / rice / field</code>、<code>water / river / lake / flood water</code>、<code>tree / forest / shrubland</code> 常常同时包含 land-cover、land-use、object、material、function 和 fine-grained species。标准 <code>mIoU</code>、<code>h-mIoU</code>、<code>mAP</code> 会把“预测到同一父类但粒度不对”和“完全不相关类别”同等惩罚；开放词表模型又会因为同义词、上下位词、地区命名差异产生额外歧义。</p>
<p>最有潜力的小课题不是再提出一个 OVSS 模型，而是提出一个 <strong>taxonomy-aware evaluation protocol</strong>：同时报告叶子类别精度、父类一致性、语义距离、层级混淆矩阵和开放词表别名鲁棒性。这个指标体系可以服务于 SegEarth-OV / RSKT-Seg / Pi-Seg / AerOSeg / HieraRS / GeoFM-VLM 等模型，也能用于审计 OpenEarthMap、Dynamic World、ESA WorldCover、NLCD、CORINE 等不同类别体系之间的映射误差。</p>
<h2 id="问题由来" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e7%94%b1%e6%9d%a5" class="header-mark"></a>问题由来</h2><p>传统遥感数据集通常固定一个闭集标签表。OpenEarthMap 用 8 类高分辨率 land-cover 标签覆盖 44 个国家和 97 个区域，适合全球高分辨率制图，但类别较粗。<a href="https://open-earth-map.org/overview.html" target="_blank" rel="noopener noreferrer">OpenEarthMap project</a></p>]]></description></item><item><title>RS-49 Weak Labels from OSM/Map Products</title><link>https://spacetop.win/2026/06/rs-49-weak-labels-from-osm-map-products/</link><pubDate>Sun, 07 Jun 2026 09:48:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/rs-49-weak-labels-from-osm-map-products/</guid><description><![CDATA[<h1 id="rs-49-weak-labels-from-osmmap-products" class="headerLink">
    <a href="#rs-49-weak-labels-from-osmmap-products" class="header-mark"></a>RS-49 Weak Labels from OSM/Map Products</h1><h2 id="1-问题由来" class="headerLink">
    <a href="#1-%e9%97%ae%e9%a2%98%e7%94%b1%e6%9d%a5" class="header-mark"></a>1. 问题由来</h2><p>遥感标注最贵的部分通常不是图像本身，而是“地理一致、时相一致、类别一致”的像素级或对象级标签。OSM、Microsoft/Google building footprints、ESA WorldCover、Dynamic World、FROM-GLC、GlobeLand30、HydroLAKES/Global Surface Water、各国地籍和道路数据看起来像天然标签源，但它们本质上是异构、异时相、异精度的地图产品。直接把它们当 ground truth 会把地图误差转成模型偏差。</p>
<p>这个方向在 2024-2026 变得更重要，原因有三点：</p>
<ol>
<li>Foundation model 需要海量弱监督。OSM tag、道路/建筑矢量和土地覆盖产品可以提供全球尺度的预训练或伪标签信号。</li>
<li>SAM、GroundingDINO、VLM 可以半自动生成 mask/box/caption，但它们仍需要地图产品做类别约束、空间先验或质量校验。</li>
<li>真实部署更看重跨地区泛化。OSM 在欧美城市覆盖好，在农村、发展中地区、灾后区域常缺失或滞后；这会直接造成空间公平性问题。</li>
</ol>
<p>核心研究问题不是“能不能用 OSM 做弱标签”，而是：如何估计每个弱标签的可靠性、如何处理时相和空间错位、如何在训练时避免模型学习地图产品的系统性偏差。</p>
<h2 id="2-代表论文与项目" class="headerLink">
    <a href="#2-%e4%bb%a3%e8%a1%a8%e8%ae%ba%e6%96%87%e4%b8%8e%e9%a1%b9%e7%9b%ae" class="header-mark"></a>2. 代表论文与项目</h2><table>
  <thead>
      <tr>
          <th>类型</th>
          <th>论文/项目</th>
          <th style="text-align: right">年份/来源</th>
          <th>链接</th>
          <th>与弱标签的关系</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>OSM 自监督</td>
          <td>Rose: Register Assisted General Time Series Embedding for Multimodal and Sensor Agnostic Satellite Data</td>
          <td style="text-align: right">2024, Remote Sensing of Environment</td>
          <td><a href="https://www.sciencedirect.com/science/article/pii/S0034425724005996" target="_blank" rel="noopener noreferrer">ScienceDirect</a>, <a href="https://github.com/antofuller/rose" target="_blank" rel="noopener noreferrer">code</a></td>
          <td>使用 OSM register / 地图语义辅助多模态、多传感器时序表示学习，是“地图作为预训练信号”的代表。</td>
      </tr>
      <tr>
          <td>地图弱标签分割</td>
          <td>SAModified: A Foundation Model for Image Segmentation of Remote Sensing Data</td>
          <td style="text-align: right">2025, arXiv</td>
          <td><a href="https://arxiv.org/abs/2503.08101" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>明确从已有地图产品/基础地理数据构造 prompt 和伪标签，用 SAM 系列能力做遥感分割。</td>
      </tr>
      <tr>
          <td>地图产品纠偏</td>
          <td>MapSR: Mapping with Super-Resolution</td>
          <td style="text-align: right">2024, arXiv</td>
          <td><a href="https://arxiv.org/abs/2406.00891" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>研究用低分辨率/粗糙地图产品作为 supervision，恢复更高分辨率的空间边界，是“地图产品到高分制图”的典型问题。</td>
      </tr>
      <tr>
          <td>大规模土地覆盖</td>
          <td>LandSegmenter: Large-scale land cover mapping by segmentation models</td>
          <td style="text-align: right">2025, arXiv</td>
          <td><a href="https://arxiv.org/abs/2504.03451" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>使用全球土地覆盖产品和大规模影像训练分割模型，体现 map product label noise 与类别体系问题。</td>
      </tr>
      <tr>
          <td>OSM + RS 表示</td>
          <td>Spatial Representation Learning Beyond Pixels</td>
          <td style="text-align: right">2026, arXiv</td>
          <td><a href="https://arxiv.org/abs/2606.02374" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>将 raster data 与 vector semantics 统一，说明 OSM/矢量语义正从下游弱标签变成 foundation model 表示的一部分。</td>
      </tr>
      <tr>
          <td>benchmark / 数据质量</td>
          <td>PANGAEA benchmark</td>
          <td style="text-align: right">2024/2025</td>
          <td><a href="https://pangaea-bench.github.io/" target="_blank" rel="noopener noreferrer">project</a>, <a href="https://github.com/yurujaja/pangaea-bench" target="_blank" rel="noopener noreferrer">GitHub</a>, <a href="https://arxiv.org/abs/2412.04204" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>虽不是专门弱标签论文，但其跨任务/跨区域协议可作为地图弱标签方法的泛化评测框架。</td>
      </tr>
      <tr>
          <td>真实偏移评测</td>
          <td>EarthShift</td>
          <td style="text-align: right">2026, arXiv</td>
          <td><a href="https://earthshift.github.io/" target="_blank" rel="noopener noreferrer">project</a>, <a href="https://arxiv.org/abs/2605.29330" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>提供真实世界分布偏移评测思路，可检测地图弱标签模型是否只适配局部数据质量。</td>
      </tr>
      <tr>
          <td>鲁棒性评测</td>
          <td>REOBench</td>
          <td style="text-align: right">2025, arXiv</td>
          <td><a href="https://arxiv.org/abs/2505.16793" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://github.com/lx709/reobench" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>可用于评估弱标签训练模型在扰动、退化和 OOD 下的可靠性。</td>
      </tr>
      <tr>
          <td>弱标签来源</td>
          <td>Microsoft Global ML Building Footprints</td>
          <td style="text-align: right">持续更新</td>
          <td><a href="https://github.com/microsoft/GlobalMLBuildingFootprints" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>全球建筑 footprint，可作为建筑分割/检测弱标签；存在地区覆盖、时间戳和几何误差问题。</td>
      </tr>
      <tr>
          <td>弱标签来源</td>
          <td>Google Open Buildings</td>
          <td style="text-align: right">持续更新</td>
          <td><a href="https://sites.research.google/open-buildings/" target="_blank" rel="noopener noreferrer">dataset</a></td>
          <td>非洲、南亚、东南亚等区域建筑 footprint，适合研究区域覆盖差异和弱标签置信度。</td>
      </tr>
      <tr>
          <td>弱标签来源</td>
          <td>Dynamic World</td>
          <td style="text-align: right">持续更新</td>
          <td><a href="https://dynamicworld.app/" target="_blank" rel="noopener noreferrer">Google</a>, <a href="https://www.nature.com/articles/s41597-022-01307-4" target="_blank" rel="noopener noreferrer">Nature paper</a></td>
          <td>10m near-real-time land cover 概率产品，适合做时序弱标签和置信度加权。</td>
      </tr>
      <tr>
          <td>弱标签来源</td>
          <td>ESA WorldCover</td>
          <td style="text-align: right">2020/2021 product, 仍常用</td>
          <td><a href="https://esa-worldcover.org/" target="_blank" rel="noopener noreferrer">ESA</a></td>
          <td>10m 全球土地覆盖标签源，适合弱监督 land-cover pretraining，但类别粗、时相固定。</td>
      </tr>
      <tr>
          <td>弱标签来源</td>
          <td>Field boundaries / FTW</td>
          <td style="text-align: right">2025 左右活跃</td>
          <td><a href="https://github.com/fieldsoftheworld/ftw-baselines" target="_blank" rel="noopener noreferrer">GitHub</a>, <a href="https://fieldsoftheworld.github.io/" target="_blank" rel="noopener noreferrer">project</a></td>
          <td>地块边界弱标签和农业制图常用资源，可研究 parcel/field boundary 与作物标签错位。</td>
      </tr>
      <tr>
          <td>质量规范</td>
          <td>OpenStreetMap Import Guidelines</td>
          <td style="text-align: right">官方文档</td>
          <td><a href="https://wiki.openstreetmap.org/wiki/Import/Guidelines" target="_blank" rel="noopener noreferrer">OSM Wiki</a></td>
          <td>不是论文，但说明 OSM 数据导入、许可证、质量审查和社区验证流程，是使用 OSM 标签时必须考虑的约束。</td>
      </tr>
  </tbody>
</table>
<h2 id="3-弱标签噪声类型" class="headerLink">
    <a href="#3-%e5%bc%b1%e6%a0%87%e7%ad%be%e5%99%aa%e5%a3%b0%e7%b1%bb%e5%9e%8b" class="header-mark"></a>3. 弱标签噪声类型</h2><h3 id="31-时效误差" class="headerLink">
    <a href="#31-%e6%97%b6%e6%95%88%e8%af%af%e5%b7%ae" class="header-mark"></a>3.1 时效误差</h3><p>地图产品和遥感影像常不在同一天甚至同一年。建筑新增/拆除、道路施工、洪水季节性水体、农田轮作、城市扩张都会让标签与影像真实状态不一致。</p>]]></description></item><item><title>RS-48 Active Learning with SAM/VLM Human-in-the-Loop</title><link>https://spacetop.win/2026/06/rs-48-active-learning-with-sam-vlm-human-in-the-loop/</link><pubDate>Sun, 07 Jun 2026 09:47:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/rs-48-active-learning-with-sam-vlm-human-in-the-loop/</guid><description><![CDATA[<h1 id="rs-48-active-learning-with-samvlm-human-in-the-loop" class="headerLink">
    <a href="#rs-48-active-learning-with-samvlm-human-in-the-loop" class="header-mark"></a>RS-48 Active Learning with SAM/VLM Human-in-the-Loop</h1><h2 id="1-问题由来" class="headerLink">
    <a href="#1-%e9%97%ae%e9%a2%98%e7%94%b1%e6%9d%a5" class="header-mark"></a>1. 问题由来</h2><p>遥感标注贵，贵在三个地方：大幅面影像要切片和定位，小目标/旋转目标/密集实例边界难修，类别语义还经常依赖地理上下文。传统主动学习只问“哪张图最不确定”，但 foundation model 时代的问题变了：SAM 能给 mask 但不懂类别，GroundingDINO/VLM 能给语义但受 prompt 和语言先验影响，人类标注者的主要成本也从“从零画 mask”变成“检查、修正、合并、改类别”。</p>
<p>因此，这个方向的核心研究问题不是再做一个主动学习打分函数，而是：</p>
<ul>
<li>如何估计一张候选图像的“自动标注可修正性”：SAM/VLM 生成的伪标签是否值得交给人类改？</li>
<li>如何把选样目标从 uncertainty 扩展到地理覆盖、季节覆盖、长尾类别、小目标覆盖和纠错成本？</li>
<li>如何让人类纠错反过来更新 prompt、prototype、类别词表或轻量 adapter，而不是只把修正标签放进训练集？</li>
<li>如何用“单位人工分钟带来的 mIoU/AP 提升”评估方法，而不是只比较标注比例？</li>
</ul>
<h2 id="2-2024-2026-代表论文项目" class="headerLink">
    <a href="#2-2024-2026-%e4%bb%a3%e8%a1%a8%e8%ae%ba%e6%96%87%e9%a1%b9%e7%9b%ae" class="header-mark"></a>2. 2024-2026 代表论文/项目</h2><table>
  <thead>
      <tr>
          <th>论文/项目</th>
          <th style="text-align: right">年份/来源</th>
          <th>链接</th>
          <th>官方代码/数据</th>
          <th>与本方向的关系</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Active Learning Meets Foundation Models: Fast Remote Sensing Data Annotation</td>
          <td style="text-align: right">ICCV 2025</td>
          <td><a href="https://openaccess.thecvf.com/content/ICCV2025/papers/Burges_Active_Learning_Meets_Foundation_Models_Fast_Remote_Sensing_Data_Annotation_ICCV_2025_paper.pdf" target="_blank" rel="noopener noreferrer">CVF PDF</a></td>
          <td><a href="https://github.com/mburges-cvl/ICCV_AL4FM" target="_blank" rel="noopener noreferrer">GitHub: ICCV_AL4FM</a></td>
          <td>最直接锚点：把主动学习和 SAM 半自动遥感目标检测标注结合，强调标注时间和冷启动。</td>
      </tr>
      <tr>
          <td>FMARS: Annotating Remote Sensing Images for Disaster Monitoring with Foundation Models</td>
          <td style="text-align: right">2024 IGARSS / arXiv</td>
          <td><a href="https://arxiv.org/abs/2405.20109" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://huggingface.co/datasets/links-ads/fmars-dataset" target="_blank" rel="noopener noreferrer">HF dataset</a>, <a href="https://paperswithcode.com/paper/fmars-annotating-remote-sensing-images-for" target="_blank" rel="noopener noreferrer">Papers with Code</a></td>
          <td>使用 GroundingDINO + SAM 自动标注灾害相关 VHR 遥感图像，适合作为自动伪标签管线基线。</td>
      </tr>
      <tr>
          <td>RemoteSAM / RemoteSAM-270K</td>
          <td style="text-align: right">2025 ACM MM oral / arXiv</td>
          <td><a href="https://arxiv.org/abs/2505.18022" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/1e12Leon/RemoteSAM" target="_blank" rel="noopener noreferrer">GitHub</a>, <a href="https://huggingface.co/datasets/1e12Leon/RemoteSAM270k" target="_blank" rel="noopener noreferrer">HF dataset</a></td>
          <td>构建 image-text-mask 三元组数据引擎，可作为 SAM/VLM 自动标注和 referring segmentation 基座。</td>
      </tr>
      <tr>
          <td>Segment Anything, From Space?</td>
          <td style="text-align: right">WACV 2024</td>
          <td><a href="https://openaccess.thecvf.com/content/WACV2024/papers/Ren_Segment_Anything_From_Space_WACV_2024_paper.pdf" target="_blank" rel="noopener noreferrer">CVF PDF</a></td>
          <td>论文评测多遥感数据</td>
          <td>系统暴露 SAM 在 overhead imagery 上的失败模式，是设计人类纠错和 prompt refinement 的依据。</td>
      </tr>
      <tr>
          <td>PointSAM</td>
          <td style="text-align: right">2024/2025 arXiv / TGRS 方向</td>
          <td><a href="https://arxiv.org/abs/2409.13401" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td><a href="https://github.com/Lans1ng/PointSAM" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>点监督、负提示校准、伪标签自训练；可用于“少量点击 -&gt; 更好 mask”的 HITL 单元。</td>
      </tr>
      <tr>
          <td>OpenRSD: Towards Open-prompts for Object Detection in Remote Sensing Images</td>
          <td style="text-align: right">ICCV 2025</td>
          <td><a href="https://openaccess.thecvf.com/content/ICCV2025/html/Huang_OpenRSD_Towards_Open-prompts_for_Object_Detection_in_Remote_Sensing_Images_ICCV_2025_paper.html" target="_blank" rel="noopener noreferrer">CVF</a>, <a href="https://arxiv.org/abs/2503.06146" target="_blank" rel="noopener noreferrer">arXiv</a></td>
          <td>论文页为主</td>
          <td>开放提示遥感检测，适合作为 VLM/文本 prompt 生成候选框的比较对象。</td>
      </tr>
      <tr>
          <td>VRSBench</td>
          <td style="text-align: right">NeurIPS 2024 Datasets &amp; Benchmarks</td>
          <td><a href="https://arxiv.org/abs/2406.12384" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://proceedings.neurips.cc/paper_files/paper/2024/file/05b7f821234f66b78f99e7803fffa78a-Paper-Datasets_and_Benchmarks_Track.pdf" target="_blank" rel="noopener noreferrer">NeurIPS PDF</a></td>
          <td><a href="https://github.com/lx709/VRSBench" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>高质量遥感视觉语言 benchmark，可借鉴人工验证、object reference 和 VQA 标注质量控制。</td>
      </tr>
      <tr>
          <td>Grounded-SAM-2</td>
          <td style="text-align: right">2024-2025 official-style project</td>
          <td><a href="https://github.com/IDEA-Research/Grounded-SAM-2" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>GitHub</td>
          <td>通用 GroundingDINO/SAM2 管线，可迁移为“文本/框 -&gt; mask -&gt; 人类修正”的工程基线。</td>
      </tr>
      <tr>
          <td>SAM 2</td>
          <td style="text-align: right">2024 Meta</td>
          <td><a href="https://ai.meta.com/sam2/" target="_blank" rel="noopener noreferrer">project</a>, <a href="https://github.com/facebookresearch/sam2" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>GitHub/model weights</td>
          <td>对多帧 memory 和交互式修正友好，可用于多时相遥感标注闭环。</td>
      </tr>
      <tr>
          <td>GEOBench-VLM</td>
          <td style="text-align: right">ICCV 2025</td>
          <td><a href="https://openaccess.thecvf.com/content/ICCV2025/papers/Danish_GEOBench-VLM_Benchmarking_Vision-Language_Models_for_Geospatial_Tasks_ICCV_2025_paper.pdf" target="_blank" rel="noopener noreferrer">CVF PDF</a></td>
          <td><a href="https://github.com/The-AI-Alliance/GEO-Bench-VLM" target="_blank" rel="noopener noreferrer">GitHub</a></td>
          <td>可作为 VLM 语义质量和定位能力评估参考，避免把语言答案当作可靠标签。</td>
      </tr>
  </tbody>
</table>
<h2 id="3-方法脉络" class="headerLink">
    <a href="#3-%e6%96%b9%e6%b3%95%e8%84%89%e7%bb%9c" class="header-mark"></a>3. 方法脉络</h2><h3 id="31-传统主动学习" class="headerLink">
    <a href="#31-%e4%bc%a0%e7%bb%9f%e4%b8%bb%e5%8a%a8%e5%ad%a6%e4%b9%a0" class="header-mark"></a>3.1 传统主动学习</h3><p>典型做法是用 uncertainty、entropy、margin、BALD、core-set/diversity 或 query-by-committee 选择未标注样本。遥感中它的问题是：随机切片高度冗余，空间相邻样本相关性强，模型最不确定的样本可能只是云、阴影、配准错或异常纹理，并不一定值得人类标注。</p>]]></description></item><item><title>RS-47 Benchmark Contamination and Deduplication</title><link>https://spacetop.win/2026/06/rs-47-benchmark-contamination-and-deduplication/</link><pubDate>Sun, 07 Jun 2026 09:46:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/rs-47-benchmark-contamination-and-deduplication/</guid><description><![CDATA[<h1 id="rs-47-benchmark-contamination-and-deduplication" class="headerLink">
    <a href="#rs-47-benchmark-contamination-and-deduplication" class="header-mark"></a>RS-47 Benchmark Contamination and Deduplication</h1><p>细问题：专门研究遥感 benchmark contamination：预训练图像、下游测试、同一区域瓦片、增强副本、near-duplicate 如何去重；提出基于地理坐标、时间戳、图像哈希和 embedding 相似度的 dedup pipeline。<br>
范围：光学/多光谱/高分辨率遥感优先；SAR-only 不作为主线。本文与 <a href="./RS-02_geofm_benchmark_leakage_audit.md" rel="">RS-02 GeoFM Benchmark Leakage Audit</a> 和 <a href="./rs25_ood_split_design.md" rel="">RS-25 OOD Split Design</a> 互补：RS-02 偏 GeoFM 评测泄漏审计，RS-25 偏 OOD split；本文件专门落在数据污染检测、近重复去重和可执行工具链。</p>
<h2 id="1-结论先行" class="headerLink">
    <a href="#1-%e7%bb%93%e8%ae%ba%e5%85%88%e8%a1%8c" class="header-mark"></a>1. 结论先行</h2><p>遥感 benchmark contamination 不是一个抽象风险，而是已经被实证发现的硬问题。最直接的证据是 CVPR 2026 oral 论文 <strong>Data Leakage Detection and De-duplication in Large Scale Geospatial Image Datasets</strong>：作者审计 INRIA、SpaceNet 2 和 AICrowd Mapping Challenge 等建筑 footprint 数据集，发现 AICrowd 训练集中约 25 万张、接近 90% 图像是完全或增强重复；验证集中大量样本也出现在训练集中，并给出官方代码 <a href="https://github.com/yeshwanth95/Hash_and_search" target="_blank" rel="noopener noreferrer">Hash_and_search</a>。</p>
<p>对 2024-2026 的 GeoFM/VLM 时代来说，问题更复杂：模型预训练数据往往来自全球 Sentinel-2、Landsat、NAIP、航空影像、Web caption、OSM/WorldCover/building footprint 等衍生产品；下游 benchmark 又可能使用相同区域、相同年份、相同 parent scene、相同标签产品或同源 caption/QA。只做 image-level random split 已经不够，必须做 <strong>provenance-aware dedup</strong>：同时用坐标、时间、传感器、parent scene、精确/感知哈希、embedding 近邻和标签来源审计。</p>]]></description></item><item><title>RS-46 Synthetic Instruction Data Quality for RS-VLM</title><link>https://spacetop.win/2026/06/rs-46-synthetic-instruction-data-quality-for-rs-vlm/</link><pubDate>Sun, 07 Jun 2026 09:45:00 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/rs-46-synthetic-instruction-data-quality-for-rs-vlm/</guid><description><![CDATA[<h1 id="rs-46-synthetic-instruction-data-quality-for-rs-vlm" class="headerLink">
    <a href="#rs-46-synthetic-instruction-data-quality-for-rs-vlm" class="header-mark"></a>RS-46 Synthetic Instruction Data Quality for RS-VLM</h1><p>细问题：遥感 VLM 的合成 instruction/caption 数据质量如何评估、过滤和人工抽检？</p>
<h2 id="摘要" class="headerLink">
    <a href="#%e6%91%98%e8%a6%81" class="header-mark"></a>摘要</h2><p>2024-2026 年遥感 VLM 的核心数据路线可以概括为三类：把已有 caption/VQA/检测/分割数据转成 instruction；用 GPT-4V/通用 VLM/LLM 生成多轮问答、细粒度 caption 或 scene graph；再用人工验证、负样本或 benchmark 协议约束模型幻觉。问题是，遥感图像有小目标、俯视视角、尺度/GSD、地理上下文和类别层级，通用 VLM 生成的数据很容易出现“看不见却说有”“模板句式过强”“类别先验替代图像证据”“地理常识编造”等伪细节。</p>
<p>本方向最值得做的小课题不是再堆一个更大的 instruction 数据集，而是提出一个可复现的 <code>Synthetic RS-VLM Data Quality Protocol</code>：对每条 image-instruction-answer 做来源追踪、视觉证据检查、地理/尺度一致性检查、负样本压力测试、人工分层抽检和训练收益验证。</p>
<h2 id="问题由来" class="headerLink">
    <a href="#%e9%97%ae%e9%a2%98%e7%94%b1%e6%9d%a5" class="header-mark"></a>问题由来</h2><p>遥感 VLM 训练数据的难点来自两个冲突：</p>
<ul>
<li>大规模 instruction 数据必须自动化生成，否则成本不可承受。</li>
<li>遥感场景又极其依赖证据，自动生成的一句 caption 或 QA 只要错一个小目标、方向、类别层级，就会把模型训练成“会说但不看图”。</li>
</ul>
<p>2024 年的 RS-LLaVA、SkyEyeGPT、GeoChat、RS-GPT4V、SkySenseGPT、VHM 都在扩充 instruction 数据；2025-2026 年的 GEOBench-VLM、OmniEarth、RSHBench/RADAR 则开始反过来诊断这些数据和模型是否真的可靠。这个演化说明：数据质量本身已经成为遥感 VLM 的研究问题。</p>
<h2 id="代表论文与资源" class="headerLink">
    <a href="#%e4%bb%a3%e8%a1%a8%e8%ae%ba%e6%96%87%e4%b8%8e%e8%b5%84%e6%ba%90" class="header-mark"></a>代表论文与资源</h2><table>
  <thead>
      <tr>
          <th>工作</th>
          <th style="text-align: right">年份/venue</th>
          <th>数据构造方式</th>
          <th>与数据质量相关的贡献</th>
          <th>主要风险/可借鉴点</th>
          <th>链接</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>RS-LLaVA</td>
          <td style="text-align: right">2024 Remote Sensing</td>
          <td>将 caption 和 VQA 数据混合成 RS-instructions</td>
          <td>早期 LLaVA-style RS caption+VQA 指令数据</td>
          <td>多来自既有数据集，任务覆盖窄，容易继承原数据集偏差</td>
          <td><a href="https://www.mdpi.com/2072-4292/16/9/1477" target="_blank" rel="noopener noreferrer">paper</a>, <a href="https://github.com/BigData-KSU/RS-LLaVA" target="_blank" rel="noopener noreferrer">GitHub</a></td>
      </tr>
      <tr>
          <td>SkyEyeGPT</td>
          <td style="text-align: right">2024 arXiv / 2025 ISPRS JPRS</td>
          <td>构造 SkyEye-968k，单任务和多任务 instruction</td>
          <td>统一多种 RS vision-language 任务</td>
          <td>模板化和任务格式转换质量需要审计</td>
          <td><a href="https://arxiv.org/abs/2401.09712" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://github.com/ZhanYang-nwpu/SkyEyeGPT" target="_blank" rel="noopener noreferrer">GitHub</a></td>
      </tr>
      <tr>
          <td>GeoChat</td>
          <td style="text-align: right">2024 CVPR</td>
          <td>构造 grounded RS instruction，包含 region dialogue / grounding</td>
          <td>强调遥感 grounded conversation，开源代码、模型、数据和评测</td>
          <td>grounding 数据能缓解纯语言幻觉，但 bbox/region 与答案一致性仍需检查</td>
          <td><a href="https://openaccess.thecvf.com/content/CVPR2024/html/Kuckreja_GeoChat_Grounded_Large_Vision-Language_Model_for_Remote_Sensing_CVPR_2024_paper.html" target="_blank" rel="noopener noreferrer">CVF</a>, <a href="https://github.com/mbzuai-oryx/GeoChat" target="_blank" rel="noopener noreferrer">GitHub</a></td>
      </tr>
      <tr>
          <td>VHM</td>
          <td style="text-align: right">2024 arXiv / 2025 AAAI</td>
          <td>VersaD rich captions + HnstD honest/deceptive questions</td>
          <td>引入详细 caption 和不存在目标的欺骗性问题，直接针对“诚实性”</td>
          <td>很适合作为 RS-VLM 数据负样本构造模板</td>
          <td><a href="https://arxiv.org/abs/2403.20213" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://github.com/opendatalab/VHM" target="_blank" rel="noopener noreferrer">GitHub</a></td>
      </tr>
      <tr>
          <td>RS-GPT4V</td>
          <td style="text-align: right">2024 arXiv</td>
          <td>用 GPT-4V 构造统一多模态 instruction-following 数据</td>
          <td>代表 GPT-4V 生成遥感指令数据路线</td>
          <td>需要系统验证 GPT-4V 生成细节是否有图像证据</td>
          <td><a href="https://arxiv.org/abs/2406.12479" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://github.com/GeoX-Lab/RS-GPT4V" target="_blank" rel="noopener noreferrer">GitHub</a></td>
      </tr>
      <tr>
          <td>SkySenseGPT / FIT-RS</td>
          <td style="text-align: right">2024 arXiv</td>
          <td>FIT-RS，约 1.8M instruction，含关系推理、scene graph</td>
          <td>关注复杂语义关系和细粒度理解</td>
          <td>大规模合成/转换数据必须检查关系三元组是否可见</td>
          <td><a href="https://arxiv.org/abs/2406.10100" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://github.com/Luo-Z13/SkySenseGPT" target="_blank" rel="noopener noreferrer">GitHub</a></td>
      </tr>
      <tr>
          <td>VRSBench</td>
          <td style="text-align: right">2024 NeurIPS Datasets &amp; Benchmarks</td>
          <td>高质量 RS vision-language benchmark，caption/object reference/VQA</td>
          <td>将 benchmark 从简单问答扩展到多任务</td>
          <td>可作为抽检协议和人工验证标准参考</td>
          <td><a href="https://arxiv.org/abs/2406.12384" target="_blank" rel="noopener noreferrer">paper</a>, <a href="https://github.com/lx709/VRSBench" target="_blank" rel="noopener noreferrer">GitHub</a></td>
      </tr>
      <tr>
          <td>RSUniVLM</td>
          <td style="text-align: right">2024 arXiv</td>
          <td>图像级、区域级、像素级、多图输入统一</td>
          <td>粒度 MoE 让 instruction 覆盖多粒度任务</td>
          <td>需要检查不同粒度标签互相是否一致</td>
          <td><a href="https://arxiv.org/abs/2412.05679" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://rsunivlm.github.io/" target="_blank" rel="noopener noreferrer">project</a></td>
      </tr>
      <tr>
          <td>GeoGround</td>
          <td style="text-align: right">2024 arXiv</td>
          <td>用 HBB/OBB/mask 支持遥感视觉 grounding</td>
          <td>提供更细的视觉证据约束</td>
          <td>可用于过滤“有答案但无定位证据”的样本</td>
          <td><a href="https://arxiv.org/abs/2411.11904" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://github.com/zytx121/GeoGround" target="_blank" rel="noopener noreferrer">GitHub</a></td>
      </tr>
      <tr>
          <td>GEOBench-VLM</td>
          <td style="text-align: right">2025 ICCV</td>
          <td>多任务 geospatial VLM benchmark，包含自动与人工验证标注</td>
          <td>用 MCQ 降低 open-ended 评估偏差，覆盖计数、定位、时序、关系等</td>
          <td>可借鉴其任务 taxonomy 和人工核验方式</td>
          <td><a href="https://openaccess.thecvf.com/content/ICCV2025/papers/Danish_GEOBench-VLM_Benchmarking_Vision-Language_Models_for_Geospatial_Tasks_ICCV_2025_paper.pdf" target="_blank" rel="noopener noreferrer">CVF PDF</a>, <a href="https://github.com/The-AI-Alliance/GEO-Bench-VLM" target="_blank" rel="noopener noreferrer">GitHub</a></td>
      </tr>
      <tr>
          <td>OmniEarth</td>
          <td style="text-align: right">2026 arXiv</td>
          <td>44,210 manually verified instructions，含 MCQ/open-ended、bbox/mask</td>
          <td>blind test + semantic consistency，用于检验是否依赖视觉证据</td>
          <td>很适合作为“数据质量目标函数”的 benchmark</td>
          <td><a href="https://arxiv.org/abs/2603.09471" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://huggingface.co/datasets/sjeeudd/OmniEarth" target="_blank" rel="noopener noreferrer">HF dataset</a></td>
      </tr>
      <tr>
          <td>RSHBench/RADAR</td>
          <td style="text-align: right">2026 arXiv</td>
          <td>细粒度诊断 RS-VQA 事实/逻辑幻觉</td>
          <td>把幻觉归因到 grounding failure 和小目标误读</td>
          <td>可直接用于合成数据负样本和失败模式分类</td>
          <td><a href="https://arxiv.org/abs/2603.02754" target="_blank" rel="noopener noreferrer">arXiv</a>, <a href="https://github.com/MiliLab/RADAR" target="_blank" rel="noopener noreferrer">GitHub</a></td>
      </tr>
      <tr>
          <td>Cambrian-1</td>
          <td style="text-align: right">2024 NeurIPS</td>
          <td>通用 MLLM 数据策展和分布平衡</td>
          <td>强调高质量视觉指令数据、数据源平衡、视觉中心 benchmark</td>
          <td>可迁移为 RS-VLM 数据混合比例和质量审计原则</td>
          <td><a href="https://papers.nips.cc/paper_files/paper/2024/hash/9ee3a664ccfeabc0da16ac6f1f1cfe59-Abstract-Conference.html" target="_blank" rel="noopener noreferrer">NeurIPS</a>, <a href="https://github.com/cambrian-mllm/cambrian" target="_blank" rel="noopener noreferrer">GitHub</a></td>
      </tr>
      <tr>
          <td>What matters when building VLMs?</td>
          <td style="text-align: right">2024 NeurIPS</td>
          <td>通用 VLM 构建消融</td>
          <td>讨论训练混合、数据重复、合成 caption 对 VLM 的影响</td>
          <td>可作为 RS 合成 caption 是否真正增益的消融模板</td>
          <td><a href="https://proceedings.neurips.cc/paper_files/paper/2024/file/a03037317560b8c5f2fb4b6466d4c439-Paper-Conference.pdf" target="_blank" rel="noopener noreferrer">paper</a></td>
      </tr>
  </tbody>
</table>
<h2 id="数据构造路线对比" class="headerLink">
    <a href="#%e6%95%b0%e6%8d%ae%e6%9e%84%e9%80%a0%e8%b7%af%e7%ba%bf%e5%af%b9%e6%af%94" class="header-mark"></a>数据构造路线对比</h2><table>
  <thead>
      <tr>
          <th>路线</th>
          <th>典型做法</th>
          <th>优点</th>
          <th>质量风险</th>
          <th>建议检查</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>既有数据集转 instruction</td>
          <td>将 caption/VQA/detection/segmentation 标签包装为自然语言 QA</td>
          <td>成本低、可复现</td>
          <td>模板化强，问题答案分布单一，继承旧数据标签噪声</td>
          <td>模板多样性、答案分布、同图多问一致性</td>
      </tr>
      <tr>
          <td>GPT-4V/通用 VLM 生成</td>
          <td>给图像生成 caption、多轮 QA、关系描述</td>
          <td>规模大，语言自然</td>
          <td>小目标、尺度、类别和空间关系幻觉</td>
          <td>视觉证据核验、负样本、人工抽检</td>
      </tr>
      <tr>
          <td>LLM 基于标签生成</td>
          <td>用已有 bbox/mask/class 让 LLM 生成问答</td>
          <td>语义可控，便于批量生成</td>
          <td>答案可能只来自标签而不是图像；语言先验强</td>
          <td>bbox/mask-answer 一致性、图像可见性</td>
      </tr>
      <tr>
          <td>detector/SAM/VLM 联合自动标注</td>
          <td>GroundingDINO/SAM/CLIP/VLM 产生区域和描述</td>
          <td>有区域证据，适合 grounding</td>
          <td>detector 漏检、SAM 类别无关、CLIP 类别混淆</td>
          <td>多模型一致性、mask stability、类别置信度</td>
      </tr>
      <tr>
          <td>人工验证 benchmark</td>
          <td>人工校验 instruction、答案和证据</td>
          <td>可信度高，适合评测</td>
          <td>成本高，覆盖有限</td>
          <td>分层抽样、双人标注、一致性统计</td>
      </tr>
      <tr>
          <td>hard negative / deceptive QA</td>
          <td>问不存在对象、相似类别、空间关系陷阱</td>
          <td>直接抑制幻觉</td>
          <td>构造不自然会让模型学到模板捷径</td>
          <td>负样本自然度、与正样本配对、难度分层</td>
      </tr>
  </tbody>
</table>
<h2 id="质量问题分类" class="headerLink">
    <a href="#%e8%b4%a8%e9%87%8f%e9%97%ae%e9%a2%98%e5%88%86%e7%b1%bb" class="header-mark"></a>质量问题分类</h2><ol>
<li>伪细节幻觉：caption 里出现图像中没有的飞机、船、道路、建筑损毁等。</li>
<li>小目标误读：把 tiny vehicle、storage tank、greenhouse、ship 等当成纹理或相似类别。</li>
<li>空间关系错误：left/right、near、inside、parallel、surrounded by 在俯视图中容易错。</li>
<li>尺度/GSD 错误：把球场、停车场、房屋屋顶等按自然图像尺度理解。</li>
<li>类别层级混乱：land cover 与 object label 混用，例如 impervious surface/road/runway/building。</li>
<li>模板偏置：模型靠问题句式猜答案，而不是看图。</li>
<li>答案分布偏置：yes/no、选项位置、常见类别过度集中。</li>
<li>地理常识编造：根据地区名、典型场景或语言先验推断不可见信息。</li>
<li>多粒度不一致：同一图像的 image-level caption、region QA、mask label 互相矛盾。</li>
<li>训练-测试污染：合成数据来自公开 benchmark 或同一区域瓦片，导致评测虚高。</li>
</ol>
<h2 id="可执行的数据过滤协议" class="headerLink">
    <a href="#%e5%8f%af%e6%89%a7%e8%a1%8c%e7%9a%84%e6%95%b0%e6%8d%ae%e8%bf%87%e6%bb%a4%e5%8d%8f%e8%ae%ae" class="header-mark"></a>可执行的数据过滤协议</h2><h3 id="stage-0-数据血缘记录" class="headerLink">
    <a href="#stage-0-%e6%95%b0%e6%8d%ae%e8%a1%80%e7%bc%98%e8%ae%b0%e5%bd%95" class="header-mark"></a>Stage 0: 数据血缘记录</h3><p>每条样本保存：</p>]]></description></item></channel></rss>