RS-43 Illegal Mining Evidence Grounding

Series - 2024-2026 遥感 AI 细分研究方向

RS-43 Illegal Mining Evidence Grounding

非法采矿,尤其是亚马逊和加纳等地区的 artisanal and small-scale gold mining,具有几个典型遥感难点:目标尺度小、形态变化快、常沿河流和道路扩散、裸土/采坑/尾矿池/临时道路/简易机场之间存在强上下文关系,同时又经常受云、阴影、季节水位和成像分辨率影响。传统做法多是二分类或语义分割:给出“这里是矿区”。但执法、新闻调查、生态评估和社区沟通需要的不只是一个 mask,而是可审计证据:模型为什么认为这里是非法采矿,变化发生在何处,相关证据是否来自裸土扩张、河道浑浊、植被损失、道路/机场/机械痕迹,答案有没有定位支撑。

因此这个细方向可以定义为:面向非法采矿/森林破坏的 evidence-grounded remote sensing interpretation。输出不只是 detection / segmentation / change mask,还包括:

  • 证据区域:bbox、mask、polygon 或 georeferenced tile。
  • 证据类型:裸土采坑、尾矿池、浑浊水体、临时道路、营地、机场、森林清除边界等。
  • 时间证据:pre/post 或多时相变化描述。
  • 置信度与不确定性:是否可能是合法矿区、自然裸地、农业开垦、河道季节变化。
  • 可复核产物:地图图层、caption、QA、变化报告和失败案例。
名称年份/来源链接代码/数据对 RS-43 的价值
ELDOR: A Dataset and Benchmark for Illegal Gold Mining in the Amazon Rainforest2026 arXivarXiv论文提到 interactive explorer,官方代码需继续跟踪目前最贴近本题的 benchmark:UAV orthomosaic、像素级 mining/ecological labels、语义分割、recognition、VLM class-presence 任务。
Amazon Mining Watch2026 数据平台/产品platform, Source Cooperative dataGitHub: mining-detectorSentinel-2 泛亚马逊矿区检测产品;GitHub 说明使用 SSL4EO DINO ViT 特征 + 小型 ensemble classifier;适合做真实部署基线和地理范围评测。
SmallMinesDS: A Multimodal Dataset for Mapping Artisanal and Small-Scale Gold Mines2025 IEEE GRSLTUM pageHF datasetGhana 小规模金矿,多时相/多传感器;适合测试跨区域、跨传感器和小目标矿区分割。
EuroMineNet: A Multitemporal Sentinel-2 Benchmark for Spatiotemporal Mining Footprint Analysis2026 ISPRS JPRS / 2025 arXivarXiv, ScienceDirectGitHub虽非“非法”主线,但提供 2015-2024 年度 mining footprint,多时相变化和 footprint tracking protocol 可迁移。
Remote Sensing Capabilities of Detecting Spatio-Temporal Dynamics in Unregulated Gold Mining Hotspots in Ecuador2026 EGUsphere preprintEGUsphere使用公开数据,含 Amazon Mining Watch 引用对“unregulated mining”真实场景评估 Sentinel / Planet / embedding 数据能力,适合做案例与验证区域。
MineCam: Segmentation and Change Detection of Mining Areas2024 Remote SensingMDPI未见官方代码传统 segmentation + change detection baseline,可作为 VLM 证据化方案的对照。
Global High-Resolution Mining Footprints数据产品GEE Community CatalogGEE 数据全球矿区 footprint 先验,可作为弱标签、负样本过滤或合法/历史矿区背景层。
GeoChat: Grounded Large Vision-Language Model for Remote Sensing2024 CVPRCVFGitHub遥感 grounded dialogue 基线,可迁移到“指出证据区域并解释为什么像矿区”。
LHRS-Bot2024 ECCVproject项目页含 GitHubVGI-enhanced 遥感 MLLM,适合探索 OSM/POI/地名/道路先验辅助但需防止文本幻觉。
Change-Agent2024 arXivHF paperGitHub交互式变化解释:change detection、caption、counting、cause analysis;适合迁移到矿区扩张解释。
CDChat2024/2025 IGARSSGitHubGitHub遥感变化描述 MLLM;可作为 change caption baseline。
SECOND-CC / MModalCC2025 arXivHF paperGitHub plannedchange captioning 数据与模型,适合借鉴多模态 change caption 数据构造。
DeltaVLM2025 arXivHF paper需继续核验instruction-guided difference perception,把双时相变化分析做成可交互 VLM。
HiSem2026 arXivarXivGitHub planned层级语义解耦 change caption,可迁移到“森林损失 -> 采坑/道路/水体污染”等分层描述。
Vision-Language Agents for Interactive Forest Change Analysis2026 arXivHF paper需继续核验直接面向 forest change 的交互式 VLM agent;适合迁移到 deforestation + mining 证据问答。
LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery2025 arXivHF paperHF page links project/GitHubreasoning segmentation 能力可迁移到“segment mining scars / tailing ponds / disturbed riverbank”。

Amazon Mining Watch 这类系统已经能做大范围筛查,但现实使用者往往需要回答更细的问题:

  • 这个区域为什么被模型标为 mining scar?
  • 证据是裸土、采坑、尾矿池,还是沿河的浑浊水体?
  • 与上季度相比,扩张发生在什么方向?
  • 是否可能只是河滩、农业裸地、道路施工或合法矿场?
  • 哪些像素/多边形应该优先人工核查?

这些问题天然对应 VLM/GeoFM 的强项,但直接让 VLM“解释”会带来幻觉风险。因此 evidence grounding 应当把解释绑定到可检查的 mask、bbox、时间差异和地图先验。

非法采矿不是一个单一视觉类别,而是一组空间-时间过程:

  • 初期:森林清除、小块裸土、临时道路或河岸扰动。
  • 扩张:裸地增大,采坑、尾矿池、泥水水体、堆料区出现。
  • 运输:道路、河道、简易机场、营地增强。
  • 后期:废弃矿坑、恢复植被、浑浊水体和地形痕迹长期存在。

ELDOR 的价值在于它把 mining-related activities 和 surrounding ecological structures 放到同一套像素级标注中;这比单纯“mine / non-mine”更适合做 evidence taxonomy。

Sentinel-2 适合泛区域、长期监测,但 10m 分辨率可能漏掉小采坑、临时设施和窄道路。UAV/Planet/VHR 能看到细节,但覆盖成本高。一个合理系统应当是 coarse-to-fine:Sentinel-2 / GeoFM embedding 做候选区域,VHR/UAV 或高分辨率切片做证据验证,VLM 输出可审计说明。

路线输入输出优点风险
传统分割/变化检测单时相或双时相 Sentinel/Planet/UAVmining mask / change mask稳定、易量化缺少自然语言解释,难表达证据类型
GeoFM embedding + 轻量分类器Sentinel-2 多时相 + SSL/GeoFM 特征mine probability / candidate tilesAmazon Mining Watch 已证明可部署解释性弱,模型版本变化会影响年份对比
VLM class-presence图像 tile + 问题是否存在 mining evidence适合快速筛查和专家交互容易语言先验幻觉;需要证据区域约束
Grounded VLM / referring segmentation图像 + 文本 promptbbox/mask + answer可以把“为什么”落到区域遥感小目标和类别层级难,开放词表不稳定
Change caption / change VQApre/post 图像自然语言变化描述 + evidence mask适合报告化和审计caption 可能描述不完整或没有证据
GIS/规则后验mask + hydrography/roads/protected areas/legal mining boundariesrisk score / illegal-likelihood贴近治理场景合法性不是纯视觉事实,边界数据可能过时

能否构造一个面向非法采矿/森林破坏的 evidence-grounded VLM,使其在输出“是否存在 mining / deforestation risk”的同时,必须给出对应证据区域、证据类型和变化描述,并在没有足够证据时拒答或标记不确定?

  1. 如果把 mining evidence 拆成一组可定位的细粒度视觉证据,VLM 的 hallucination 会低于只做 image-level QA。
  2. Sentinel-2 / Amazon Mining Watch 候选区域 + UAV/VHR 证据验证的 coarse-to-fine 方案,比单一分辨率模型更适合真实监测。
  3. 将 change mask、semantic evidence mask 和 caption 绑定训练/评估,可以让变化描述更可审计。

建议从 8 类证据开始,避免类别过细导致标注成本爆炸:

  1. fresh bare soil / exposed mining scar
  2. mining pit / excavation
  3. tailings pond / sediment pond
  4. turbid water / river plume near mining
  5. access road / trail
  6. camp / equipment / built structure
  7. clandestine airstrip or landing strip
  8. forest clearing boundary / recent vegetation loss

同时保留 confounder 类别:

  • natural sandbar / exposed riverbank
  • agriculture / pasture clearing
  • legal industrial mine
  • road construction
  • seasonal water-level change
  • cloud/shadow/artifact
Input:
  T0/T1 Sentinel-2 or Planet/VHR tile
  optional: Amazon Mining Watch candidate mask, protected-area/legal-mining boundary, river/road vector
  prompt: "Find evidence of illegal mining expansion and explain it."

Stage A: Candidate discovery
  GeoFM/SSL feature encoder + light classifier
  optional baseline: Amazon Mining Watch style SSL4EO DINO + MLP ensemble

Stage B: Evidence segmentation
  segmentation backbone or SAM/LISAT-style language-instructed segmentation
  output evidence masks for mining scars, water disturbance, roads, etc.

Stage C: Change reasoning
  bi-temporal difference encoder + change mask
  produce structured facts: object, location, direction, area change, confidence

Stage D: Grounded explanation
  VLM receives image crops + evidence masks + structured facts
  output caption / QA:
    answer
    evidence regions
    evidence type
    uncertainty
    possible confounders

关键设计:VLM 不直接凭图说话,而是被 evidence mask 和 change facts 约束。最终报告必须引用 mask id,例如 E1: exposed soil expansion, E2: new sediment pond, E3: road extension

实验数据Baseline指标目的
E1 semantic evidence segmentationELDOR UAV orthomosaicU-Net/DeepLab/SegFormer/SAM-assisted/VFM segmentationmIoU, F1, rare-class IoU, boundary F1验证细粒度 evidence mask 是否可学
E2 class-presence VLMELDOR VLM class-presence taskGeoChat/LISAT/general VLM/RS-VLMaccuracy, F1, hallucination rate测 image-level VLM 是否可靠
E3 grounded class-presenceELDOR + generated evidence boxes/masksVLM answer-only vs answer+evidenceanswer acc, evidence IoU, answer-evidence consistency验证 grounding 是否减少幻觉
E4 Sentinel-2 candidate discoveryAmazon Mining Watch / SmallMinesDSSSL4EO DINO + MLP, Prithvi/Clay/AlphaEarth embeddingsAUROC, precision@k, recall@k, spatial false positives做泛区域候选矿区筛查
E5 change captionEuroMineNet / AMW annual detections / custom pre-post pairsChange-Agent, CDChat, HiSem, DeltaVLMBLEU/CIDEr + evidence IoU + human audit score验证变化描述是否可审计
E6 confounder robustnessriver sandbars, agriculture clearing, legal mines, cloudsdetection/VLM baselinesfalse positive rate by confounder防止把所有裸地都说成非法矿
E7 GIS legality/risk layerprotected areas, legal mining concessions, rivers/roadsvision-only vs vision+GISrisk ranking precision, expert review time区分“视觉上像矿”与“治理上高风险”
  • mIoU / F1 / boundary F1
  • rare evidence class F1
  • precision@k candidate tiles
  • area error and polygon overlap
  • Evidence IoU:模型引用证据区域与人工证据 mask 的重叠。
  • Answer-evidence consistency:回答中提到的证据类别是否真的在 mask 中出现。
  • Unsupported claim rate:caption/QA 中没有对应证据区域支撑的陈述比例。
  • Confounder false-positive rate:把自然裸地、农业清理、季节河滩误判为采矿的比例。
  • Change mask IoU
  • evidence-aware caption score:传统 caption 指标 + 证据区域匹配
  • temporal direction accuracy:是否正确描述扩张/恢复/无变化
  • human audit time:专家确认一个告警所需时间
  • SegFormer / U-Net / DeepLabV3+
  • SAM / SAM2 with prompt
  • LISAT or language-instructed segmentation if weights available
  • GeoFM features + simple decoder: Prithvi, Clay, SSL4EO DINO, AlphaEarth embeddings if accessible
  • ChangeFormer / BIT / CDMaskFormer
  • Change-Agent
  • CDChat
  • SECOND-CC / MModalCC
  • HiSem
  • DeltaVLM
  • Amazon Mining Watch mining-detector
  • SSL4EO DINO + MLP ensemble
  • Prithvi/Clay/AlphaEarth embedding + linear probe
  • RemoteCLIP/GeoRSCLIP for zero-shot semantic retrieval

基于 ELDOR + Amazon Mining Watch + SmallMinesDS 构造统一任务:给定图像或双时相图像,输出 mining risk answer、evidence mask、evidence type 和 caption。贡献不在“又做一个检测器”,而在把证据定位、解释和不确定性作为主指标。

大范围 Sentinel-2 候选筛查,触发高分辨率证据验证,再由 VLM 生成报告。适合真实应用,也能自然引入 human-in-the-loop。

专门构造 hard negatives:自然河滩、农业裸地、道路施工、合法矿区、云阴影、季节水位。训练或评测 VLM 是否能说“证据不足”。

视觉模型只能判断 mining-like disturbance,不能直接判断“非法”。把 protected area、indigenous territory、legal concessions、river buffers、roads 纳入后验 risk reasoning,输出“suspected illegal / needs verification”而不是过度断言。

  1. 选择 ELDOR 或 SmallMinesDS 作为细粒度 evidence segmentation 数据。
  2. 训练/评估 SegFormer + SAM-assisted mask refinement。
  3. 用人工模板生成 500-1000 条 evidence-grounded QA:
    • Q: Is there evidence of mining-related disturbance?
    • A: Yes, evidence includes exposed soil and sediment ponds.
    • Evidence: mask ids / boxes.
  4. 比较 answer-only VLM 与 evidence-constrained VLM。
  5. 构造 3 类 confounder hard negatives。
  6. 报告:answer accuracy、evidence IoU、unsupported claim rate、confounder FPR。

这个实验规模小,但能直接验证“让模型必须给证据区域”是否比单纯 VQA 更可靠。

  • 合法性不是纯视觉标签:论文表述建议用 suspected / mining-like / risk,而不是直接宣称 illegal。
  • 高分辨率数据可能敏感:涉及 Indigenous territories 或执法行动时,需要谨慎处理坐标公开。
  • VLM 容易过度解释:必须设置 unsupported claim rate 和 refusal/uncertainty 机制。
  • 数据集之间尺度差异大:UAV ELDOR 与 Sentinel-2 AMW 不能直接混训,建议 coarse-to-fine 或 domain adaptation。
  • 多时相对比要控制季节和水位:否则河滩/泥水变化可能被误解释成采矿。
  1. ELDOR arXiv
  2. Amazon Mining Watch Source Cooperative data
  3. Amazon Mining Watch mining-detector GitHub
  4. SmallMinesDS HF dataset
  5. EuroMineNet GitHub
  6. Change-Agent GitHub
  7. CDChat GitHub
  8. HiSem arXiv
  9. GeoChat CVPR 2024
  10. LISAT HF paper page

Related Content

评论