RS-43 Illegal Mining Evidence Grounding

WangTong included in category 遥感基础模型与多模态理解 and series 2024-2026 遥感 AI 细分研究方向

2026-06-07 09:42:00 2026-06-07 09:42:00 1187 words 6 minutes

Series - 2024-2026 遥感 AI 细分研究方向

RS-43 Illegal Mining Evidence Grounding

1. 方向概述

非法采矿，尤其是亚马逊和加纳等地区的 artisanal and small-scale gold mining，具有几个典型遥感难点：目标尺度小、形态变化快、常沿河流和道路扩散、裸土/采坑/尾矿池/临时道路/简易机场之间存在强上下文关系，同时又经常受云、阴影、季节水位和成像分辨率影响。传统做法多是二分类或语义分割：给出“这里是矿区”。但执法、新闻调查、生态评估和社区沟通需要的不只是一个 mask，而是可审计证据：模型为什么认为这里是非法采矿，变化发生在何处，相关证据是否来自裸土扩张、河道浑浊、植被损失、道路/机场/机械痕迹，答案有没有定位支撑。

因此这个细方向可以定义为：面向非法采矿/森林破坏的 evidence-grounded remote sensing interpretation。输出不只是 detection / segmentation / change mask，还包括：

证据区域：bbox、mask、polygon 或 georeferenced tile。
证据类型：裸土采坑、尾矿池、浑浊水体、临时道路、营地、机场、森林清除边界等。
时间证据：pre/post 或多时相变化描述。
置信度与不确定性：是否可能是合法矿区、自然裸地、农业开垦、河道季节变化。
可复核产物：地图图层、caption、QA、变化报告和失败案例。

2. 代表论文、数据与项目

名称	年份/来源	链接	代码/数据	对 RS-43 的价值
ELDOR: A Dataset and Benchmark for Illegal Gold Mining in the Amazon Rainforest	2026 arXiv	arXiv	论文提到 interactive explorer，官方代码需继续跟踪	目前最贴近本题的 benchmark：UAV orthomosaic、像素级 mining/ecological labels、语义分割、recognition、VLM class-presence 任务。
Amazon Mining Watch	2026 数据平台/产品	platform, Source Cooperative data	GitHub: mining-detector	Sentinel-2 泛亚马逊矿区检测产品；GitHub 说明使用 SSL4EO DINO ViT 特征 + 小型 ensemble classifier；适合做真实部署基线和地理范围评测。
SmallMinesDS: A Multimodal Dataset for Mapping Artisanal and Small-Scale Gold Mines	2025 IEEE GRSL	TUM page	HF dataset	Ghana 小规模金矿，多时相/多传感器；适合测试跨区域、跨传感器和小目标矿区分割。
EuroMineNet: A Multitemporal Sentinel-2 Benchmark for Spatiotemporal Mining Footprint Analysis	2026 ISPRS JPRS / 2025 arXiv	arXiv, ScienceDirect	GitHub	虽非“非法”主线，但提供 2015-2024 年度 mining footprint，多时相变化和 footprint tracking protocol 可迁移。
Remote Sensing Capabilities of Detecting Spatio-Temporal Dynamics in Unregulated Gold Mining Hotspots in Ecuador	2026 EGUsphere preprint	EGUsphere	使用公开数据，含 Amazon Mining Watch 引用	对“unregulated mining”真实场景评估 Sentinel / Planet / embedding 数据能力，适合做案例与验证区域。
MineCam: Segmentation and Change Detection of Mining Areas	2024 Remote Sensing	MDPI	未见官方代码	传统 segmentation + change detection baseline，可作为 VLM 证据化方案的对照。
Global High-Resolution Mining Footprints	数据产品	GEE Community Catalog	GEE 数据	全球矿区 footprint 先验，可作为弱标签、负样本过滤或合法/历史矿区背景层。
GeoChat: Grounded Large Vision-Language Model for Remote Sensing	2024 CVPR	CVF	GitHub	遥感 grounded dialogue 基线，可迁移到“指出证据区域并解释为什么像矿区”。
LHRS-Bot	2024 ECCV	project	项目页含 GitHub	VGI-enhanced 遥感 MLLM，适合探索 OSM/POI/地名/道路先验辅助但需防止文本幻觉。
Change-Agent	2024 arXiv	HF paper	GitHub	交互式变化解释：change detection、caption、counting、cause analysis；适合迁移到矿区扩张解释。
CDChat	2024/2025 IGARSS	GitHub	GitHub	遥感变化描述 MLLM；可作为 change caption baseline。
SECOND-CC / MModalCC	2025 arXiv	HF paper	GitHub planned	change captioning 数据与模型，适合借鉴多模态 change caption 数据构造。
DeltaVLM	2025 arXiv	HF paper	需继续核验	instruction-guided difference perception，把双时相变化分析做成可交互 VLM。
HiSem	2026 arXiv	arXiv	GitHub planned	层级语义解耦 change caption，可迁移到“森林损失 -> 采坑/道路/水体污染”等分层描述。
Vision-Language Agents for Interactive Forest Change Analysis	2026 arXiv	HF paper	需继续核验	直接面向 forest change 的交互式 VLM agent；适合迁移到 deforestation + mining 证据问答。
LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery	2025 arXiv	HF paper	HF page links project/GitHub	reasoning segmentation 能力可迁移到“segment mining scars / tailing ponds / disturbed riverbank”。

3. 问题由来：为什么需要 evidence grounding

3.1 从“检测矿区”到“证明矿区”

Amazon Mining Watch 这类系统已经能做大范围筛查，但现实使用者往往需要回答更细的问题：

这个区域为什么被模型标为 mining scar？
证据是裸土、采坑、尾矿池，还是沿河的浑浊水体？
与上季度相比，扩张发生在什么方向？
是否可能只是河滩、农业裸地、道路施工或合法矿场？
哪些像素/多边形应该优先人工核查？

这些问题天然对应 VLM/GeoFM 的强项，但直接让 VLM“解释”会带来幻觉风险。因此 evidence grounding 应当把解释绑定到可检查的 mask、bbox、时间差异和地图先验。

3.2 采矿目标的遥感特征复杂

非法采矿不是一个单一视觉类别，而是一组空间-时间过程：

初期：森林清除、小块裸土、临时道路或河岸扰动。
扩张：裸地增大，采坑、尾矿池、泥水水体、堆料区出现。
运输：道路、河道、简易机场、营地增强。
后期：废弃矿坑、恢复植被、浑浊水体和地形痕迹长期存在。

ELDOR 的价值在于它把 mining-related activities 和 surrounding ecological structures 放到同一套像素级标注中；这比单纯“mine / non-mine”更适合做 evidence taxonomy。

3.3 分辨率与尺度冲突

Sentinel-2 适合泛区域、长期监测，但 10m 分辨率可能漏掉小采坑、临时设施和窄道路。UAV/Planet/VHR 能看到细节，但覆盖成本高。一个合理系统应当是 coarse-to-fine：Sentinel-2 / GeoFM embedding 做候选区域，VHR/UAV 或高分辨率切片做证据验证，VLM 输出可审计说明。

4. 方法比较：可迁移路线

路线	输入	输出	优点	风险
传统分割/变化检测	单时相或双时相 Sentinel/Planet/UAV	mining mask / change mask	稳定、易量化	缺少自然语言解释，难表达证据类型
GeoFM embedding + 轻量分类器	Sentinel-2 多时相 + SSL/GeoFM 特征	mine probability / candidate tiles	Amazon Mining Watch 已证明可部署	解释性弱，模型版本变化会影响年份对比
VLM class-presence	图像 tile + 问题	是否存在 mining evidence	适合快速筛查和专家交互	容易语言先验幻觉；需要证据区域约束
Grounded VLM / referring segmentation	图像 + 文本 prompt	bbox/mask + answer	可以把“为什么”落到区域	遥感小目标和类别层级难，开放词表不稳定
Change caption / change VQA	pre/post 图像	自然语言变化描述 + evidence mask	适合报告化和审计	caption 可能描述不完整或没有证据
GIS/规则后验	mask + hydrography/roads/protected areas/legal mining boundaries	risk score / illegal-likelihood	贴近治理场景	合法性不是纯视觉事实，边界数据可能过时

5. Proposed Direction: MineEvidence-VLM

5.1 研究问题

能否构造一个面向非法采矿/森林破坏的 evidence-grounded VLM，使其在输出“是否存在 mining / deforestation risk”的同时，必须给出对应证据区域、证据类型和变化描述，并在没有足够证据时拒答或标记不确定？

5.2 核心假设

如果把 mining evidence 拆成一组可定位的细粒度视觉证据，VLM 的 hallucination 会低于只做 image-level QA。
Sentinel-2 / Amazon Mining Watch 候选区域 + UAV/VHR 证据验证的 coarse-to-fine 方案，比单一分辨率模型更适合真实监测。
将 change mask、semantic evidence mask 和 caption 绑定训练/评估，可以让变化描述更可审计。

5.3 Evidence taxonomy

建议从 8 类证据开始，避免类别过细导致标注成本爆炸：

fresh bare soil / exposed mining scar
mining pit / excavation
tailings pond / sediment pond
turbid water / river plume near mining
access road / trail
camp / equipment / built structure
clandestine airstrip or landing strip
forest clearing boundary / recent vegetation loss

同时保留 confounder 类别：

natural sandbar / exposed riverbank
agriculture / pasture clearing
legal industrial mine
road construction
seasonal water-level change
cloud/shadow/artifact

5.4 模型方案

Input:
  T0/T1 Sentinel-2 or Planet/VHR tile
  optional: Amazon Mining Watch candidate mask, protected-area/legal-mining boundary, river/road vector
  prompt: "Find evidence of illegal mining expansion and explain it."

Stage A: Candidate discovery
  GeoFM/SSL feature encoder + light classifier
  optional baseline: Amazon Mining Watch style SSL4EO DINO + MLP ensemble

Stage B: Evidence segmentation
  segmentation backbone or SAM/LISAT-style language-instructed segmentation
  output evidence masks for mining scars, water disturbance, roads, etc.

Stage C: Change reasoning
  bi-temporal difference encoder + change mask
  produce structured facts: object, location, direction, area change, confidence

Stage D: Grounded explanation
  VLM receives image crops + evidence masks + structured facts
  output caption / QA:
    answer
    evidence regions
    evidence type
    uncertainty
    possible confounders

关键设计：VLM 不直接凭图说话，而是被 evidence mask 和 change facts 约束。最终报告必须引用 mask id，例如 E1: exposed soil expansion, E2: new sediment pond, E3: road extension。

6. 实验矩阵

实验	数据	Baseline	指标	目的
E1 semantic evidence segmentation	ELDOR UAV orthomosaic	U-Net/DeepLab/SegFormer/SAM-assisted/VFM segmentation	mIoU, F1, rare-class IoU, boundary F1	验证细粒度 evidence mask 是否可学
E2 class-presence VLM	ELDOR VLM class-presence task	GeoChat/LISAT/general VLM/RS-VLM	accuracy, F1, hallucination rate	测 image-level VLM 是否可靠
E3 grounded class-presence	ELDOR + generated evidence boxes/masks	VLM answer-only vs answer+evidence	answer acc, evidence IoU, answer-evidence consistency	验证 grounding 是否减少幻觉
E4 Sentinel-2 candidate discovery	Amazon Mining Watch / SmallMinesDS	SSL4EO DINO + MLP, Prithvi/Clay/AlphaEarth embeddings	AUROC, precision@k, recall@k, spatial false positives	做泛区域候选矿区筛查
E5 change caption	EuroMineNet / AMW annual detections / custom pre-post pairs	Change-Agent, CDChat, HiSem, DeltaVLM	BLEU/CIDEr + evidence IoU + human audit score	验证变化描述是否可审计
E6 confounder robustness	river sandbars, agriculture clearing, legal mines, clouds	detection/VLM baselines	false positive rate by confounder	防止把所有裸地都说成非法矿
E7 GIS legality/risk layer	protected areas, legal mining concessions, rivers/roads	vision-only vs vision+GIS	risk ranking precision, expert review time	区分“视觉上像矿”与“治理上高风险”

7. 评价指标

7.1 Detection / segmentation

mIoU / F1 / boundary F1
rare evidence class F1
precision@k candidate tiles
area error and polygon overlap

7.2 Evidence grounding

Evidence IoU：模型引用证据区域与人工证据 mask 的重叠。
Answer-evidence consistency：回答中提到的证据类别是否真的在 mask 中出现。
Unsupported claim rate：caption/QA 中没有对应证据区域支撑的陈述比例。
Confounder false-positive rate：把自然裸地、农业清理、季节河滩误判为采矿的比例。

7.3 Change explanation

Change mask IoU
evidence-aware caption score：传统 caption 指标 + 证据区域匹配
temporal direction accuracy：是否正确描述扩张/恢复/无变化
human audit time：专家确认一个告警所需时间

8. 推荐基线

视觉/分割

SegFormer / U-Net / DeepLabV3+
SAM / SAM2 with prompt
LISAT or language-instructed segmentation if weights available
GeoFM features + simple decoder: Prithvi, Clay, SSL4EO DINO, AlphaEarth embeddings if accessible

变化理解

ChangeFormer / BIT / CDMaskFormer
Change-Agent
CDChat
SECOND-CC / MModalCC
HiSem
DeltaVLM

检索/候选区域

Amazon Mining Watch mining-detector
SSL4EO DINO + MLP ensemble
Prithvi/Clay/AlphaEarth embedding + linear probe
RemoteCLIP/GeoRSCLIP for zero-shot semantic retrieval

9. 可能的论文贡献点

9.1 Evidence-grounded illegal mining benchmark

基于 ELDOR + Amazon Mining Watch + SmallMinesDS 构造统一任务：给定图像或双时相图像，输出 mining risk answer、evidence mask、evidence type 和 caption。贡献不在“又做一个检测器”，而在把证据定位、解释和不确定性作为主指标。

9.2 Coarse-to-fine mine evidence agent

大范围 Sentinel-2 候选筛查，触发高分辨率证据验证，再由 VLM 生成报告。适合真实应用，也能自然引入 human-in-the-loop。

9.3 Confounder-aware mining VLM

专门构造 hard negatives：自然河滩、农业裸地、道路施工、合法矿区、云阴影、季节水位。训练或评测 VLM 是否能说“证据不足”。

9.4 GIS-constrained legality reasoning

视觉模型只能判断 mining-like disturbance，不能直接判断“非法”。把 protected area、indigenous territory、legal concessions、river buffers、roads 纳入后验 risk reasoning，输出“suspected illegal / needs verification”而不是过度断言。

10. 最小可行实验

选择 ELDOR 或 SmallMinesDS 作为细粒度 evidence segmentation 数据。
训练/评估 SegFormer + SAM-assisted mask refinement。
用人工模板生成 500-1000 条 evidence-grounded QA：
- Q: Is there evidence of mining-related disturbance?
- A: Yes, evidence includes exposed soil and sediment ponds.
- Evidence: mask ids / boxes.
比较 answer-only VLM 与 evidence-constrained VLM。
构造 3 类 confounder hard negatives。
报告：answer accuracy、evidence IoU、unsupported claim rate、confounder FPR。

这个实验规模小，但能直接验证“让模型必须给证据区域”是否比单纯 VQA 更可靠。

11. 风险与注意事项

合法性不是纯视觉标签：论文表述建议用 suspected / mining-like / risk，而不是直接宣称 illegal。
高分辨率数据可能敏感：涉及 Indigenous territories 或执法行动时，需要谨慎处理坐标公开。
VLM 容易过度解释：必须设置 unsupported claim rate 和 refusal/uncertainty 机制。
数据集之间尺度差异大：UAV ELDOR 与 Sentinel-2 AMW 不能直接混训，建议 coarse-to-fine 或 domain adaptation。
多时相对比要控制季节和水位：否则河滩/泥水变化可能被误解释成采矿。

Contents

RS-43 Illegal Mining Evidence Grounding

RS-43 Illegal Mining Evidence Grounding

1. 方向概述

2. 代表论文、数据与项目

3. 问题由来：为什么需要 evidence grounding

3.1 从“检测矿区”到“证明矿区”

3.2 采矿目标的遥感特征复杂

3.3 分辨率与尺度冲突

4. 方法比较：可迁移路线

5. Proposed Direction: MineEvidence-VLM

5.1 研究问题

5.2 核心假设

5.3 Evidence taxonomy

5.4 模型方案

6. 实验矩阵

7. 评价指标

7.1 Detection / segmentation

7.2 Evidence grounding

7.3 Change explanation

8. 推荐基线

视觉/分割

变化理解

检索/候选区域

9. 可能的论文贡献点

9.1 Evidence-grounded illegal mining benchmark

9.2 Coarse-to-fine mine evidence agent

9.3 Confounder-aware mining VLM

9.4 GIS-constrained legality reasoning

10. 最小可行实验

11. 风险与注意事项

12. 下一步阅读队列

Related Content

评论

RS-43 Illegal Mining Evidence Grounding

RS-43 Illegal Mining Evidence Grounding

1. 方向概述

2. 代表论文、数据与项目

3. 问题由来：为什么需要 evidence grounding

3.1 从“检测矿区”到“证明矿区”

3.2 采矿目标的遥感特征复杂

3.3 分辨率与尺度冲突

4. 方法比较：可迁移路线

5. Proposed Direction: MineEvidence-VLM

5.1 研究问题

5.2 核心假设

5.3 Evidence taxonomy

5.4 模型方案

6. 实验矩阵

7. 评价指标

7.1 Detection / segmentation

7.2 Evidence grounding

7.3 Change explanation

8. 推荐基线

视觉/分割

变化理解

检索/候选区域

9. 可能的论文贡献点

9.1 Evidence-grounded illegal mining benchmark

9.2 Coarse-to-fine mine evidence agent

9.3 Confounder-aware mining VLM

9.4 GIS-constrained legality reasoning

10. 最小可行实验

11. 风险与注意事项

12. 下一步阅读队列

Related Content

RS-45 Few-Shot Disaster Building Damage Mapping

RS-44 Fairness of Socioeconomic Mapping with GeoFM Embeddings

RS-42 Wildfire Mapping with GeoFM LoRA

RS-41 Phenology-Aware Crop Foundation Models

评论