2024-2026 遥感 AI 细分研究方向 - Series - 堂堂一跑堂

RS-50 Hierarchical Taxonomy Metrics for Remote Sensing

Sun, 07 Jun 2026 09:49:00 +0800

RS-50 Hierarchical Taxonomy Metrics for Remote Sensing

结论摘要

遥感分割和检测的类别体系天然不是平面的：impervious surface / road / runway / building、crop / rice / field、water / river / lake / flood water、tree / forest / shrubland 常常同时包含 land-cover、land-use、object、material、function 和 fine-grained species。标准 mIoU、h-mIoU、mAP 会把“预测到同一父类但粒度不对”和“完全不相关类别”同等惩罚；开放词表模型又会因为同义词、上下位词、地区命名差异产生额外歧义。

最有潜力的小课题不是再提出一个 OVSS 模型，而是提出一个 taxonomy-aware evaluation protocol：同时报告叶子类别精度、父类一致性、语义距离、层级混淆矩阵和开放词表别名鲁棒性。这个指标体系可以服务于 SegEarth-OV / RSKT-Seg / Pi-Seg / AerOSeg / HieraRS / GeoFM-VLM 等模型，也能用于审计 OpenEarthMap、Dynamic World、ESA WorldCover、NLCD、CORINE 等不同类别体系之间的映射误差。

问题由来

传统遥感数据集通常固定一个闭集标签表。OpenEarthMap 用 8 类高分辨率 land-cover 标签覆盖 44 个国家和 97 个区域，适合全球高分辨率制图，但类别较粗。OpenEarthMap project

RS-49 Weak Labels from OSM/Map Products

Sun, 07 Jun 2026 09:48:00 +0800

RS-49 Weak Labels from OSM/Map Products

1. 问题由来

遥感标注最贵的部分通常不是图像本身，而是“地理一致、时相一致、类别一致”的像素级或对象级标签。OSM、Microsoft/Google building footprints、ESA WorldCover、Dynamic World、FROM-GLC、GlobeLand30、HydroLAKES/Global Surface Water、各国地籍和道路数据看起来像天然标签源，但它们本质上是异构、异时相、异精度的地图产品。直接把它们当 ground truth 会把地图误差转成模型偏差。

这个方向在 2024-2026 变得更重要，原因有三点：

Foundation model 需要海量弱监督。OSM tag、道路/建筑矢量和土地覆盖产品可以提供全球尺度的预训练或伪标签信号。
SAM、GroundingDINO、VLM 可以半自动生成 mask/box/caption，但它们仍需要地图产品做类别约束、空间先验或质量校验。
真实部署更看重跨地区泛化。OSM 在欧美城市覆盖好，在农村、发展中地区、灾后区域常缺失或滞后；这会直接造成空间公平性问题。

核心研究问题不是“能不能用 OSM 做弱标签”，而是：如何估计每个弱标签的可靠性、如何处理时相和空间错位、如何在训练时避免模型学习地图产品的系统性偏差。

2. 代表论文与项目

类型	论文/项目	年份/来源	链接	与弱标签的关系
OSM 自监督	Rose: Register Assisted General Time Series Embedding for Multimodal and Sensor Agnostic Satellite Data	2024, Remote Sensing of Environment	ScienceDirect, code	使用 OSM register / 地图语义辅助多模态、多传感器时序表示学习，是“地图作为预训练信号”的代表。
地图弱标签分割	SAModified: A Foundation Model for Image Segmentation of Remote Sensing Data	2025, arXiv	arXiv	明确从已有地图产品/基础地理数据构造 prompt 和伪标签，用 SAM 系列能力做遥感分割。
地图产品纠偏	MapSR: Mapping with Super-Resolution	2024, arXiv	arXiv	研究用低分辨率/粗糙地图产品作为 supervision，恢复更高分辨率的空间边界，是“地图产品到高分制图”的典型问题。
大规模土地覆盖	LandSegmenter: Large-scale land cover mapping by segmentation models	2025, arXiv	arXiv	使用全球土地覆盖产品和大规模影像训练分割模型，体现 map product label noise 与类别体系问题。
OSM + RS 表示	Spatial Representation Learning Beyond Pixels	2026, arXiv	arXiv	将 raster data 与 vector semantics 统一，说明 OSM/矢量语义正从下游弱标签变成 foundation model 表示的一部分。
benchmark / 数据质量	PANGAEA benchmark	2024/2025	project, GitHub, arXiv	虽不是专门弱标签论文，但其跨任务/跨区域协议可作为地图弱标签方法的泛化评测框架。
真实偏移评测	EarthShift	2026, arXiv	project, arXiv	提供真实世界分布偏移评测思路，可检测地图弱标签模型是否只适配局部数据质量。
鲁棒性评测	REOBench	2025, arXiv	arXiv, GitHub	可用于评估弱标签训练模型在扰动、退化和 OOD 下的可靠性。
弱标签来源	Microsoft Global ML Building Footprints	持续更新	GitHub	全球建筑 footprint，可作为建筑分割/检测弱标签；存在地区覆盖、时间戳和几何误差问题。
弱标签来源	Google Open Buildings	持续更新	dataset	非洲、南亚、东南亚等区域建筑 footprint，适合研究区域覆盖差异和弱标签置信度。
弱标签来源	Dynamic World	持续更新	Google, Nature paper	10m near-real-time land cover 概率产品，适合做时序弱标签和置信度加权。
弱标签来源	ESA WorldCover	2020/2021 product, 仍常用	ESA	10m 全球土地覆盖标签源，适合弱监督 land-cover pretraining，但类别粗、时相固定。
弱标签来源	Field boundaries / FTW	2025 左右活跃	GitHub, project	地块边界弱标签和农业制图常用资源，可研究 parcel/field boundary 与作物标签错位。
质量规范	OpenStreetMap Import Guidelines	官方文档	OSM Wiki	不是论文，但说明 OSM 数据导入、许可证、质量审查和社区验证流程，是使用 OSM 标签时必须考虑的约束。

3. 弱标签噪声类型

3.1 时效误差

地图产品和遥感影像常不在同一天甚至同一年。建筑新增/拆除、道路施工、洪水季节性水体、农田轮作、城市扩张都会让标签与影像真实状态不一致。

RS-48 Active Learning with SAM/VLM Human-in-the-Loop

Sun, 07 Jun 2026 09:47:00 +0800

RS-48 Active Learning with SAM/VLM Human-in-the-Loop

1. 问题由来

遥感标注贵，贵在三个地方：大幅面影像要切片和定位，小目标/旋转目标/密集实例边界难修，类别语义还经常依赖地理上下文。传统主动学习只问“哪张图最不确定”，但 foundation model 时代的问题变了：SAM 能给 mask 但不懂类别，GroundingDINO/VLM 能给语义但受 prompt 和语言先验影响，人类标注者的主要成本也从“从零画 mask”变成“检查、修正、合并、改类别”。

因此，这个方向的核心研究问题不是再做一个主动学习打分函数，而是：

如何估计一张候选图像的“自动标注可修正性”：SAM/VLM 生成的伪标签是否值得交给人类改？
如何把选样目标从 uncertainty 扩展到地理覆盖、季节覆盖、长尾类别、小目标覆盖和纠错成本？
如何让人类纠错反过来更新 prompt、prototype、类别词表或轻量 adapter，而不是只把修正标签放进训练集？
如何用“单位人工分钟带来的 mIoU/AP 提升”评估方法，而不是只比较标注比例？

2. 2024-2026 代表论文/项目

论文/项目	年份/来源	链接	官方代码/数据	与本方向的关系
Active Learning Meets Foundation Models: Fast Remote Sensing Data Annotation	ICCV 2025	CVF PDF	GitHub: ICCV_AL4FM	最直接锚点：把主动学习和 SAM 半自动遥感目标检测标注结合，强调标注时间和冷启动。
FMARS: Annotating Remote Sensing Images for Disaster Monitoring with Foundation Models	2024 IGARSS / arXiv	arXiv	HF dataset, Papers with Code	使用 GroundingDINO + SAM 自动标注灾害相关 VHR 遥感图像，适合作为自动伪标签管线基线。
RemoteSAM / RemoteSAM-270K	2025 ACM MM oral / arXiv	arXiv	GitHub, HF dataset	构建 image-text-mask 三元组数据引擎，可作为 SAM/VLM 自动标注和 referring segmentation 基座。
Segment Anything, From Space?	WACV 2024	CVF PDF	论文评测多遥感数据	系统暴露 SAM 在 overhead imagery 上的失败模式，是设计人类纠错和 prompt refinement 的依据。
PointSAM	2024/2025 arXiv / TGRS 方向	arXiv	GitHub	点监督、负提示校准、伪标签自训练；可用于“少量点击 -> 更好 mask”的 HITL 单元。
OpenRSD: Towards Open-prompts for Object Detection in Remote Sensing Images	ICCV 2025	CVF, arXiv	论文页为主	开放提示遥感检测，适合作为 VLM/文本 prompt 生成候选框的比较对象。
VRSBench	NeurIPS 2024 Datasets & Benchmarks	arXiv, NeurIPS PDF	GitHub	高质量遥感视觉语言 benchmark，可借鉴人工验证、object reference 和 VQA 标注质量控制。
Grounded-SAM-2	2024-2025 official-style project	GitHub	GitHub	通用 GroundingDINO/SAM2 管线，可迁移为“文本/框 -> mask -> 人类修正”的工程基线。
SAM 2	2024 Meta	project, GitHub	GitHub/model weights	对多帧 memory 和交互式修正友好，可用于多时相遥感标注闭环。
GEOBench-VLM	ICCV 2025	CVF PDF	GitHub	可作为 VLM 语义质量和定位能力评估参考，避免把语言答案当作可靠标签。

3. 方法脉络

3.1 传统主动学习

典型做法是用 uncertainty、entropy、margin、BALD、core-set/diversity 或 query-by-committee 选择未标注样本。遥感中它的问题是：随机切片高度冗余，空间相邻样本相关性强，模型最不确定的样本可能只是云、阴影、配准错或异常纹理，并不一定值得人类标注。

RS-47 Benchmark Contamination and Deduplication

Sun, 07 Jun 2026 09:46:00 +0800

RS-47 Benchmark Contamination and Deduplication

细问题：专门研究遥感 benchmark contamination：预训练图像、下游测试、同一区域瓦片、增强副本、near-duplicate 如何去重；提出基于地理坐标、时间戳、图像哈希和 embedding 相似度的 dedup pipeline。
范围：光学/多光谱/高分辨率遥感优先；SAR-only 不作为主线。本文与 RS-02 GeoFM Benchmark Leakage Audit 和 RS-25 OOD Split Design 互补：RS-02 偏 GeoFM 评测泄漏审计，RS-25 偏 OOD split；本文件专门落在数据污染检测、近重复去重和可执行工具链。

1. 结论先行

遥感 benchmark contamination 不是一个抽象风险，而是已经被实证发现的硬问题。最直接的证据是 CVPR 2026 oral 论文 Data Leakage Detection and De-duplication in Large Scale Geospatial Image Datasets：作者审计 INRIA、SpaceNet 2 和 AICrowd Mapping Challenge 等建筑 footprint 数据集，发现 AICrowd 训练集中约 25 万张、接近 90% 图像是完全或增强重复；验证集中大量样本也出现在训练集中，并给出官方代码 Hash_and_search。

对 2024-2026 的 GeoFM/VLM 时代来说，问题更复杂：模型预训练数据往往来自全球 Sentinel-2、Landsat、NAIP、航空影像、Web caption、OSM/WorldCover/building footprint 等衍生产品；下游 benchmark 又可能使用相同区域、相同年份、相同 parent scene、相同标签产品或同源 caption/QA。只做 image-level random split 已经不够，必须做 provenance-aware dedup：同时用坐标、时间、传感器、parent scene、精确/感知哈希、embedding 近邻和标签来源审计。

RS-46 Synthetic Instruction Data Quality for RS-VLM

Sun, 07 Jun 2026 09:45:00 +0800

RS-46 Synthetic Instruction Data Quality for RS-VLM

细问题：遥感 VLM 的合成 instruction/caption 数据质量如何评估、过滤和人工抽检？

摘要

2024-2026 年遥感 VLM 的核心数据路线可以概括为三类：把已有 caption/VQA/检测/分割数据转成 instruction；用 GPT-4V/通用 VLM/LLM 生成多轮问答、细粒度 caption 或 scene graph；再用人工验证、负样本或 benchmark 协议约束模型幻觉。问题是，遥感图像有小目标、俯视视角、尺度/GSD、地理上下文和类别层级，通用 VLM 生成的数据很容易出现“看不见却说有”“模板句式过强”“类别先验替代图像证据”“地理常识编造”等伪细节。

本方向最值得做的小课题不是再堆一个更大的 instruction 数据集，而是提出一个可复现的 Synthetic RS-VLM Data Quality Protocol：对每条 image-instruction-answer 做来源追踪、视觉证据检查、地理/尺度一致性检查、负样本压力测试、人工分层抽检和训练收益验证。

问题由来

遥感 VLM 训练数据的难点来自两个冲突：

大规模 instruction 数据必须自动化生成，否则成本不可承受。
遥感场景又极其依赖证据，自动生成的一句 caption 或 QA 只要错一个小目标、方向、类别层级，就会把模型训练成“会说但不看图”。

2024 年的 RS-LLaVA、SkyEyeGPT、GeoChat、RS-GPT4V、SkySenseGPT、VHM 都在扩充 instruction 数据；2025-2026 年的 GEOBench-VLM、OmniEarth、RSHBench/RADAR 则开始反过来诊断这些数据和模型是否真的可靠。这个演化说明：数据质量本身已经成为遥感 VLM 的研究问题。

代表论文与资源

工作	年份/venue	数据构造方式	与数据质量相关的贡献	主要风险/可借鉴点	链接
RS-LLaVA	2024 Remote Sensing	将 caption 和 VQA 数据混合成 RS-instructions	早期 LLaVA-style RS caption+VQA 指令数据	多来自既有数据集，任务覆盖窄，容易继承原数据集偏差	paper, GitHub
SkyEyeGPT	2024 arXiv / 2025 ISPRS JPRS	构造 SkyEye-968k，单任务和多任务 instruction	统一多种 RS vision-language 任务	模板化和任务格式转换质量需要审计	arXiv, GitHub
GeoChat	2024 CVPR	构造 grounded RS instruction，包含 region dialogue / grounding	强调遥感 grounded conversation，开源代码、模型、数据和评测	grounding 数据能缓解纯语言幻觉，但 bbox/region 与答案一致性仍需检查	CVF, GitHub
VHM	2024 arXiv / 2025 AAAI	VersaD rich captions + HnstD honest/deceptive questions	引入详细 caption 和不存在目标的欺骗性问题，直接针对“诚实性”	很适合作为 RS-VLM 数据负样本构造模板	arXiv, GitHub
RS-GPT4V	2024 arXiv	用 GPT-4V 构造统一多模态 instruction-following 数据	代表 GPT-4V 生成遥感指令数据路线	需要系统验证 GPT-4V 生成细节是否有图像证据	arXiv, GitHub
SkySenseGPT / FIT-RS	2024 arXiv	FIT-RS，约 1.8M instruction，含关系推理、scene graph	关注复杂语义关系和细粒度理解	大规模合成/转换数据必须检查关系三元组是否可见	arXiv, GitHub
VRSBench	2024 NeurIPS Datasets & Benchmarks	高质量 RS vision-language benchmark，caption/object reference/VQA	将 benchmark 从简单问答扩展到多任务	可作为抽检协议和人工验证标准参考	paper, GitHub
RSUniVLM	2024 arXiv	图像级、区域级、像素级、多图输入统一	粒度 MoE 让 instruction 覆盖多粒度任务	需要检查不同粒度标签互相是否一致	arXiv, project
GeoGround	2024 arXiv	用 HBB/OBB/mask 支持遥感视觉 grounding	提供更细的视觉证据约束	可用于过滤“有答案但无定位证据”的样本	arXiv, GitHub
GEOBench-VLM	2025 ICCV	多任务 geospatial VLM benchmark，包含自动与人工验证标注	用 MCQ 降低 open-ended 评估偏差，覆盖计数、定位、时序、关系等	可借鉴其任务 taxonomy 和人工核验方式	CVF PDF, GitHub
OmniEarth	2026 arXiv	44,210 manually verified instructions，含 MCQ/open-ended、bbox/mask	blind test + semantic consistency，用于检验是否依赖视觉证据	很适合作为“数据质量目标函数”的 benchmark	arXiv, HF dataset
RSHBench/RADAR	2026 arXiv	细粒度诊断 RS-VQA 事实/逻辑幻觉	把幻觉归因到 grounding failure 和小目标误读	可直接用于合成数据负样本和失败模式分类	arXiv, GitHub
Cambrian-1	2024 NeurIPS	通用 MLLM 数据策展和分布平衡	强调高质量视觉指令数据、数据源平衡、视觉中心 benchmark	可迁移为 RS-VLM 数据混合比例和质量审计原则	NeurIPS, GitHub
What matters when building VLMs?	2024 NeurIPS	通用 VLM 构建消融	讨论训练混合、数据重复、合成 caption 对 VLM 的影响	可作为 RS 合成 caption 是否真正增益的消融模板	paper

数据构造路线对比

路线	典型做法	优点	质量风险	建议检查
既有数据集转 instruction	将 caption/VQA/detection/segmentation 标签包装为自然语言 QA	成本低、可复现	模板化强，问题答案分布单一，继承旧数据标签噪声	模板多样性、答案分布、同图多问一致性
GPT-4V/通用 VLM 生成	给图像生成 caption、多轮 QA、关系描述	规模大，语言自然	小目标、尺度、类别和空间关系幻觉	视觉证据核验、负样本、人工抽检
LLM 基于标签生成	用已有 bbox/mask/class 让 LLM 生成问答	语义可控，便于批量生成	答案可能只来自标签而不是图像；语言先验强	bbox/mask-answer 一致性、图像可见性
detector/SAM/VLM 联合自动标注	GroundingDINO/SAM/CLIP/VLM 产生区域和描述	有区域证据，适合 grounding	detector 漏检、SAM 类别无关、CLIP 类别混淆	多模型一致性、mask stability、类别置信度
人工验证 benchmark	人工校验 instruction、答案和证据	可信度高，适合评测	成本高，覆盖有限	分层抽样、双人标注、一致性统计
hard negative / deceptive QA	问不存在对象、相似类别、空间关系陷阱	直接抑制幻觉	构造不自然会让模型学到模板捷径	负样本自然度、与正样本配对、难度分层

质量问题分类

伪细节幻觉：caption 里出现图像中没有的飞机、船、道路、建筑损毁等。
小目标误读：把 tiny vehicle、storage tank、greenhouse、ship 等当成纹理或相似类别。
空间关系错误：left/right、near、inside、parallel、surrounded by 在俯视图中容易错。
尺度/GSD 错误：把球场、停车场、房屋屋顶等按自然图像尺度理解。
类别层级混乱：land cover 与 object label 混用，例如 impervious surface/road/runway/building。
模板偏置：模型靠问题句式猜答案，而不是看图。
答案分布偏置：yes/no、选项位置、常见类别过度集中。
地理常识编造：根据地区名、典型场景或语言先验推断不可见信息。
多粒度不一致：同一图像的 image-level caption、region QA、mask label 互相矛盾。
训练-测试污染：合成数据来自公开 benchmark 或同一区域瓦片，导致评测虚高。

可执行的数据过滤协议

Stage 0: 数据血缘记录

每条样本保存：

RS-45 Few-Shot Disaster Building Damage Mapping

Sun, 07 Jun 2026 09:44:00 +0800

RS-45 Few-Shot Disaster Building Damage Mapping

范围：灾后建筑损毁低样本制图；优先 VHR 光学 pre/post 遥感影像，兼顾 UAV/FloodNet 与 VLM 报告任务；SAR 或地面多视角工作只作为补充参考。

1. 问题由来

灾后建筑损毁制图的核心约束是“黄金 72 小时”：需要快速定位受损建筑、判断损毁等级，并把结果交给救援、保险和城市管理流程。但 xBD/xView2 这类主流数据虽然大，仍存在三个长期矛盾：

低样本与跨灾种泛化：新灾害发生时通常没有本地标注，模型从飓风迁移到地震、火灾、海啸时会因为建筑形态、成像角度、灾害痕迹和背景地貌变化而失效。
建筑实例与损毁证据错位：像素级变化不一定等于建筑损毁，阴影、季节、火烟、水体、配准误差都会产生伪变化；反过来，屋顶破损、局部坍塌又可能很细微。
可审计输出不足：应急场景不只要分类标签，还要建筑轮廓、pre/post 证据、损毁理由、置信度和报告文本。VLM 能生成报告，但容易脱离图像证据。

2024-2026 的新变化是，研究开始把 vision foundation model、SAM、VLM、LoRA/adapter、in-context learning 和跨域迁移引入灾害损毁评估，而不是只训练一个 xBD 专用 Siamese CNN。

2. 代表论文、数据与代码

方向	论文/项目	年份/来源	链接	代码/数据	关键贡献
强基线与泛化诊断	A simple, strong baseline for building damage detection on the xBD dataset	2024 arXiv	paper	GitHub	从 xView2 复杂冠军方案中剥离出简单强基线，并重新划分 unseen-location 测试，指出模型和数据分布都会导致跨地点泛化失败。
Foundation model 变化检测	Generalizable Disaster Damage Assessment via Change Detection with Vision Foundation Model / DAVI	2024 arXiv, 2025 revision	paper	未确认官方代码	结合源域任务模型和 segmentation foundation model，在目标区域无 GT 标签时生成损毁伪标签，并做 pixel/image 两阶段 refinement。
SAM 视觉提示	Visual Prompt Learning of Foundation Models for Post-Disaster Damage Evaluation / ViPDE	2025 Remote Sensing	paper	未见官方代码	用 SAM 嵌入知识和 pre/post 图像对做 contrastive visual prompt learning，面向建筑损毁评价。
VLM 灾害数据	DisasterM3: A Remote Sensing Vision-Language Dataset for Disaster Damage Assessment and Response	2025 NeurIPS	paper	GitHub	26,988 bi-temporal images、123k instruction pairs、36 个灾害事件、9 类任务；包含多传感器，SAR 内容需在光学主线中标记为 mixed-modality。
多模态基准	DisasterInsight: A Multimodal Benchmark for Function-Aware and Grounded Disaster Assessment	2026 arXiv	paper	待确认	将 xBD 重构为约 112K building-centered instances，支持功能分类、损毁等级、灾害类型、计数和结构化报告；DI-Chat 用 LoRA 做灾害指令适配。
智能迁移	Smart Transfer: Leveraging Vision Foundation Model for Rapid Building Damage Mapping with Post-Earthquake VHR Imagery	2026 arXiv	paper	GitHub	面向震后 VHR 单灾害快速迁移，提出 Pixel-wise Clustering 和 Distance-Penalized Triplet，做 LODO/SSDC 跨区域实验。
VLM 推理	Instruct-ICL: Instruction-Guided In-Context Learning for Post-Disaster Damage Assessment	2026 arXiv	paper	FloodNet 依赖 GitHub	用一个 MLLM 生成任务指令/CoT 指导另一个 MLLM，在 FloodNet post-disaster VQA 上研究 prompt/ICL 稳定性。
SAM + temporal VLM	Integrating segmentation and vision-language model for automated and interpretable building damage assessment from satellite imagery / BDAChat	2026 Automation in Construction	paper	GitHub	三阶段框架：改进 SAM 分割、时空配对、BDAChat temporal VLM 做对象级损毁推理和解释。
工程基线	Microsoft building damage assessment toolkit	持续维护	GitHub, CNN Siamese	GitHub	提供 xBD 类别、推理/可视化 workflow，可作为工程 baseline 与部署参考。
经典对象级变化	ChangeOS	2021 RSE, 仍是重要基线	GitHub	GitHub	深度对象级语义变化检测框架，适合作为非 foundation model 的强对照。
数据	xBD / xView2	2019-	paper, dataset index, EOTDL	baseline	主流建筑损毁数据，四级损毁标签：no damage、minor、major、destroyed；仍是少样本和跨灾种实验的核心数据。
UAV/VQA 补充	FloodNet Challenge	2021-	GitHub	GitHub	高分辨率 UAV 洪灾图像，含分类、半监督分割和 VQA，适合验证 Instruct-ICL/VLM 的灾害问答路线。

3. 方法脉络

3.1 xBD 专用模型到跨地点强基线

2024 的 xBD simple strong baseline 很重要，因为它不只是给一个模型，而是指出原 competition split 可能高估泛化能力。它把测试位置设置为训练未见区域后，复杂模型和简化模型都明显暴露跨地点弱点。这说明 RS-45 不能只做随机 split 上的 F1，而必须做 leave-event-out、leave-region-out、leave-disaster-type-out。

RS-44 Fairness of Socioeconomic Mapping with GeoFM Embeddings

Sun, 07 Jun 2026 09:43:00 +0800

RS-44 Fairness of Socioeconomic Mapping with GeoFM Embeddings

结论摘要

这个方向的关键不在于“GeoFM embedding 能不能预测财富/人口/基础设施”，而在于：这些预测误差是否会系统性落在农村、低收入、非洲/拉美、非核心城市、非正式住区、低人口密度地区，以及这些误差是否会改变政策资源排序。

2024-2026 的新变化是，社会经济遥感从手工夜光/道路/建筑 covariates 和 CNN poverty mapping，进入了 embedding-as-data 阶段：AlphaEarth Foundations 提供全球年度 10 m、64 维 embedding；PDFM/Population Dynamics Foundation Model 提供面向人口动态、健康、社会经济和环境任务的地理 embedding；Tempov 把双时相 Landsat 自监督预训练用于财富监测；Prithvi、Clay 等 Earth embeddings 也被用于城市指标预测。

但公平性风险没有自动消失。已有 poverty-map 公平性研究已经证明，卫星贫困图存在城市/农村代表性差异、系统性误差和下游资源分配影响。新一代 GeoFM embedding 反而让风险更值得研究：同一个 embedding 会被复用于很多下游任务，一旦它对某类地区编码不足，误差会被复制到人口、财富、健康、基础设施等多条政策链路。

最值得做的小课题：GeoFM 社会经济制图的 fairness-aware evaluation benchmark。它不训练一个更大模型，而是在 AlphaEarth/PDFM/Tempov/Prithvi/Clay/传统 geospatial covariates 上统一报告平均精度、分组误差、最差组误差、空间尺度错配、排序公平性和政策敏感性。

问题由来

传统 poverty/population mapping 使用 DHS/LSMS/census 等少量地面标签，结合夜间灯光、道路、建筑、土地覆盖、地形、POI、气候或移动网络数据，把区域财富、人口或基础设施指标推断到未调查区域。这个路线有三个老问题：

标签分布不均：调查点常按人口和行政区抽样，低密度农村、非正式住区、边境地区、小岛、冲突地区更少。
图像-社会经济关系非平稳：同样的屋顶、道路、农田或夜光，在不同国家/城乡/气候带代表的财富含义不同。
平均指标掩盖政策风险：一个模型整体 R² 高，但如果系统性低估农村贫困或非正式住区人口，就会影响资源分配。

GeoFM embedding 带来了更强的表征，但也引入新问题：

embedding 可能更像“建成环境相似度”，对收入、政策、社会网络、非正式经济等不可见因素弱。
预计算 embedding 有固定空间尺度，人口/财富标签常是 cluster、admin、grid、parcel、neighborhood 等多尺度混合。
多源 foundation model 可能包含搜索、移动、地图、POI 等数字行为数据，这些数据本身代表性不均。
downstream 用户容易直接训练 shallow model 并发布地图，却没有检查城市/农村、国家、收入组和空间尺度上的误差差异。

代表论文与资源

论文/项目	年份	链接	代码/数据	和公平性问题的关系
AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data	2025	arXiv, Google DeepMind blog	Earth Engine Satellite Embedding V1	全球年度 10 m、64 维 embedding，适合 sparse-label mapping；公平性要检查不同地区和社会经济组的 embedding utility。
General Geospatial Inference with a Population Dynamics Foundation Model	2024/2026 revision	arXiv	GitHub	PDFM 用 maps、busyness、search trends、weather、air quality 等构建地理 embedding，预测健康、社会经济和环境任务；需要检查数字行为数据代表性偏差。
Geospatial foundation-model embeddings improve population estimation unevenly across space and scale	2026	arXiv	未见独立代码	直接指出 PDFM embedding 对 Brazil/Nigeria/US 人口估计的收益在空间和尺度上不均，GeoFM 不能简单替代传统 covariates。
A satellite foundation model for improved wealth monitoring	2026	arXiv	arXiv 页称 open-source approach；当前需进一步核验官方 repo	Tempov 用 300 万双时相 Landsat 对自监督预训练，并用参数高效微调做财富监测；应检查 nowcast/hindcast 在国家、城乡和收入组上的误差。
Earth Embeddings Reveal Diverse Urban Signals from Space	2026	arXiv, HF paper page	未见官方代码	比较 AlphaEarth、Prithvi、Clay 预测 6 个美国都市区的 14 个 neighborhood indicators；发现跨城市表现差异明显，适合作为城市内部公平性评估参考。
Slum Detection and Density Mapping with AlphaEarth Foundations	2026	arXiv	未见官方代码	用 AlphaEarth 做 12 城市 slum classification/density；发现跨城转移和密度梯度建模仍难，说明非正式住区是公平性压力测试场景。
Fairness and representation in satellite-based poverty maps	2023	arXiv	需进一步核验	虽早于 2024，但它定义了本方向的核心问题：城市/农村代表性、系统性误差和下游政策排序影响。
Mitigating Urban-Rural Disparities in Contrastive Representation Learning with Satellite Imagery / FairDCL	2024 AIES	NSF record, arXiv	未见主 repo	用 fair dense contrastive learning 减少城市/农村表示差异；可迁移到 GeoFM embedding 的公平预训练或后处理。
SustainBench / Poverty prediction over space and time	2021 benchmark, still active	GitHub, Leaderboard, arXiv	公开 benchmark/code	不是 2024 新论文，但仍是 poverty mapping 和 SDG 任务的核心复现实验框架。
PovertyMap-WILDS	2021 benchmark, still useful	WILDS paper/data context	WILDS package	按国家和 urban/rural 定义 domain；适合最差组性能和跨国泛化评估。
WorldPop	持续更新	official	开放人口数据	传统 population mapping 强基线和辅助标签来源；其 constrained/unconstrained 选择本身影响公平性。
Global Human Settlement Layer / GHS-POP	2023/2024 atlas and updates	JRC GHSL, GHS-POP R2023A	官方数据	人口和 built-up baseline；城市/农村定义、built-up mask 和 coarse grid 会影响下游公平性。
High-resolution urban and rural settlement map of Africa	2025	Scientific Reports	论文数据需核验	10 m urban/rural settlement map，可作为非洲城乡分组和 settlement-type fairness label。

方法脉络

1. 传统 covariates + survey labels

输入包括 night lights、built-up、roads、land cover、elevation、climate、population products、POI 和 admin features；标签来自 DHS/LSMS/census/ACS 等。模型通常是 RF、GBDT、Bayesian small-area estimation、CNN 或 CNN feature + regression。

RS-43 Illegal Mining Evidence Grounding

Sun, 07 Jun 2026 09:42:00 +0800

RS-43 Illegal Mining Evidence Grounding

1. 方向概述

非法采矿，尤其是亚马逊和加纳等地区的 artisanal and small-scale gold mining，具有几个典型遥感难点：目标尺度小、形态变化快、常沿河流和道路扩散、裸土/采坑/尾矿池/临时道路/简易机场之间存在强上下文关系，同时又经常受云、阴影、季节水位和成像分辨率影响。传统做法多是二分类或语义分割：给出“这里是矿区”。但执法、新闻调查、生态评估和社区沟通需要的不只是一个 mask，而是可审计证据：模型为什么认为这里是非法采矿，变化发生在何处，相关证据是否来自裸土扩张、河道浑浊、植被损失、道路/机场/机械痕迹，答案有没有定位支撑。

因此这个细方向可以定义为：面向非法采矿/森林破坏的 evidence-grounded remote sensing interpretation。输出不只是 detection / segmentation / change mask，还包括：

证据区域：bbox、mask、polygon 或 georeferenced tile。
证据类型：裸土采坑、尾矿池、浑浊水体、临时道路、营地、机场、森林清除边界等。
时间证据：pre/post 或多时相变化描述。
置信度与不确定性：是否可能是合法矿区、自然裸地、农业开垦、河道季节变化。
可复核产物：地图图层、caption、QA、变化报告和失败案例。

2. 代表论文、数据与项目

名称	年份/来源	链接	代码/数据	对 RS-43 的价值
ELDOR: A Dataset and Benchmark for Illegal Gold Mining in the Amazon Rainforest	2026 arXiv	arXiv	论文提到 interactive explorer，官方代码需继续跟踪	目前最贴近本题的 benchmark：UAV orthomosaic、像素级 mining/ecological labels、语义分割、recognition、VLM class-presence 任务。
Amazon Mining Watch	2026 数据平台/产品	platform, Source Cooperative data	GitHub: mining-detector	Sentinel-2 泛亚马逊矿区检测产品；GitHub 说明使用 SSL4EO DINO ViT 特征 + 小型 ensemble classifier；适合做真实部署基线和地理范围评测。
SmallMinesDS: A Multimodal Dataset for Mapping Artisanal and Small-Scale Gold Mines	2025 IEEE GRSL	TUM page	HF dataset	Ghana 小规模金矿，多时相/多传感器；适合测试跨区域、跨传感器和小目标矿区分割。
EuroMineNet: A Multitemporal Sentinel-2 Benchmark for Spatiotemporal Mining Footprint Analysis	2026 ISPRS JPRS / 2025 arXiv	arXiv, ScienceDirect	GitHub	虽非“非法”主线，但提供 2015-2024 年度 mining footprint，多时相变化和 footprint tracking protocol 可迁移。
Remote Sensing Capabilities of Detecting Spatio-Temporal Dynamics in Unregulated Gold Mining Hotspots in Ecuador	2026 EGUsphere preprint	EGUsphere	使用公开数据，含 Amazon Mining Watch 引用	对“unregulated mining”真实场景评估 Sentinel / Planet / embedding 数据能力，适合做案例与验证区域。
MineCam: Segmentation and Change Detection of Mining Areas	2024 Remote Sensing	MDPI	未见官方代码	传统 segmentation + change detection baseline，可作为 VLM 证据化方案的对照。
Global High-Resolution Mining Footprints	数据产品	GEE Community Catalog	GEE 数据	全球矿区 footprint 先验，可作为弱标签、负样本过滤或合法/历史矿区背景层。
GeoChat: Grounded Large Vision-Language Model for Remote Sensing	2024 CVPR	CVF	GitHub	遥感 grounded dialogue 基线，可迁移到“指出证据区域并解释为什么像矿区”。
LHRS-Bot	2024 ECCV	project	项目页含 GitHub	VGI-enhanced 遥感 MLLM，适合探索 OSM/POI/地名/道路先验辅助但需防止文本幻觉。
Change-Agent	2024 arXiv	HF paper	GitHub	交互式变化解释：change detection、caption、counting、cause analysis；适合迁移到矿区扩张解释。
CDChat	2024/2025 IGARSS	GitHub	GitHub	遥感变化描述 MLLM；可作为 change caption baseline。
SECOND-CC / MModalCC	2025 arXiv	HF paper	GitHub planned	change captioning 数据与模型，适合借鉴多模态 change caption 数据构造。
DeltaVLM	2025 arXiv	HF paper	需继续核验	instruction-guided difference perception，把双时相变化分析做成可交互 VLM。
HiSem	2026 arXiv	arXiv	GitHub planned	层级语义解耦 change caption，可迁移到“森林损失 -> 采坑/道路/水体污染”等分层描述。
Vision-Language Agents for Interactive Forest Change Analysis	2026 arXiv	HF paper	需继续核验	直接面向 forest change 的交互式 VLM agent；适合迁移到 deforestation + mining 证据问答。
LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery	2025 arXiv	HF paper	HF page links project/GitHub	reasoning segmentation 能力可迁移到“segment mining scars / tailing ponds / disturbed riverbank”。

3. 问题由来：为什么需要 evidence grounding

3.1 从“检测矿区”到“证明矿区”

Amazon Mining Watch 这类系统已经能做大范围筛查，但现实使用者往往需要回答更细的问题：

RS-42 Wildfire Mapping with GeoFM LoRA

Sun, 07 Jun 2026 09:41:00 +0800

RS-42 Wildfire Mapping with GeoFM LoRA

细问题：面向 wildfire / burn scar / burn severity mapping，如何用低样本、参数高效的 GeoFM adapter/LoRA 适配 Prithvi、TerraMind、DINOv3、AlphaEarth 等遥感基础模型，并处理 pre/post-fire 光学影像、云烟干扰、不确定性和跨地区泛化。

1. 方向判断

Wildfire mapping 的经典路线是 NBR/dNBR、BAIS2、阈值、随机森林、U-Net/Siamese U-Net、ChangeFormer 一类变化检测模型。2024-2026 的新变化是：基础模型开始进入真正可复现的 wildfire 任务，而不只是“拿 Prithvi 做一个示例”。其中最直接的锚点是 2026 IGARSS 论文 Low-Rank Adaptation of Geospatial Foundation Models for Wildfire Mapping Using Sentinel-2 Data，其官方代码为 alishibli97/wildfire-lora-gfm。

这个方向的研究价值不在于“再做一个烧毁区分割模型”，而在于回答一个更窄的问题：在地理、时间、生态区和传感器条件都变化的情况下，LoRA/adapter 是否比 full fine-tuning 或 decoder-only fine-tuning 更稳，尤其是在小样本事件、云烟遮挡、火后恢复阶段、跨国家/跨生态区泛化时。

2. 问题由来

火烧迹地是典型的 bi-temporal change problem。单张 post-fire 影像容易把裸土、采伐地、阴影、火山/矿区等误判为 burned area；pre-fire/post-fire 差分能增强变化信号，但也会引入季节、物候、云影、观测角和配准误差。
标签天然有噪声。USGS BARC 数据说明 burn severity 产品通常基于 pre/post-fire 的 dNBR，并且阈值需要 BAER 团队结合现场观察调整；这意味着 severity label 在生态区边界和低/中 severity 类别上并不是绝对真值。
跨地区泛化比随机切分难得多。2026 LoRA-GFM 论文使用美国和加拿大 2017-2023 的 3,820 个 wildfire events，并做 spatial/temporal generalization tests；这是该方向从“局部案例”走向“域泛化问题”的关键。
GeoFM 的预训练知识有用，但灾害任务需要强适配。Prithvi-EO-2.0 预训练于 HLS 全球时间序列，并引入 temporal/location embeddings；这对 wildfire 这种多时相任务很友好，但仍需解决任务头、差分建模和不确定性。

3. 代表论文、模型、数据与代码

项目	年份/venue	链接	与本方向的关系
Low-Rank Adaptation of Geospatial Foundation Models for Wildfire Mapping Using Sentinel-2 Data	2026 IGARSS / arXiv	paper, GitHub	直接比较 TerraMind、DINOv3、Prithvi-v2 的 full fine-tuning、decoder-only fine-tuning、LoRA；官方 README 显示包含 FPN adapter、UPerNet decoder、spatio-temporal splits、sliding-window full-fire inference、IoU/F1 和 fire-size summaries。
Prithvi-EO-2.0	2024 arXiv, 2026 revised	paper, GitHub	多时相 HLS GeoFM。论文摘要称其使用 4.2M 全球 HLS time-series samples，并提供 Hugging Face、TerraTorch 与 GitHub 资源；适合作为 wildfire LoRA 主干。
Prithvi EO 2.0 Burn Scar Severity Detection	2024/2025 HF model card	model, dataset	一个可直接运行的 Prithvi burn scar severity demo。输入为 pre-fire、post-fire、delta 三帧，6 个 Sentinel-2 band，输出 5 类 severity。模型卡自报 macro F1 从 0.116 提升到 0.622，但其限制也明确：单一北加州 wildfire 事件、云烟未评估、20m 分辨率可能漏细节。
HLS Burn Scars Dataset	HF dataset	dataset	HLS 2018-2021 CONUS burn scar segmentation，804 个 512x512 scenes，6 个 band，540 train / 264 validation；适合最小复现实验和 adapter sanity check。
AlphaEarth Foundations	2025 arXiv / Google DeepMind	paper, blog	64 维年度 embedding field，面向 sparse labels 的 global mapping。更适合做 linear probe / shallow adapter / sparse-label baseline，而不是端到端 LoRA。可用于 wildfire 小样本或跨区迁移对照。
Burned Area Reflectance Classification (BARC) Thematic Burn Severity Mosaic	2025 USGS data release	USGS catalog	权威 severity label 来源之一。基于 Landsat/Sentinel pre/post-fire dNBR，但官方说明 severity 与 canopy/understory/soil effects 相关，且阈值需与现场观测调整，因此很适合讨论标签不确定性。
SAFE: Segmentation of Any Fire Event	2025 Remote Sensing	paper	训练自由路线：结合 SAM、MODIS/VIIRS hotspot、Sentinel-2 指数两步定位 burned area，并可生成高分辨率数据再训练区域模型。适合作为伪标签或半自动标注对照。
California Wildfire GeoImaging Dataset (CWGID)	2024 arXiv	paper	构建 10 万+ before/after Sentinel-2 image pairs，用于 wildfire detection；偏分类/检测而非高精度 burn mask，但可用于预训练或事件级检索。
Faster, better, and more accurate mapping of burned areas using Sentinel-2 multispectral images	2025 RSE	ScienceDirect	MSR-BACD 路线：全球大规模正负样本、pre/post Sentinel-2、candidate-based inference。可作为强监督专用模型 baseline。
TransFireNet	2025 Remote Sensing Letters	publisher	bi-temporal Sentinel-2 burn severity estimation，45 个 European wildfire events；适合作为非 GeoFM 的 burn severity baseline。

4. 方法脉络比较

4.1 指数与阈值

NBR/dNBR、BAIS2、NDVI/NDWI 等指数可解释、低成本、部署简单，但跨生态区阈值不稳，对云影、裸土、采伐、湿地和季节变化敏感。BARC 的说明很适合用来支撑一个观点：severity label 不是纯影像数学事实，而是遥感指数、生态效应和现场知识的折中。

RS-41 Phenology-Aware Crop Foundation Models

Sun, 07 Jun 2026 09:40:00 +0800

RS-41 Phenology-Aware Crop Foundation Models

摘要

作物识别的关键不是某一天的影像，而是作物在一个生长季中的物候轨迹。2024-2026 的作物遥感研究从传统 Sentinel-2 time series 分类，走向 multi-source temporal foundation model、region-adaptive phenology、WorldCereal 实际部署和 AgriFM。最有价值的小问题是：如何让 foundation model 学到“可迁移的物候阶段”，而不是记住某地区某年的日历日期。

问题由来

同一种作物在不同纬度、海拔、管理制度和气候年份下，播种、返青、抽穗、成熟和收获时间都会偏移。模型若用固定 day-of-year 作为强特征，很容易跨年份或跨区域失效。物候感知模型需要处理不规则时间采样、云导致的缺测、多源传感器和作物生长阶段对齐。

代表论文与项目

工作	年份	链接	价值
Self-supervised pre-training for large-scale crop mapping using Sentinel-2 time series	2024	ScienceDirect	大规模 S2 时序自监督作物制图。
Temporally transferable crop mapping with temporal encoding and augmentations	2024	ScienceDirect	使用 temporal encoding 和 day shifting 提升跨年份迁移。
AgriFM	2025	arXiv	多源时序 crop mapping foundation model，强调多尺度时空模式。
Deploying GFMs in the Real World: WorldCereal	2025	arXiv	用 Presto 等模型讨论真实作物制图部署难点。
Region-Adaptive Phenology-Aware Network	2025	MDPI	区域自适应物候网络，强调跨区域泛化。
Benchmarking FMs for hyperspectral crop type mapping	2025	arXiv	将 foundation model 用于 cereal crop type mapping。
FLORO	2026	arXiv	生态遥感 across sensors/scales，可迁移到农业生态任务。

方法脉络

时间编码：day-of-year、month、season embedding。
物候增强：random day shifting、temporal cropping、cloud gap simulation。
阶段对齐：用 NDVI/EVI 曲线估计生长阶段，再让模型按阶段而非日期聚合。
多源时序：Sentinel-2、Landsat/HLS、SAR 可选、气象和地块先验共同建模；本系列默认光学/多光谱优先。
foundation model 适配：Presto、Prithvi、AgriFM、Galileo 等作为时序基座。

当前问题

日历日期和物候阶段混淆。
云缺测导致关键阶段观测不足。
作物标签跨区域定义不一致。
多年、多地、多传感器 benchmark 不统一。
foundation model 在真实部署中仍需要区域微调。

可执行研究方案

题目：Phenology-Phase Adapter for Crop Foundation Models