RS-44 Fairness of Socioeconomic Mapping with GeoFM Embeddings

Series - 2024-2026 遥感 AI 细分研究方向

RS-44 Fairness of Socioeconomic Mapping with GeoFM Embeddings

这个方向的关键不在于“GeoFM embedding 能不能预测财富/人口/基础设施”,而在于:这些预测误差是否会系统性落在农村、低收入、非洲/拉美、非核心城市、非正式住区、低人口密度地区,以及这些误差是否会改变政策资源排序。

2024-2026 的新变化是,社会经济遥感从手工夜光/道路/建筑 covariates 和 CNN poverty mapping,进入了 embedding-as-data 阶段:AlphaEarth Foundations 提供全球年度 10 m、64 维 embedding;PDFM/Population Dynamics Foundation Model 提供面向人口动态、健康、社会经济和环境任务的地理 embedding;Tempov 把双时相 Landsat 自监督预训练用于财富监测;Prithvi、Clay 等 Earth embeddings 也被用于城市指标预测。

但公平性风险没有自动消失。已有 poverty-map 公平性研究已经证明,卫星贫困图存在城市/农村代表性差异、系统性误差和下游资源分配影响。新一代 GeoFM embedding 反而让风险更值得研究:同一个 embedding 会被复用于很多下游任务,一旦它对某类地区编码不足,误差会被复制到人口、财富、健康、基础设施等多条政策链路。

最值得做的小课题:GeoFM 社会经济制图的 fairness-aware evaluation benchmark。它不训练一个更大模型,而是在 AlphaEarth/PDFM/Tempov/Prithvi/Clay/传统 geospatial covariates 上统一报告平均精度、分组误差、最差组误差、空间尺度错配、排序公平性和政策敏感性。

传统 poverty/population mapping 使用 DHS/LSMS/census 等少量地面标签,结合夜间灯光、道路、建筑、土地覆盖、地形、POI、气候或移动网络数据,把区域财富、人口或基础设施指标推断到未调查区域。这个路线有三个老问题:

  • 标签分布不均:调查点常按人口和行政区抽样,低密度农村、非正式住区、边境地区、小岛、冲突地区更少。
  • 图像-社会经济关系非平稳:同样的屋顶、道路、农田或夜光,在不同国家/城乡/气候带代表的财富含义不同。
  • 平均指标掩盖政策风险:一个模型整体 R² 高,但如果系统性低估农村贫困或非正式住区人口,就会影响资源分配。

GeoFM embedding 带来了更强的表征,但也引入新问题:

  • embedding 可能更像“建成环境相似度”,对收入、政策、社会网络、非正式经济等不可见因素弱。
  • 预计算 embedding 有固定空间尺度,人口/财富标签常是 cluster、admin、grid、parcel、neighborhood 等多尺度混合。
  • 多源 foundation model 可能包含搜索、移动、地图、POI 等数字行为数据,这些数据本身代表性不均。
  • downstream 用户容易直接训练 shallow model 并发布地图,却没有检查城市/农村、国家、收入组和空间尺度上的误差差异。
论文/项目年份链接代码/数据和公平性问题的关系
AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data2025arXiv, Google DeepMind blogEarth Engine Satellite Embedding V1全球年度 10 m、64 维 embedding,适合 sparse-label mapping;公平性要检查不同地区和社会经济组的 embedding utility。
General Geospatial Inference with a Population Dynamics Foundation Model2024/2026 revisionarXivGitHubPDFM 用 maps、busyness、search trends、weather、air quality 等构建地理 embedding,预测健康、社会经济和环境任务;需要检查数字行为数据代表性偏差。
Geospatial foundation-model embeddings improve population estimation unevenly across space and scale2026arXiv未见独立代码直接指出 PDFM embedding 对 Brazil/Nigeria/US 人口估计的收益在空间和尺度上不均,GeoFM 不能简单替代传统 covariates。
A satellite foundation model for improved wealth monitoring2026arXivarXiv 页称 open-source approach;当前需进一步核验官方 repoTempov 用 300 万双时相 Landsat 对自监督预训练,并用参数高效微调做财富监测;应检查 nowcast/hindcast 在国家、城乡和收入组上的误差。
Earth Embeddings Reveal Diverse Urban Signals from Space2026arXiv, HF paper page未见官方代码比较 AlphaEarth、Prithvi、Clay 预测 6 个美国都市区的 14 个 neighborhood indicators;发现跨城市表现差异明显,适合作为城市内部公平性评估参考。
Slum Detection and Density Mapping with AlphaEarth Foundations2026arXiv未见官方代码用 AlphaEarth 做 12 城市 slum classification/density;发现跨城转移和密度梯度建模仍难,说明非正式住区是公平性压力测试场景。
Fairness and representation in satellite-based poverty maps2023arXiv需进一步核验虽早于 2024,但它定义了本方向的核心问题:城市/农村代表性、系统性误差和下游政策排序影响。
Mitigating Urban-Rural Disparities in Contrastive Representation Learning with Satellite Imagery / FairDCL2024 AIESNSF record, arXiv未见主 repo用 fair dense contrastive learning 减少城市/农村表示差异;可迁移到 GeoFM embedding 的公平预训练或后处理。
SustainBench / Poverty prediction over space and time2021 benchmark, still activeGitHub, Leaderboard, arXiv公开 benchmark/code不是 2024 新论文,但仍是 poverty mapping 和 SDG 任务的核心复现实验框架。
PovertyMap-WILDS2021 benchmark, still usefulWILDS paper/data contextWILDS package按国家和 urban/rural 定义 domain;适合最差组性能和跨国泛化评估。
WorldPop持续更新official开放人口数据传统 population mapping 强基线和辅助标签来源;其 constrained/unconstrained 选择本身影响公平性。
Global Human Settlement Layer / GHS-POP2023/2024 atlas and updatesJRC GHSL, GHS-POP R2023A官方数据人口和 built-up baseline;城市/农村定义、built-up mask 和 coarse grid 会影响下游公平性。
High-resolution urban and rural settlement map of Africa2025Scientific Reports论文数据需核验10 m urban/rural settlement map,可作为非洲城乡分组和 settlement-type fairness label。

输入包括 night lights、built-up、roads、land cover、elevation、climate、population products、POI 和 admin features;标签来自 DHS/LSMS/census/ACS 等。模型通常是 RF、GBDT、Bayesian small-area estimation、CNN 或 CNN feature + regression。

优点是变量物理含义清楚,便于解释 group error。缺点是特征工程重、跨国 harmonization 难、对 informal settlement 和 rural heterogeneity 不够敏感。

公平性风险:如果模型主要依赖夜光或道路,它可能低估无电、非正式、农村或低收入地区的真实人口/贫困。

代表:AlphaEarth embedding、Prithvi/Clay embedding、Satlas/SatCLIP features。常见做法是对 grid/neighborhood/admin 单元聚合 embedding,然后训练 linear model、GBDT、RF、MLP。

优点是数据准备成本低,跨任务复用强,特别适合 sparse labels。缺点是 embedding 的语义黑箱,且可能强烈绑定预训练尺度和输入数据分布。

公平性风险:平均 R² 提升可能来自城市或建成环境强相关区域;农村、低收入、非正式住区、低密度地区的误差可能没有改善。

代表:PDFM 和 Tempov。PDFM 融合地图、busyness、search trends、天气/空气质量等人群动态数据;Tempov 直接面向 wealth monitoring,使用双时相 Landsat 自监督预训练再参数高效微调。

优点是目标更接近社会经济任务。缺点是如果输入含数字行为或平台数据,代表性偏差更复杂;如果只用 Landsat,很多不可见的社会制度、价格、政策和服务质量仍然难从影像推断。

公平性风险:模型可能在数据丰富、手机/搜索行为代表性强、城市形态标准化地区更准,在边缘群体和低连接地区更差。

4. Fairness-aware representation / post-hoc evaluation

代表:FairDCL 和 satellite poverty-map fairness 研究。它们的核心启发是:遥感社会经济模型不能只报告平均准确率,要显式检查 group-wise error、representation distance、policy ranking effects。

对 GeoFM 的迁移方式:

  • 对 frozen embedding 做 group-wise utility audit。
  • 对 embedding 做 domain adversarial/fair contrastive debiasing。
  • 对 downstream head 做 group reweighting 或 distributionally robust optimization。
  • 对最终地图做 policy simulation:资源按预测值排序时,哪些群体被系统性漏掉。

建议把公平性分为四层,而不是只用一个 fairness metric。

目标:不同群体的 embedding 是否同样有用,而不是同样分布。

可报告:

  • group-wise linear probe R² / MAE / RMSE。
  • embedding kNN coverage:每个测试点最近邻训练样本是否来自同国家/城市/城乡。
  • representation drift:不同国家、城市、rural/urban、收入分位的 embedding 分布距离。
  • label-conditional alignment:同一财富/人口区间内,不同群体 embedding 是否偏移。

目标:不同群体误差是否系统性不均。

可报告:

  • group MAE/RMSE/MAPE/R²。
  • worst-group MAE 和 worst-group R²。
  • error parity gap:max(group_error) - min(group_error)
  • signed bias:mean(y_pred - y_true),区分系统性高估/低估。
  • income-quantile error:最低 20% 和最高 20% 的误差差距。

目标:误差是否集中在特定空间结构。

可报告:

  • Moran’s I of residuals。
  • spatial block residual map。
  • urban/rural/peri-urban/remote settlement strata。
  • scale transfer gap:cluster -> grid、admin2 -> grid、county -> ZIP、city -> block group。
  • density-conditioned error:按人口密度、building density、night-light intensity 分组。

目标:模型误差是否改变资源分配。

可报告:

  • top-k targeting recall:真正最贫困/最缺基础设施区域有多少进入预测 top-k。
  • group allocation share gap:资源预算按预测分配后,各群体获得比例与真实需要比例差异。
  • false exclusion rate:需要援助却没被模型选中的区域比例。
  • ranking swap rate:真实排名相近区域因模型误差发生排序翻转的比例。
  • budget sensitivity curve:预算从 top 5% 到 top 30% 时不同群体覆盖率变化。

目标:评估 GeoFM embedding 对 population estimation 的收益是否跨国家、城乡和尺度稳定。

数据:

  • 标签:WorldPop、GHSL/GHS-POP、国家 census/admin counts,或 PDFM population estimation paper 的 Brazil/Nigeria/US 设置。
  • 特征:AlphaEarth annual embedding、PDFM embedding、传统 covariates、night lights、built-up、roads、land cover。
  • 分组:country、admin level、urban/rural、population density quintile、settlement type、income proxy。

模型:

  • Covariates + GBDT。
  • AlphaEarth embedding + GBDT/MLP。
  • PDFM embedding + GBDT/MLP。
  • Covariates + embedding hybrid。

评价:

  • 平均 R²/KL divergence/MAE。
  • worst-country、worst-urbanicity、worst-density-bin error。
  • scale transfer:训练 admin2,测试 grid/admin3;训练 grid,聚合到 admin。

目标:评估 wealth prediction 模型是否在城乡、国家、收入分位、时间 shift 下公平。

数据:

  • 标签:DHS/LSMS asset wealth index、SustainBench poverty over space/time、PovertyMap-WILDS、Tempov wealth monitoring 论文设置。
  • 特征:Landsat/Sentinel imagery、AlphaEarth embedding、Tempov/Prithvi/Clay features、night lights、mobile/connectivity features 如果可用。
  • 分组:country、urban/rural、wealth quintile、survey year、region、HDI/income group。

模型:

  • CNN/ResNet poverty baseline。
  • SustainBench/WILDS baseline。
  • AlphaEarth + RF/GBDT。
  • Tempov-style PEFT。
  • Hybrid covariates + embeddings。

评价:

  • Pearson r/R²/MAE。
  • underestimation bias for poorest quintile。
  • rural false exclusion rate in top-poverty targeting。
  • temporal fairness:训练旧年份,nowcast 到新年份时的 group error。

目标:检查 Earth embeddings 预测收入、健康、交通、犯罪、基础设施等指标时,哪些指标和城市群体更不公平。

数据:

  • 标签:ACS/census tract/block group、city open data、health burden、commute mode、income、infrastructure access。
  • 特征:AlphaEarth、Prithvi、Clay embeddings,POI/road/transit covariates。
  • 分组:city、race/ethnicity composition proxy、income quintile、urban form cluster、central/peripheral、transit access。

模型:

  • city-wise model。
  • global multi-city model。
  • leave-one-city-out model。
  • city-year transfer model。

评价:

  • group-wise R²/MAE。
  • city transfer gap。
  • protected-attribute proxy error gap。
  • indicator visibility score:指标是否主要由 built environment 决定。

目标:把 slum/informal settlement 作为 GeoFM fairness 的压力测试。

数据:

  • AlphaEarth slum detection paper 的 12 城市设置。
  • GRAM pseudo masks、slum/informal settlement local labels、OpenStreetMap/POI auxiliary features。
  • 分组:city、region、slum density、urban core/periphery、label source quality。

模型:

  • AlphaEarth + RF/GBDT/MLP。
  • AlphaEarth + POI/road/building features。
  • Prithvi/Clay features if available。

评价:

  • spatial block F1。
  • positive-pixel density R²。
  • cross-city transfer F1。
  • low-density slum recall。
  • full-AOI spatial consistency。

第一版可以只做三个公开可得程度高的组合:

  1. SustainBench/PovertyMap-WILDS + AlphaEarth/传统 covariates

    • 目标:复现 poverty prediction over space。
    • 分组:country x urban/rural。
    • 重点指标:worst-group MAE、poorest-quintile underestimation、top-k targeting recall。
  2. PDFM population estimation audit

    • 目标:复现或近似 2026 PDFM population paper 的 Brazil/Nigeria/US 对比。
    • 分组:country、admin scale、density bin。
    • 重点指标:scale transfer gap、embedding-vs-covariate complementarity。
  3. Urban indicator benchmark with AlphaEarth/Prithvi/Clay

    • 目标:参考 Earth Embeddings Reveal Diverse Urban Signals 的 6-city setting。
    • 分组:city、income quintile、central/peripheral。
    • 重点指标:leave-one-city-out R²、low-income neighborhood MAE、indicator visibility score。

FairGeoSE: Fairness-Aware Evaluation of Geospatial Foundation Embeddings for Socioeconomic Mapping

GeoFM embeddings 能提升社会经济制图平均性能,但收益在空间、尺度和社会群体之间不均;将 embedding 与传统 physically grounded covariates 结合,并采用 fairness-aware validation,比单独使用 embedding 更稳。

  1. 统一数据卡

    • 每个样本记录坐标、时间、label source、spatial support、urban/rural、income quintile、country、settlement type、population density。
  2. 多表征基线

    • Traditional covariates。
    • AlphaEarth embedding。
    • PDFM embedding。
    • Prithvi/Clay embedding。
    • Hybrid covariates + embeddings。
  3. 公平性评估器

    • 自动生成 group-wise metrics。
    • 输出 residual spatial autocorrelation。
    • 输出 top-k resource allocation simulation。
    • 输出 scale transfer matrix。
  4. 轻量修正策略

    • Group reweighting。
    • Spatial block balanced sampling。
    • Hybrid stacking with interpretable covariates。
    • Conformal prediction by group。
  • 一个面向 GeoFM 社会经济制图的公平性评估协议。
  • 一个可复现的多任务 benchmark:population、wealth、urban indicators。
  • 一个结论清楚的实证发现:embedding 在哪些群体和尺度上有效,在哪些地方需要传统 covariates 或校准。
  • 一个可落地工具:给地图发布者生成 fairness report card。
维度设置
任务population estimation, wealth prediction, neighborhood indicator prediction, slum/informal settlement mapping
特征traditional covariates, AlphaEarth, PDFM, Prithvi, Clay, Tempov where available, hybrid
模型linear/ridge, RF, LightGBM/XGBoost, MLP, PEFT if model weights available
切分random, spatial block, leave-country-out, leave-city-out, leave-year-out, leave-scale-out
分组urban/rural, country, income quintile, density quintile, city core/periphery, settlement type
平均指标R², Pearson r, MAE, RMSE, KL divergence for population distribution
公平指标worst-group error, error parity gap, signed bias, false exclusion rate, top-k targeting recall
空间指标residual Moran’s I, spatial block error map, scale transfer gap
政策指标allocation share gap, budget sensitivity curve, ranking swap rate
  • 城市高分、农村低分:道路、夜光、建筑特征在城市更强,农村贫困和农业收入更难从影像看出。
  • 富裕区高估、贫困区低估:模型学习到 built-up density 或道路质量,但无法识别拥挤、非正式就业、租房压力。
  • 跨国失效:相同物理形态在不同国家代表的财富水平不同。
  • 尺度错配:10 m embedding 聚合到 admin unit 后有用,但从 admin label 反推 grid-level poverty 时不可靠。
  • 数字行为偏差:PDFM 类模型中的 search/busyness 数据可能低估低连接人群。
  • 非正式住区漏检:slum 的视觉形态和本地政策定义差异大,跨城市迁移弱。
  • 政策排序翻转:平均误差不大,但 top-k 最贫困地区排序不稳定,影响资源分配。
  1. Group-aware GeoFM embedding audit

    • 不改模型,只审计 AlphaEarth/PDFM/Prithvi/Clay 在不同群体上的 utility。
  2. Embedding + covariate complementarity

    • 研究何时传统 covariates 比 embedding 更公平,何时 hybrid 最稳。
  3. Conformal poverty maps

    • 不只给点估计,而给 group-calibrated prediction interval。
  4. Policy-simulation benchmark

    • 将模型误差直接转化为资源分配结果,评估地图是否会漏掉弱势群体。
  5. Fair contrastive adaptation for GeoFM

    • 借鉴 FairDCL,对 frozen embedding 或 adapter 做城市/农村、国家、收入组去偏。
  6. Spatial support-aware learning

    • 显式建模 label 的空间支持范围,降低 cluster/admin/grid 混用造成的不公平。
  7. Informal settlement as stress test

    • 用 slum/informal settlement mapping 测试 GeoFM 是否能捕捉社会经济弱势区域,而不只是美观的建成环境。
  1. Fairness and representation in satellite-based poverty maps
  2. Mitigating Urban-Rural Disparities in Contrastive Representation Learning with Satellite Imagery
  3. General Geospatial Inference with a Population Dynamics Foundation Model
  4. Geospatial foundation-model embeddings improve population estimation unevenly across space and scale
  5. A satellite foundation model for improved wealth monitoring
  6. Earth Embeddings Reveal Diverse Urban Signals from Space
  7. Slum Detection and Density Mapping with AlphaEarth Foundations
  8. AlphaEarth Foundations and Satellite Embedding V1
  9. SustainBench
  10. WorldPop and GHSL

Related Content

评论