2024-2026 - Tag - 堂堂一跑堂

RS-05 AlphaEarth/Prithvi Embeddings for Small-Area LoRA

Sun, 07 Jun 2026 09:04:00 +0800

RS-05 AlphaEarth/Prithvi Embeddings for Small-Area LoRA

结论摘要

这个方向最值得做的不是“再证明 foundation model 有用”，而是做一个严格、可复现、成本可控的比较：同样的小区域标签预算下，公开 embedding、冻结编码器、轻量 adapter/LoRA、decoder-only 和 full fine-tuning 到底谁更稳，尤其在跨区域、跨年份、跨生物群区、跨城市形态时谁掉得少。

关键边界：

AlphaEarth Foundations 当前主要以 Google Satellite Embedding 数据集形式开放：10 m、年度、64 维、2017-2024 的全球 embedding layers，适合做 frozen embedding + classifier/head，不适合直接对模型本体做 LoRA。
Prithvi-EO-2.0、Clay、SatlasPretrain 是更适合做参数高效微调的 open model/backbone 路线。Prithvi-EO-2.0 官方 GitHub 已提供 TerraTorch 下游任务配置，TerraTorch 也明确支持 Prithvi、TerraMind、SatMAE、Satlas、DOFA、Clay 等 backbone。
小区域制图的核心问题是“局部标签少 + 空间自相关强 + 区域外泛化难”。随机划分会虚高；必须做 spatial block、leave-region、leave-year、leave-biome 或 leave-city 测试。

问题由来

传统遥感制图依赖人工特征、光谱指数、随机森林或任务专用深度网络。它们在本地标签足够、同分布测试时表现不错，但迁移到新的城市、农田制度、火烧迹地、气候带或传感器组合时往往需要重新标注。GeoFM 的承诺是：用大规模未标注 EO 数据预训练出通用表示，再用很少的本地标签快速制图。

2024-2026 出现了两条明显路线：

Embedding-as-data：AlphaEarth 把多源 EO 信息压成年度 embedding field。用户在 Earth Engine 或 GCS 中读取 64 维 embedding，再训练线性模型、树模型、MLP 或轻量空间头。
Open-backbone fine-tuning：Prithvi、Clay、SatlasPretrain 等提供模型权重和代码，用户可以做 frozen linear probe、decoder-only、adapter、LoRA 或 full fine-tuning。

这两条路线目前缺一个公平实验：在同样标签预算、同样 spatial split、同样任务指标下比较“公开 embedding + 轻量 head”和“可微调 backbone + LoRA/adapter”。

RS-04 Geo-Temporal Embedding for Foundation Models

Sun, 07 Jun 2026 09:03:00 +0800

RS-04 Geo-Temporal Embedding for Foundation Models

1. 执行摘要

2024-2026 的 GeoFM 正在从“只看像素”转向“像素 + 传感器 + 时间 + 地理位置 + 生态/气候上下文”的条件化表示。这个方向的关键不只是把经纬度和日期塞给模型，而是要回答：模型是否学到了可迁移的地理时间规律，还是只是记住某个地方常见什么地物。

目前可以把方法分成五类：

类别	做法	代表	优点	风险
显式连续元数据 embedding	对 lat/lon、week/hour、GSD、wavelength 做数值归一化后编码	Clay, Prithvi-EO-2.0	工程直接、适合下游 adapter	容易让模型记地理偏置
离散 token 化	将经纬度/时间/模态等转成离散 token，与图像 token 一起预训练	TerraMind	适合任意模态生成和 token-level 推理	token 粒度影响很大，坐标离散会损失连续空间关系
时空统一检索空间	把图像、位置、时间映射到同一 embedding space	TIGeR, GT-Loc	可做 geolocation、time prediction、geo-time retrieval	主要来自自然图像/街景，迁移到卫星需处理俯视和传感器差异
年度/时序 embedding field	生成每年每个像元的地表 embedding	AlphaEarth Foundations, Tessera	适合全球制图和时间序列监测	模型内部不可控，可能隐藏空间不公平性
采样/benchmark 层面的地理时间控制	用 spatial/temporal split、生态区覆盖、跨年评测控制偏差	EarthShift, PANGAEA, SSL4EO-S12 v1.1	可验证泛化	不是模型结构，不能单独提升能力

核心研究机会：提出一个 Geo-Time Conditional Adapter (GTCA)，在冻结 GeoFM backbone 的前提下，只用轻量模块注入经纬度、年内时间、年份、气候区和 GSD，并通过反偏置训练约束避免“坐标捷径”。

RS-03 GSD-Aware GeoFM Adapter

Sun, 07 Jun 2026 09:02:00 +0800

RS-03 GSD-Aware GeoFM Adapter

目标：研究遥感 foundation model 如何显式利用 GSD/分辨率作为连续条件；比较 ScaleEarth、SkySense、Prithvi-EO-2.0、AlphaEarth、GeoFM/AnySat/Clay/Galileo 中的尺度处理方式；设计一个只引入轻量 adapter/LoRA 的 GSD-aware 下游适配方法，并给出分类、分割、检测三个任务的实验矩阵。

1. 问题由来

GSD, ground sample distance，决定一个像素对应地面的真实长度。遥感模型如果只看 resize 后的 patch，很容易把“像素尺度”误当成“真实尺度”：同样 224 x 224 的输入，在 0.3 m 航空影像中可能覆盖一个街区，在 10 m Sentinel-2 中可能覆盖数平方公里。自然图像 VFM 常把尺度变化当成数据增强问题，但遥感中尺度本身包含任务语义：

建筑、车辆、飞机、船舶等目标的真实尺寸范围相对稳定，GSD 决定它们在图像中的像素大小。
land cover / crop / ecological mapping 中，GSD 影响 mixed pixel、边界模糊、纹理可见性和类别层级。
多源训练常把 Sentinel-2、Landsat、NAIP、VHR aerial、Planet、commercial imagery 放在一起，如果模型不知道 GSD，跨传感器泛化会出现隐性偏差。
下游 benchmark 常把图像统一 resize 到固定输入大小，这会抹掉真实地理尺度，导致模型在跨分辨率测试时不稳。

因此，GSD-aware adapter 的核心不是“把分辨率写进 prompt”，而是让模型在特征变换、attention、adapter/LoRA 参数或 decoder 中连续地感知地面尺度。

2. 代表工作与尺度处理方式

工作	年份/来源	链接	官方代码/模型	尺度/GSD 处理	对 RS-03 的启发
ScaleEarth	2026 arXiv	arXiv	公开检索未确认官方代码	将 GSD 作为连续尺度条件，用 Hyper-LoRA 动态生成/调节 VLM 参数，并构建 GeoScale-VQA 来测尺度理解	直接证明“连续 GSD 条件 + LoRA”是可行题眼；可从 VLM 扩到分类/分割/检测
SkySense	2024 CVPR	CVF	GitHub	多模态、多时相、大规模预训练，覆盖不同遥感源；主要通过数据规模和任务头吸收尺度差异	强基线，但尺度是隐式学习；适合做 frozen backbone + GSD adapter 对照
SkySense V2	2025 ICCV/arXiv	arXiv	GitHub org	多模态统一模型；面向多任务、多传感器，多分辨率问题更多通过统一表征处理	可作为多源 GeoFM 基线，检查显式 GSD 条件是否还能带来收益
Prithvi-EO-2.0	2024 arXiv / IBM-NASA	arXiv	GitHub, Hugging Face	基于 HLS/Sentinel-Landsat 系列，多时相 30 m 级数据；包含时间/位置相关设计，但训练尺度相对集中	适合作为 30 m 多时相基座，测试 adapter 是否能迁移到 10 m/1 m/VHR
AlphaEarth Foundations	2025 Google/DeepMind	Google Research, Nature	Earth Engine dataset	生成年度 10 m 卫星 embedding field；尺度固定在产品网格，但融合多源信息	不是常规可微调开源 backbone；更适合作为 10 m embedding baseline 或 teacher
AnySat	2025 CVPR Highlight	CVF	GitHub	明确面向 many resolutions, scales, modalities；使用 scale-adaptive encoder/JEPA 类训练	很适合对照“结构内建多尺度”与“外接轻量 GSD adapter”
Clay v1.5	2024-2025 open model	docs	GitHub	支持多传感器、任意尺寸和多波段输入，工程接口通常保留 metadata	适合作为工程可复现实验基线，测试 metadata-driven adapter
Galileo	2025	GitHub	GitHub	多模态 EO 表征，关注不同遥感模态和局部/全局特征	可以作为多任务、多源基线；尺度条件需要查具体输入 metadata
PANGAEA	2024-2025 benchmark	Project, GitHub	GitHub	覆盖多任务、多区域、多分辨率/模态，是比较 GeoFM 的好平台	适合作为统一 benchmark 框架，避免只在单一 GSD 数据集上过拟合
EarthShift	2026 arXiv	arXiv, Project	项目页	真实世界 distribution shift benchmark，包含空间/时间/尺度/传感器偏移	可作为跨 GSD/跨传感器 robustness 验证的补充

3. 方法脉络

3.1 隐式尺度学习

SkySense、Prithvi、Clay、Galileo 等主要依赖大规模多源预训练，让模型从数据中隐式吸收尺度差异。这类方法优点是简单，缺点是模型可能把传感器、地域、类别和 GSD 纠缠起来。例如 10 m Sentinel-2 中“城市纹理”与 0.3 m NAIP 中“建筑轮廓”不是同一层级语义，统一 resize 后模型容易学到 dataset shortcut。

RS-02 GeoFM Benchmark Leakage Audit

Sun, 07 Jun 2026 09:01:00 +0800

RS-02 GeoFM Benchmark Leakage Audit

研究问题：geospatial foundation model 评测中的训练-测试泄漏如何影响 SOTA，尤其是地理区域重叠、时间重叠、同源瓦片、下游数据被预训练数据覆盖四类问题。本文面向光学/多光谱遥感优先，方法也可用于多模态 GeoFM；涉及 SAR 的模型只作为评测设置参考。

1. 问题由来

GeoFM 的预训练数据通常来自全球尺度 Sentinel-2、Landsat、NAIP、航空影像、气象/地理辅助数据和公开下游数据集合并。模型越大，越容易出现一个尴尬问题：下游 benchmark 的测试图像、相邻瓦片、同一 Sentinel/Landsat scene、同一年同一区域影像，可能已经在预训练中出现过。

这会让 SOTA 被高估，尤其在以下场景中：

地理区域重叠：训练或预训练见过同一城市、同一农田地块、同一灾区附近区域，测试看似独立但空间自相关很强。
时间重叠：测试年份、季节或灾害前后影像被预训练覆盖，模型可能记住局部地物状态，而不是真正泛化。
同源瓦片泄漏：大幅影像被切成 patch 后随机划分，训练/测试 patch 共享同一 parent scene 或 mosaic。
下游数据覆盖：模型预训练直接使用了下游 benchmark 的影像、标签衍生产品、caption/QA 或同源公开数据。

2024-2026 的趋势是：PANGAEA、PhilEO Bench、Copernicus-Bench、GEOBench-VLM 等开始统一评测；EarthShift 和 REOBench 开始强调真实分布偏移；No One Knows the State of the Art in Geospatial Foundation Models 则把问题进一步推到“GeoFM SOTA 是否可被清晰比较”的层面。我的判断是：未来两年，GeoFM 论文如果没有清楚的数据血缘和泄漏审计，很难让评测结论真正站稳。

2. 重点来源

来源	年份	链接	与泄漏审计的关系
PANGAEA: A Global and Inclusive Benchmark for Geospatial Foundation Models	2024/2025	arXiv, project, GitHub	跨任务、跨区域、跨模态统一评测，是审计协议的主目标之一。
EarthShift: a benchmark for measuring robustness to real-world distribution shifts in Earth observation	2026	arXiv, project	明确把真实世界 shift 放进 benchmark，可用于“去泄漏后性能下降”对照。
No One Knows the State of the Art in Geospatial Foundation Models	2026	arXiv	直接指出 GeoFM SOTA 比较不稳定、评测协议和透明度不足。
Prithvi-EO-2.0	2024	arXiv, GitHub, HF	HLS 多时相预训练，适合审计同 MGRS tile、同日期、同区域覆盖。
Clay Foundation Model	2024/2025	docs, GitHub, HF	多传感器、多时相工程化开源模型，模型卡/数据卡透明度适合做 audit case。
SkySense	2024 CVPR	CVF, GitHub	大规模多模态遥感 FM，代表高性能但数据源复杂的评测场景。
Galileo	2025	arXiv, GitHub	全球/局部多模态 EO 表征，适合审计跨区域与下游任务覆盖。
TerraMind	2025	arXiv, GitHub	任意模态到任意模态 EO 生成/表征，适合审计“预训练是否见过下游目标模态或标签产品”。
PhilEO Bench	2024	project, arXiv, HF	few-shot/n-shot GeoFM benchmark，可用来验证去泄漏 split 后的样本效率变化。
Copernicus-FM / Copernicus-Bench	2025	arXiv, GitHub, HF	Copernicus 数据预训练和层级任务评测，适合做同源 Copernicus 数据覆盖审计。
REOBench	2025	arXiv, GitHub, HF	光学遥感扰动鲁棒性 benchmark，可作为泄漏之外的 robustness 对照。

3. 方法脉络：从随机划分到数据血缘审计

3.1 传统随机划分的问题

很多遥感数据集来自若干城市或少量大幅影像。随机切 patch 会让训练和测试共享同一城市纹理、同一传感器条件、同一季节，甚至同一 parent image。对于建筑、道路、作物和土地覆盖任务，这种空间自相关足以显著抬高测试分数。

RS-01 SAM Box/Coarse-Mask to Point Prompt Refinement for Optical Remote Sensing

Sun, 07 Jun 2026 09:00:00 +0800

研究问题

细问题：在光学遥感实例/语义分割中，检测框或粗 mask 已经能给出目标的大致位置，但 SAM/SAM2 对小目标、旋转目标、密集相邻目标和低对比边界仍容易生成粘连、漏分、边界外扩或背景误包含的 mask。这个方向研究如何把 box 或粗 mask 自动转化为更细致的正/负 prompt 点，并用少量迭代让 SAM 输出更稳定的边界。

这个问题不等同于“遥感语义分割”或“把 SAM 用到遥感”。它只关注一个环节：给定 box、rotated box、coarse mask 或检测器输出，如何选择 prompt 点的位置、数量、正负标签和迭代策略。

问题由来

SAM 的交互分割在自然图像中很强，但遥感图像有几个结构性差异：

目标小：飞机、车、船、屋顶构件在 tile 中只占少量像素，box 内背景比例很高。
目标旋转：水平框会包进大量背景，尤其是飞机、船、跑道、细长建筑。
目标密集：停车场车辆、建筑群、集装箱等相邻实例容易被一个正点或一个 box 合并。
大幅面切片：超大影像被切成 patch 后，目标可能跨 tile，且局部上下文不足。
语义与边界分离：CLIP/VLM/检测器知道类别，SAM 主要负责边界；两者之间的误差会传给 prompt。

因此，box prompt 常能定位但边界粗，point prompt 可纠偏但点位选择困难。可投稿的小空间在于：把检测/粗分割的不确定性、边界几何和遥感先验转化成一组正负 prompt 点。

代表论文与项目

论文/项目	年份/venue	链接	官方代码/项目	与本问题的关系
Segment Anything, From Space?	2024 WACV	https://openaccess.thecvf.com/content/WACV2024/html/Ren_Segment_Anything_From_Space_WACV_2024_paper.html	未见官方 GitHub	系统评估 SAM 在 overhead imagery 的失败模式，是遥感 prompt 设计的起点。
SAM-Assisted Remote Sensing Imagery Semantic Segmentation With Object and Boundary Constraints	2024 IEEE TGRS	https://arxiv.org/abs/2312.02464	未见官方 GitHub	用 SAM object/boundary 约束改善遥感语义分割，提示边界约束可与点 prompt 联合。
DiffuPrompter	2024 Remote Sensing	https://www.mdpi.com/2072-4292/16/11/2004	未确认官方代码	训练自由地利用 diffusion attention 产生 box/point prompt，可作为自动 prompt 生成基线。
SAM-RSIS	2024 IEEE TGRS	https://colab.ws/articles/10.1109%2Ftgrs.2024.3460085	未见官方 GitHub	渐进式 box prompting 与 SAM 微调，适合比较“只有 box”和“box+点 refinement”。
SAMPolyBuild	2024 ISPRS JPRS	https://www.sciencedirect.com/science/article/pii/S0924271624003563	https://github.com/wchh-2000/SAMPolyBuild	建筑多边形提取；支持 bbox 与 prompt points，说明点 prompt 可服务于规则边界/多边形化。
PointSAM	2024 arXiv / 2025 TGRS方向	https://arxiv.org/abs/2409.13401	https://github.com/Lans1ng/PointSAM	点监督 SAM，提出负提示校准、伪标签自训练和 point-to-box converter，是最相关方法。
CrossCut	2026 AAAI	https://ojs.aaai.org/index.php/AAAI/article/view/37637	https://github.com/nanzhou02/CrossCut	交互式正/负点击跨 patch 传播，解决大图 patch 信息隔离。
RS2-SAM2	2026 AAAI / 2025 arXiv	https://arxiv.org/abs/2503.07266	未确认官方 GitHub	用 pseudo-mask dense prompt 适配 SAM2 到遥感 referring segmentation，说明粗 mask prompt 是强信号。
Remote SAMsing	2026 arXiv	https://arxiv.org/abs/2605.00256	未确认官方代码	分析 SAM2 遥感大图 mask quality/coverage trade-off 与 tiling 问题，可作为后续评测参考。
SAM2 official	2024 Meta	https://github.com/facebookresearch/sam2	https://github.com/facebookresearch/sam2	基础模型与 image/video prompt API；可用于实现 box+points+mask 输入组合。
segment-geospatial / SamGeo	持续维护	https://github.com/opengeos/segment-geospatial	https://github.com/opengeos/segment-geospatial	工具型基线，方便在真实 GeoTIFF/QGIS 工作流中验证自动 prompt。

说明：上表中的“未确认官方 GitHub”表示截至本次检索没有找到清晰的作者官方代码仓库；可用论文实现或第三方复现替代，但复现实验中应标注。