RS-48 Active Learning with SAM/VLM Human-in-the-Loop

WangTong included in category 遥感基础模型与多模态理解 and series 2024-2026 遥感 AI 细分研究方向

2026-06-07 09:47:00 2026-06-07 09:47:00 619 words 3 minutes

Series - 2024-2026 遥感 AI 细分研究方向

Contents

RS-48 Active Learning with SAM/VLM Human-in-the-Loop

1. 问题由来

遥感标注贵，贵在三个地方：大幅面影像要切片和定位，小目标/旋转目标/密集实例边界难修，类别语义还经常依赖地理上下文。传统主动学习只问“哪张图最不确定”，但 foundation model 时代的问题变了：SAM 能给 mask 但不懂类别，GroundingDINO/VLM 能给语义但受 prompt 和语言先验影响，人类标注者的主要成本也从“从零画 mask”变成“检查、修正、合并、改类别”。

因此，这个方向的核心研究问题不是再做一个主动学习打分函数，而是：

如何估计一张候选图像的“自动标注可修正性”：SAM/VLM 生成的伪标签是否值得交给人类改？
如何把选样目标从 uncertainty 扩展到地理覆盖、季节覆盖、长尾类别、小目标覆盖和纠错成本？
如何让人类纠错反过来更新 prompt、prototype、类别词表或轻量 adapter，而不是只把修正标签放进训练集？
如何用“单位人工分钟带来的 mIoU/AP 提升”评估方法，而不是只比较标注比例？

2. 2024-2026 代表论文/项目

论文/项目	年份/来源	链接	官方代码/数据	与本方向的关系
Active Learning Meets Foundation Models: Fast Remote Sensing Data Annotation	ICCV 2025	CVF PDF	GitHub: ICCV_AL4FM	最直接锚点：把主动学习和 SAM 半自动遥感目标检测标注结合，强调标注时间和冷启动。
FMARS: Annotating Remote Sensing Images for Disaster Monitoring with Foundation Models	2024 IGARSS / arXiv	arXiv	HF dataset, Papers with Code	使用 GroundingDINO + SAM 自动标注灾害相关 VHR 遥感图像，适合作为自动伪标签管线基线。
RemoteSAM / RemoteSAM-270K	2025 ACM MM oral / arXiv	arXiv	GitHub, HF dataset	构建 image-text-mask 三元组数据引擎，可作为 SAM/VLM 自动标注和 referring segmentation 基座。
Segment Anything, From Space?	WACV 2024	CVF PDF	论文评测多遥感数据	系统暴露 SAM 在 overhead imagery 上的失败模式，是设计人类纠错和 prompt refinement 的依据。
PointSAM	2024/2025 arXiv / TGRS 方向	arXiv	GitHub	点监督、负提示校准、伪标签自训练；可用于“少量点击 -> 更好 mask”的 HITL 单元。
OpenRSD: Towards Open-prompts for Object Detection in Remote Sensing Images	ICCV 2025	CVF, arXiv	论文页为主	开放提示遥感检测，适合作为 VLM/文本 prompt 生成候选框的比较对象。
VRSBench	NeurIPS 2024 Datasets & Benchmarks	arXiv, NeurIPS PDF	GitHub	高质量遥感视觉语言 benchmark，可借鉴人工验证、object reference 和 VQA 标注质量控制。
Grounded-SAM-2	2024-2025 official-style project	GitHub	GitHub	通用 GroundingDINO/SAM2 管线，可迁移为“文本/框 -> mask -> 人类修正”的工程基线。
SAM 2	2024 Meta	project, GitHub	GitHub/model weights	对多帧 memory 和交互式修正友好，可用于多时相遥感标注闭环。
GEOBench-VLM	ICCV 2025	CVF PDF	GitHub	可作为 VLM 语义质量和定位能力评估参考，避免把语言答案当作可靠标签。

3. 方法脉络

3.1 传统主动学习

典型做法是用 uncertainty、entropy、margin、BALD、core-set/diversity 或 query-by-committee 选择未标注样本。遥感中它的问题是：随机切片高度冗余，空间相邻样本相关性强，模型最不确定的样本可能只是云、阴影、配准错或异常纹理，并不一定值得人类标注。

3.2 Foundation-model-assisted annotation

FMARS 和 RemoteSAM 代表了“自动生成候选标签”的路线：用文本 prompt 或检测器找到目标，再用 SAM/SAM2 得到 mask，必要时生成 caption/referring expression。这个路线降低从零标注成本，但标签质量高度依赖 prompt、类别词表、mask 后处理和人工审核。

3.3 Active learning + human-in-the-loop

AL4FM 的关键价值在于把“选哪些样本给人类”与“SAM 如何减少人类绘制成本”合起来。下一步可做得更细：不是只比较标注样本数，而是记录每个样本的交互次数、修正时间、点击数、类别修改数、mask edit distance 和最终性能收益。

4. 可投稿方法方案：GeoHITL-AL

建议题目：GeoHITL-AL: Cost-Aware Active Learning with SAM/VLM Feedback for Remote Sensing Annotation

4.1 闭环流程

未标注池：大幅面光学遥感影像，带可选 metadata，例如坐标、时间、GSD、传感器、行政区、已有 OSM/地图弱标签。
候选生成：GroundingDINO/OpenRSD/RS-VLM 生成类别候选和框；SAM/SAM2/RemoteSAM 生成 mask；CLIP/RS-CLIP/VLM 生成类别描述。
质量估计：计算 mask stability、box-mask agreement、VLM-text agreement、类别置信度、空间覆盖、长尾类别得分和预计人工修正成本。
主动选择：在预算内选择最有价值样本，不只看 uncertainty，还加入 diversity、geo-coverage、rare-class、expected annotation time。
人类纠错：人类只做必要动作：接受、改类、加点、删 mask、合并/拆分、画缺失目标。
反馈更新：更新类别 prompt、negative prompt、prototype memory、SAM point policy 或轻量 adapter；同时把人工修正写入数据卡。
下游训练：训练检测/分割/开放词表模型，评估单位成本收益。

4.2 核心打分函数

可定义候选样本 x 的选择分数：

Score(x) = value(x) / cost(x)

value(x) =
  w1 * model_uncertainty
  + w2 * geo_diversity
  + w3 * rare_class_score
  + w4 * VLM_SAM_disagreement
  + w5 * expected_generalization_gain

cost(x) =
  c1 * predicted_clicks
  + c2 * predicted_mask_edits
  + c3 * category_ambiguity
  + c4 * object_density

关键创新点不是公式本身，而是把 cost(x) 学出来：用历史人工纠错日志预测某类 mask 需要多少点击或分钟。

5. 实验设计

5.1 数据集

任务	数据集候选	为什么适合
目标检测/实例分割	iSAID, DOTA, xView, DIOR, NWPU VHR-10	小目标、旋转目标和密集实例多，适合评估框/mask 自动标注
语义分割	LoveDA, DeepGlobe, ISPRS Vaihingen/Potsdam	跨城市/城乡域差异明显，适合主动学习与域覆盖
灾害/建筑损毁	xBD, FMARS	事件驱动、长尾、标注贵，适合人机协作标注
开放词表/视觉语言	VRSBench, GEOBench-VLM, RemoteSAM-270K	可评估 VLM 生成类别/描述的可靠性

5.2 Baselines

Random selection：随机选样。
Uncertainty AL：entropy/margin/BALD。
Diversity AL：core-set、embedding clustering。
Geo-diversity AL：按地理块、城市、季节、GSD 做覆盖。
FMARS-style auto-labeling：GroundingDINO + SAM 自动标注，不做人类闭环。
AL4FM-style baseline：主动学习 + SAM 半自动标注。
Proposed GeoHITL-AL：成本感知 + VLM/SAM disagreement + prompt/prototype feedback。

5.3 指标

指标	定义
mIoU / AP / mAP50:95	下游分割/检测性能
Cost-normalized gain	每 1 小时人工时间带来的 mIoU/AP 提升
Annotation time	每图/每实例/每类别平均纠错时间
Click count	每个 mask 的正负点、删除、合并、拆分次数
Mask edit distance	SAM 初始 mask 与人工最终 mask 的差距
Label correction rate	VLM/SAM 初始类别或 mask 被修改的比例
Rare-class recall	长尾类别召回
Geo coverage	已标注样本覆盖的地区、季节、GSD、传感器分布
Calibration	伪标签置信度与人工接受率是否一致

5.4 标注成本曲线

推荐报告三条曲线：

mIoU/AP vs. labeled images：传统论文常用，但不足。
mIoU/AP vs. human minutes：主指标，更公平。
mIoU/AP vs. clicks or corrections：分析交互式标注效率。

如果能记录真实人工时间最好；如果不能，可用模拟成本：

accept = 1 unit
class_fix = 2 units
add_positive_point = 1 unit
add_negative_point = 1 unit
delete_mask = 1 unit
merge/split = 3 units
draw_polygon = 8 units

6. 停止准则

建议同时使用四类停止准则：

性能收益趋缓：最近两轮单位成本 mIoU/AP 提升低于阈值。
伪标签接受率稳定：人工接受率高且 correction rate 下降。
地理/类别覆盖达标：城市、季节、GSD、长尾类别覆盖达到预设比例。
风险类仍未收敛：如果灾害、长尾、罕见目标 recall 不达标，则不能仅因平均 mIoU 收敛而停止。

7. 失败案例分析

必须单独统计：

小目标漏标：车辆、飞机、船、灾损建筑碎片。
密集实例粘连：建筑群、集装箱、农田地块。
类别语义错：road/runway、bare soil/construction site、water/shadow。
SAM 边界偏：屋顶阴影、树冠遮挡、低对比边界。
VLM 幻觉：图中不存在的类别被语言先验生成。
地图弱标签过期：OSM/footprint 与影像时间不一致。
地理偏置：模型只在某城市或某 GSD 下表现好。

8. 未来研究方向

Cost-aware active learning：把“预计人工修正时间”作为主动学习核心变量。
Disagreement as annotation value：利用 SAM mask、检测框、VLM 类别和 RS-CLIP 相似度的不一致选择样本。
Prompt/prototype memory：把人类纠正后的正负点、类别词、视觉 prototype 作为下一轮自动标注的记忆。
Geo-coverage constrained AL：主动学习中加入地理块、生态区、季节、GSD 约束，避免只选同质样本。
Human-verifiable data cards：记录每个标签是模型生成、人工确认、人工修改还是人工从零绘制。
Open-vocabulary HITL：类别词表允许扩展，人类纠错不仅改 mask，也能合并同义词和调整层级 taxonomy。
Multi-temporal HITL：SAM2 memory 用于同一地点多时相标注，评估是否减少重复修边成本。

9. 最小可行实验

第一阶段建议不要做太大：

选 LoveDA 或 iSAID 的一个子集，构造未标注池。
用 GroundingDINO/OpenRSD + SAM/SAM2 生成初始伪标签。
用模拟人工成本或 2-3 名人工标注者记录真实修正。
比较 random、uncertainty、diversity、AL4FM-style、GeoHITL-AL。
预算设置为 30/60/120/240 分钟或等价 click budget。
报告 mIoU/AP、cost-normalized gain、rare-class recall、acceptance rate 和失败案例。

Contents

RS-48 Active Learning with SAM/VLM Human-in-the-Loop

RS-48 Active Learning with SAM/VLM Human-in-the-Loop

1. 问题由来

2. 2024-2026 代表论文/项目

3. 方法脉络

3.1 传统主动学习

3.2 Foundation-model-assisted annotation

3.3 Active learning + human-in-the-loop

4. 可投稿方法方案：GeoHITL-AL

4.1 闭环流程

4.2 核心打分函数

5. 实验设计

5.1 数据集

5.2 Baselines

5.3 指标

5.4 标注成本曲线

6. 停止准则

7. 失败案例分析

8. 未来研究方向

9. 最小可行实验

10. 读文献顺序

Related Content

评论

RS-48 Active Learning with SAM/VLM Human-in-the-Loop

RS-48 Active Learning with SAM/VLM Human-in-the-Loop

1. 问题由来

2. 2024-2026 代表论文/项目

3. 方法脉络

3.1 传统主动学习

3.2 Foundation-model-assisted annotation

3.3 Active learning + human-in-the-loop

4. 可投稿方法方案：GeoHITL-AL

4.1 闭环流程

4.2 核心打分函数

5. 实验设计

5.1 数据集

5.2 Baselines

5.3 指标

5.4 标注成本曲线

6. 停止准则

7. 失败案例分析

8. 未来研究方向

9. 最小可行实验

10. 读文献顺序

Related Content

FusionRS：把红外风格监督补进遥感 VLM 的 RGB-IR-text 数据底座

OSTB：遥感 VLM 部署别先赌一个 backbone

RSKT-Seg：开放词表遥感分割需要自己的 benchmark

VLRS-Bench：遥感 VLM 不能只会认物体，还要会推理

CAFOSat：农业设施 benchmark 暴露遥感 VLM 的落地短板

评论