iSAGE：把遥感分割标注从画 mask 改成点错点

Fri, 12 Jun 2026 23:00:02 +0800

iSAGE：把遥感分割标注从画 mask 改成点错点

结论：这一轮最值得单独跟踪的是 iSAGE。它的价值不是提出一个更大的遥感 backbone，而是把高分辨率遥感语义分割里最贵的环节，也就是像素级标注，重新定义为“专家只点击模型已经自信但明显错的像素”。这比又堆一个 SAM/VLM 自动伪标注管线更值得看，因为它直接挑战了当前弱监督、主动学习和 foundation-model 标注管线里一个被忽略的问题：模型自己的置信度分布并不能告诉你哪些高置信预测其实是错的。

我按 2026-06-12 23:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 方向。本篇选择 2026-06-08 提交的 iSAGE: A Human-in-the-Loop Framework for Remote Sensing Semantic Segmentation via Sparse Point Supervision。论文提供 arXiv、HTML 版本、GitHub 代码和 Zenodo 归档；实验用 RGB/IRRG 航空影像，不涉及雷达主线。

这篇适合放进“遥感解译与目标检测”类目，但它真正的研究信号更偏数据中心 AI：遥感模型的瓶颈不只是模型结构，而是新区域、新传感器、新类别上线时，如何持续维护一个可修正、可审计、可增量扩展的监督信号。

背景

高分辨率遥感语义分割的常规流程很重：先画 dense mask，再训练模型，再在新城市、新季节、新分辨率或新类别上重复标注。问题是遥感类别边界常常并不干净。建筑阴影、道路边缘、树冠遮挡、停车车辆、透水地表和低矮植被之间的边界，很多时候连专家也只能按项目约定做决定。把这些边界全部画成密集像素标签，既贵，也会把边界噪声硬编码进训练集。

过去的省标注路线主要有几类：稀疏点、scribble、弱标签、主动学习、伪标签、自训练、CRF 传播、SAM/基础模型辅助标注。它们看上去都在减少人工，但很多方法有一个共同假设：可以从模型输出的置信度、熵、伪标签或传播结果里找到下一步监督。iSAGE 反过来说，这个假设本身有信息论缺口。一个像素如果被模型高置信度预测成“道路”，它既可能真是道路，也可能是模型自信地把屋顶错当道路；单看这个预测分布，两者是不可区分的。区分信号来自模型外部，也就是专家视觉判断。

因此 iSAGE 的核心不是“让人多标一点”，而是让人只标一种最有价值的点：模型当前自信但错误的点。每一次点击都是一个 (图像, 坐标, 类别) 记录，不扩张成区域，不生成伪 mask，不走 superpixel，也不交给 CRF 平滑。这个极简设定把人工信号、训练梯度和数据审计绑定在一起。

方法/模型

iSAGE 的循环很直接。第一步用少量稀疏点训练一个初始分割模型；第二步把模型预测叠加到原图上，让专家只点击可见错误区域中类别明确的像素；第三步把新增点击追加到 JSON 标注记录；第四步把这些点转换成训练 mask，其中未标注像素全部作为 ignore；第五步用新的稀疏监督重新训练模型。这个过程循环到收益变小为止。

论文最重要的设计选择是拒绝“点到区域”的自动扩张。每个点就是一个独立监督决策。这样做牺牲了看上去更密集的伪标签，但换来了三个属性：第一，单点可审计，错了可以删掉一条 JSON 记录；第二，类均衡更自然，每个点击贡献相同，不被大面积类别支配；第三，训练信号只来自专家确认过的像素，不把模型自己的错误再灌回训练集。

损失函数使用 Error-Weighted Dice Loss。普通 Dice 或交叉熵对所有已标注点近似等权，而 iSAGE 的标注点本来就是冲着错误去的，所以 EWDL 会对当前预测错误的已标注像素加大权重。论文也很克制：EWDL 不是凭绝对数值碾压所有 loss，而是和框架逻辑一致，因为“专家点击错误点”和“loss 放大错误点”指向同一个可追溯的 JSON 决策。

可审计数据 - Tag - 堂堂一跑堂

iSAGE：把遥感分割标注从画 mask 改成点错点

iSAGE：把遥感分割标注从画 mask 改成点错点

背景

方法/模型