RS-26 Risk-Aware Token Pruning for Large Remote Sensing VLMs
RS-26 Risk-Aware Token Pruning for Large Remote Sensing VLMs
1. 方向概述
大幅面遥感图像的矛盾很尖锐:一张卫星或航拍图可以达到几千到几万像素边长,但 VLM 的视觉 token budget 通常按自然图像设计。若直接缩小整图,小目标、细道路、灾损建筑、车辆、飞机等证据会消失;若全图切 tile,再把大量 tile token 送入 VLM,显存、延迟和上下文长度都会爆炸;若只按 attention 或文本相关性剪 token,又可能把真正的答案区域提前剪掉。
因此 RS-26 的核心不是“怎样剪得更多”,而是“怎样知道哪些 token 不能剪”。遥感场景尤其需要风险感知:目标稀疏、长尾类别多、问题可能指向图像中很小的区域,且背景纹理和地物重复度高。一个可投稿的小问题可以定义为:
在大幅面遥感 VQA/grounding 中,token pruning 不只优化保留率和推理速度,还要显式估计被剪 token 中包含答案证据、小目标或罕见类别的风险,并在速度-精度-漏检风险之间自适应取舍。
2. 代表论文与项目
| 论文/项目 | 年份/来源 | 链接 | 官方代码/数据 | 与 RS-26 的关系 |
|---|---|---|---|---|
| When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning | ICCV 2025 | CVF | LRS-VQA GitHub | 遥感专用核心基线。提出 Dynamic Image Pyramid 和 coarse-to-fine text-guided token pruning,用问题文本逐层选择高分辨率区域。 |
| LRS-VQA dataset | ICCV 2025 配套 | GitHub | 同左 | 大幅面遥感 VQA 数据集,适合直接评测“剪掉证据区域”的失败模式。 |
| DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding | 2025 arXiv | arXiv | GitHub, Hugging Face | 遥感高效视觉骨干。不是 VLM token pruning,但其动态区域感知与稀疏目标建模可作为视觉侧风险估计模块。 |
| RS-Mamba for Large Remote Sensing Image Dense Prediction | 2024 TGRS/arXiv | arXiv | GitHub | 用线性复杂度 SSM 替代全局二次注意力,可作为“不剪 token 但换骨干”的对照。 |
| FastV: Efficient Vision-Language Models with Token Pruning | ECCV 2024 / arXiv | arXiv | GitHub | 通用 VLM 快速剪枝基线。依据注意力/冗余在推理早期减少视觉 token,需验证其在遥感小目标上是否漏证据。 |
| PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction | 2024 arXiv | arXiv | GitHub | 通用多层级视觉冗余削减。与遥感的 dynamic pyramid 思路相呼应,但需要加入地物稀疏和小目标风险。 |
| ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models | 2024 arXiv | arXiv | GitHub | 通用自适应剪枝。可作为问题相关 token 保留的基线,检验是否能处理遥感尺度变化。 |
| LearnPruner | ICLR 2026 OpenReview | OpenReview | OpenReview 页面为主 | 学习式 token pruning,可迁移为“风险预测器 + 保留策略”的候选框架。 |
| MetaCompress | 2026 arXiv | arXiv | GitHub | 通用 VLM token compression。适合比较 learned compression 是否比 hard pruning 更少损伤遥感证据。 |
| Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning | ICLR 2026 | OpenReview | OpenReview 页面为主 | 指出 token pruning 会破坏空间完整性。对遥感尤其关键,因为道路、河流、地块边界等依赖空间连续结构。 |
| IDPruner: Harmonizing Importance and Diversity for Accelerated MLLMs | 2025 arXiv/OpenReview | OpenReview | OpenReview 页面为主 | 同时考虑重要性和多样性。可迁移到遥感中的长尾地物和空间覆盖约束。 |
| VisionZip / TokenPacker 等通用视觉 token 压缩 | 2024-2025 | VisionZip arXiv, TokenPacker arXiv | 各项目页/GitHub 需二次核验 | 可作为 soft compression baseline,但需要评估小目标语义是否被平均掉。 |
3. 方法谱系
3.1 遥感专用:Dynamic Image Pyramid + Text-Guided Pruning
LRS-VQA/CF-TTP 的关键思路是先看低分辨率全局图,再按问题文本逐层选择高分辨率 tile。它解决了“直接缩小丢小目标”和“全量 tile 太贵”的矛盾,是 RS-26 最重要的起点。
局限也很明确:文本相关性不一定等于答案证据。比如问题问“是否有受损建筑”,受损区域可能很小,低分辨率概览里没有明显响应;又比如问题问“机场附近有没有油罐”,机场大目标会吸走注意力,而油罐才是关键证据。
3.2 通用 VLM:Attention/Redundancy/Layer-wise Pruning
FastV、PyramidDrop、ATP-LLaVA、LearnPruner、MetaCompress 等主要围绕自然图像 VLM 加速,常见信号包括 attention score、token redundancy、层间变化、文本相关性和学习式选择器。它们的优点是工程成熟、易接入 LLaVA/Qwen-VL/InternVL 类模型。
迁移到遥感时的问题是:自然图像中的主体通常占据较大面积,而遥感 VQA 的答案常落在小面积证据上。单纯按全局 attention 或 token 冗余剪枝,可能把面积小但语义关键的对象当成噪声。
3.3 空间完整性与多样性约束
Nüwa、IDPruner 一类工作提醒我们:token pruning 不只是丢 token,也会撕裂空间结构。对遥感来说,道路连通性、建筑群布局、农田边界、河流走向、灾害影响范围都依赖空间连续结构。风险感知剪枝应当保留“证据 token”和“结构 token”两类信息。
3.4 遥感高效骨干作为替代路线
DynamicVis、RS-Mamba、RS-vHeat、RoMA 等不是 VLM token pruning,但提供另一种思路:不要过早剪掉视觉证据,而是用更高效的视觉 backbone 或区域感知机制先压缩成鲁棒表示。它们可以作为 RS-26 的强对照组,避免论文只和通用剪枝方法比较。
4. 关键问题由来
- 大幅面图像的 token budget 不匹配:VLM 上下文长度按自然图像设计,遥感图像面积和对象数量远超普通图片。
- 小目标与罕见目标风险高:飞机、车辆、船、损毁建筑、油罐、非法采矿点可能只占很少 token。
- 低分辨率概览会误导选择:大目标和高对比区域容易被选中,但答案可能在低显著性区域。
- 文本问题本身可能模糊:问题中类别词与遥感 taxonomy 不一致,如 warehouse/building/industrial facility。
- 遥感证据常需要上下文:判断“灾损”“农田类型”“机场设施”可能依赖周边结构,而不是单个 object token。
- 现有指标偏重准确率和加速比:缺少“剪掉证据区域”的可解释失败统计。
5. 可研究方法:Risk-Aware Pruning
5.1 问题定义
给定大幅面遥感图像 I、问题文本 q、候选 tile/token 集合 T,传统剪枝学习一个保留集合 S,优化 VQA 准确率和 token 数。风险感知版本需要额外估计:
P_evidence(t | I, q):token/tile 中包含答案证据的概率。P_small_object(t | I):token/tile 中包含小目标或密集目标的概率。P_rare(t | I):token/tile 中包含长尾/罕见类别的概率。P_structure(t | I):token/tile 对道路、河流、地块、建筑群等空间结构连续性的贡献。
最终目标不是固定剪枝率,而是根据问题难度和风险阈值自适应保留 token:
min latency(S) subject to risk(T - S) <= tau and answer quality not degraded.
5.2 模块设计
- 多尺度候选生成:使用 Dynamic Image Pyramid 或普通滑窗生成 coarse/global tokens 与 fine tiles。
- 三路风险估计:
- 文本相关风险:CLIP/RS-CLIP/VLM cross-attention 估计问题相关性。
- 小目标风险:轻量 objectness/saliency/density head 估计小目标、边缘和纹理异常。
- 空间覆盖风险:用 diversity/topology score 保证不同区域、长条结构和边界区域不被全剪掉。
- 保留策略:
- 高置信证据 token 必保留。
- 高风险低置信 tile 进入 deferred set,由低分辨率答案不确定性触发二次读取。
- 低风险冗余 token 才剪掉或压缩。
- 失败回退:
- 若 VLM 输出低置信或答案需要定位证据,自动扩展周边 tile。
- 若问题包含 small/rare class 词表,降低剪枝率并启用小目标 detector prior。
5.3 训练信号
可以先不训练完整 VLM,只训练风险头:
- VQA 答案区域:若数据集有 box/mask 或可由 grounding 模型弱标注,作为 evidence label。
- 小目标标签:从 iSAID、DIOR、DOTA、xView、FAIR1M 等检测数据迁移 objectness。
- 伪证据:用 Grad-CAM/attention rollout/遮挡测试找到影响答案的 tile,作为软标签。
- 负样本:把答案区域所在 tile 人为剪掉,记录模型错误概率,训练 risk predictor。
6. 实验矩阵
| 实验 | 数据集 | 任务 | Baseline | 指标 | 目的 |
|---|---|---|---|---|---|
| E1 大图 VQA 加速 | LRS-VQA | VQA | full tokens, random pruning, FastV, PyramidDrop, CF-TTP | accuracy, token keep ratio, latency, memory | 验证风险感知剪枝是否在同等 token 下更准 |
| E2 证据漏剪诊断 | LRS-VQA + 人工/伪证据 tile | VQA + evidence | CF-TTP, attention pruning | evidence recall, answer drop when removed, false prune rate | 专门衡量剪掉答案区域的概率 |
| E3 小目标 stress test | iSAID/DIOR/DOTA/xView 转 VQA 或 grounding | small-object QA/grounding | FastV, ATP-LLaVA, DynamicVis features | small-object recall, AP, grounding IoU | 验证飞机、车、船、油罐等小目标风险 |
| E4 空间结构保持 | DeepGlobe road, SpaceNet building/road, LoveDA | grounding/segmentation-aware QA | PyramidDrop, IDPruner, Nüwa | topology F1, boundary F1, path connectivity | 检查道路/河流/地块连续性是否被破坏 |
| E5 OOD 泛化 | EarthShift-style split 或自建跨城市 split | VQA/grounding | CF-TTP, risk-aware no-geo, risk-aware full | cross-region accuracy, calibration, latency | 验证风险头是否过拟合某区域纹理 |
| E6 消融 | LRS-VQA | VQA | 去掉 text risk / objectness / diversity / fallback | accuracy-latency-risk curves | 解释哪个风险源最有用 |
7. 指标建议
除常规 VQA accuracy、latency、FLOPs、显存、token keep ratio 外,建议引入:
- Evidence Recall at Keep:被保留 token/tile 覆盖证据区域的比例。
- False Prune Rate:被剪掉 tile 中含答案证据的比例。
- Answer Drop under Evidence Removal:移除被判为低风险 tile 后答案下降幅度,越大说明风险估计漏判。
- Small Object Evidence Recall:小目标证据 tile 的保留率。
- Rare Class Risk Recall:长尾类别或低频词相关 tile 的保留率。
- Spatial Integrity Score:道路连通、建筑边界、地块完整性等结构指标。
- Risk-Accuracy-Latency AUC:在不同风险阈值下的速度-准确率综合曲线。
8. 推荐 baseline
- Full tokens / no pruning:上界,但通常很慢。
- Random pruning:下界。
- Uniform tile sampling:常见工程基线。
- Attention-only pruning:检验 attention 信号是否可靠。
- FastV:通用 VLM 推理剪枝。
- PyramidDrop:通用 pyramid/redundancy 削减。
- ATP-LLaVA / LearnPruner:自适应或学习式剪枝。
- MetaCompress / TokenPacker:soft compression 而非 hard drop。
- CF-TTP / LRS-VQA 方法:遥感专用最强基线。
- DynamicVis/RS-Mamba-style efficient encoder:不剪 token 的高效视觉替代路线。
9. 可能的论文方案
标题草案
Risk-Aware Token Pruning for Large Remote Sensing Vision-Language Models
核心假设
在大幅面遥感 VQA/grounding 中,显式估计被剪 token 的证据风险、小目标风险和空间结构风险,可以在同等 token budget 下显著降低答案错误和证据漏剪,尤其提升小目标和长尾问题。
方法贡献
- 提出 risk-aware token pruning 问题定义和指标。
- 构建 evidence-prune diagnostic protocol,专门测“剪掉证据导致错答”。
- 设计三路风险头:text relevance、small-object objectness、spatial diversity/integrity。
- 提出 deferred reading fallback:低置信回答触发高风险 tile 二次读取。
最小可行实现
第一阶段不改 VLM 主体,基于 LLaVA/GeoChat/Qwen-VL 类模型和 LRS-VQA:
- 用现有 DIP 或滑窗生成 tile。
- 用 CLIP/RemoteCLIP 计算 text-image tile 相似度。
- 用轻量 detector/objectness 模型估计小目标风险。
- 用 k-center 或 DPP 做空间多样性保留。
- 将 top-k + high-risk deferred tiles 输入 VLM。
- 对比 CF-TTP、FastV、PyramidDrop、random、full tokens。
风险
- LRS-VQA 的证据标注可能不足,需要弱标注或人工抽检。
- 通用 VLM 剪枝代码和遥感 VLM 框架适配成本可能高。
- 小目标 objectness head 可能引入检测数据偏置。
- 若 VLM 本身遥感理解弱,剪枝方法的收益会被模型能力上限遮蔽。
10. 下一步阅读清单
- LRS-VQA / CF-TTP, ICCV 2025
- LRS-VQA GitHub
- FastV, ECCV 2024, GitHub
- PyramidDrop, arXiv 2024, GitHub
- ATP-LLaVA, arXiv 2024, GitHub
- LearnPruner, ICLR 2026
- MetaCompress, arXiv 2026, GitHub
- Nüwa, ICLR 2026
- IDPruner, OpenReview
- DynamicVis, arXiv 2025, GitHub
- RS-Mamba, arXiv 2024, GitHub
11. 结论
RS-26 最值得推进的不是单纯复现一个 token pruning 方法,而是把“剪枝是否漏掉遥感证据”变成可测、可优化的研究问题。通用 VLM 剪枝方法提供了工程基线,LRS-VQA/CF-TTP 提供了遥感任务入口,DynamicVis/RS-Mamba 等提供了高效视觉替代路线。一个清晰的小论文可以围绕 risk-aware pruning diagnostic + 三路风险估计 + deferred reading fallback 展开,目标是在大幅面遥感 VQA/grounding 中同时报告 accuracy、latency 和 evidence false prune rate。
评论