# RS-26 Risk-Aware Token Pruning for Large Remote Sensing VLMs


# RS-26 Risk-Aware Token Pruning for Large Remote Sensing VLMs

## 1. 方向概述

大幅面遥感图像的矛盾很尖锐：一张卫星或航拍图可以达到几千到几万像素边长，但 VLM 的视觉 token budget 通常按自然图像设计。若直接缩小整图，小目标、细道路、灾损建筑、车辆、飞机等证据会消失；若全图切 tile，再把大量 tile token 送入 VLM，显存、延迟和上下文长度都会爆炸；若只按 attention 或文本相关性剪 token，又可能把真正的答案区域提前剪掉。

因此 RS-26 的核心不是“怎样剪得更多”，而是“怎样知道哪些 token 不能剪”。遥感场景尤其需要风险感知：目标稀疏、长尾类别多、问题可能指向图像中很小的区域，且背景纹理和地物重复度高。一个可投稿的小问题可以定义为：

> 在大幅面遥感 VQA/grounding 中，token pruning 不只优化保留率和推理速度，还要显式估计被剪 token 中包含答案证据、小目标或罕见类别的风险，并在速度-精度-漏检风险之间自适应取舍。

## 2. 代表论文与项目

| 论文/项目 | 年份/来源 | 链接 | 官方代码/数据 | 与 RS-26 的关系 |
|---|---:|---|---|---|
| When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning | ICCV 2025 | [CVF](https://openaccess.thecvf.com/content/ICCV2025/html/Luo_When_Large_Vision-Language_Model_Meets_Large_Remote_Sensing_Imagery_Coarse-to-Fine_ICCV_2025_paper.html) | [LRS-VQA GitHub](https://github.com/VisionXLab/LRS-VQA) | 遥感专用核心基线。提出 Dynamic Image Pyramid 和 coarse-to-fine text-guided token pruning，用问题文本逐层选择高分辨率区域。 |
| LRS-VQA dataset | ICCV 2025 配套 | [GitHub](https://github.com/VisionXLab/LRS-VQA) | 同左 | 大幅面遥感 VQA 数据集，适合直接评测“剪掉证据区域”的失败模式。 |
| DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding | 2025 arXiv | [arXiv](https://arxiv.org/abs/2503.16426) | [GitHub](https://github.com/KyanChen/DynamicVis), [Hugging Face](https://huggingface.co/KyanChen/DynamicVis) | 遥感高效视觉骨干。不是 VLM token pruning，但其动态区域感知与稀疏目标建模可作为视觉侧风险估计模块。 |
| RS-Mamba for Large Remote Sensing Image Dense Prediction | 2024 TGRS/arXiv | [arXiv](https://arxiv.org/abs/2404.02668) | [GitHub](https://github.com/walking-shadow/Official_Remote_Sensing_Mamba) | 用线性复杂度 SSM 替代全局二次注意力，可作为“不剪 token 但换骨干”的对照。 |
| FastV: Efficient Vision-Language Models with Token Pruning | ECCV 2024 / arXiv | [arXiv](https://arxiv.org/abs/2403.06764) | [GitHub](https://github.com/pkunlp-icler/FastV) | 通用 VLM 快速剪枝基线。依据注意力/冗余在推理早期减少视觉 token，需验证其在遥感小目标上是否漏证据。 |
| PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction | 2024 arXiv | [arXiv](https://arxiv.org/abs/2410.17247) | [GitHub](https://github.com/Cooperx521/PyramidDrop) | 通用多层级视觉冗余削减。与遥感的 dynamic pyramid 思路相呼应，但需要加入地物稀疏和小目标风险。 |
| ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models | 2024 arXiv | [arXiv](https://arxiv.org/abs/2412.00447) | [GitHub](https://github.com/baoyj-ustc/ATP-LLaVA) | 通用自适应剪枝。可作为问题相关 token 保留的基线，检验是否能处理遥感尺度变化。 |
| LearnPruner | ICLR 2026 OpenReview | [OpenReview](https://openreview.net/forum?id=Dxb6gBJHby) | OpenReview 页面为主 | 学习式 token pruning，可迁移为“风险预测器 + 保留策略”的候选框架。 |
| MetaCompress | 2026 arXiv | [arXiv](https://arxiv.org/abs/2603.21701) | [GitHub](https://github.com/MArSha1147/MetaCompress) | 通用 VLM token compression。适合比较 learned compression 是否比 hard pruning 更少损伤遥感证据。 |
| Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning | ICLR 2026 | [OpenReview](https://openreview.net/forum?id=1flL9VIMsX) | OpenReview 页面为主 | 指出 token pruning 会破坏空间完整性。对遥感尤其关键，因为道路、河流、地块边界等依赖空间连续结构。 |
| IDPruner: Harmonizing Importance and Diversity for Accelerated MLLMs | 2025 arXiv/OpenReview | [OpenReview](https://openreview.net/forum?id=MAuO0IXJWe) | OpenReview 页面为主 | 同时考虑重要性和多样性。可迁移到遥感中的长尾地物和空间覆盖约束。 |
| VisionZip / TokenPacker 等通用视觉 token 压缩 | 2024-2025 | [VisionZip arXiv](https://arxiv.org/abs/2412.04467), [TokenPacker arXiv](https://arxiv.org/abs/2407.02392) | 各项目页/GitHub 需二次核验 | 可作为 soft compression baseline，但需要评估小目标语义是否被平均掉。 |

## 3. 方法谱系

### 3.1 遥感专用：Dynamic Image Pyramid + Text-Guided Pruning

LRS-VQA/CF-TTP 的关键思路是先看低分辨率全局图，再按问题文本逐层选择高分辨率 tile。它解决了“直接缩小丢小目标”和“全量 tile 太贵”的矛盾，是 RS-26 最重要的起点。

局限也很明确：文本相关性不一定等于答案证据。比如问题问“是否有受损建筑”，受损区域可能很小，低分辨率概览里没有明显响应；又比如问题问“机场附近有没有油罐”，机场大目标会吸走注意力，而油罐才是关键证据。

### 3.2 通用 VLM：Attention/Redundancy/Layer-wise Pruning

FastV、PyramidDrop、ATP-LLaVA、LearnPruner、MetaCompress 等主要围绕自然图像 VLM 加速，常见信号包括 attention score、token redundancy、层间变化、文本相关性和学习式选择器。它们的优点是工程成熟、易接入 LLaVA/Qwen-VL/InternVL 类模型。

迁移到遥感时的问题是：自然图像中的主体通常占据较大面积，而遥感 VQA 的答案常落在小面积证据上。单纯按全局 attention 或 token 冗余剪枝，可能把面积小但语义关键的对象当成噪声。

### 3.3 空间完整性与多样性约束

Nüwa、IDPruner 一类工作提醒我们：token pruning 不只是丢 token，也会撕裂空间结构。对遥感来说，道路连通性、建筑群布局、农田边界、河流走向、灾害影响范围都依赖空间连续结构。风险感知剪枝应当保留“证据 token”和“结构 token”两类信息。

### 3.4 遥感高效骨干作为替代路线

DynamicVis、RS-Mamba、RS-vHeat、RoMA 等不是 VLM token pruning，但提供另一种思路：不要过早剪掉视觉证据，而是用更高效的视觉 backbone 或区域感知机制先压缩成鲁棒表示。它们可以作为 RS-26 的强对照组，避免论文只和通用剪枝方法比较。

## 4. 关键问题由来

1. 大幅面图像的 token budget 不匹配：VLM 上下文长度按自然图像设计，遥感图像面积和对象数量远超普通图片。
2. 小目标与罕见目标风险高：飞机、车辆、船、损毁建筑、油罐、非法采矿点可能只占很少 token。
3. 低分辨率概览会误导选择：大目标和高对比区域容易被选中，但答案可能在低显著性区域。
4. 文本问题本身可能模糊：问题中类别词与遥感 taxonomy 不一致，如 warehouse/building/industrial facility。
5. 遥感证据常需要上下文：判断“灾损”“农田类型”“机场设施”可能依赖周边结构，而不是单个 object token。
6. 现有指标偏重准确率和加速比：缺少“剪掉证据区域”的可解释失败统计。

## 5. 可研究方法：Risk-Aware Pruning

### 5.1 问题定义

给定大幅面遥感图像 `I`、问题文本 `q`、候选 tile/token 集合 `T`，传统剪枝学习一个保留集合 `S`，优化 VQA 准确率和 token 数。风险感知版本需要额外估计：

- `P_evidence(t | I, q)`：token/tile 中包含答案证据的概率。
- `P_small_object(t | I)`：token/tile 中包含小目标或密集目标的概率。
- `P_rare(t | I)`：token/tile 中包含长尾/罕见类别的概率。
- `P_structure(t | I)`：token/tile 对道路、河流、地块、建筑群等空间结构连续性的贡献。

最终目标不是固定剪枝率，而是根据问题难度和风险阈值自适应保留 token：

`min latency(S)` subject to `risk(T - S) <= tau` and answer quality not degraded.

### 5.2 模块设计

1. 多尺度候选生成：使用 Dynamic Image Pyramid 或普通滑窗生成 coarse/global tokens 与 fine tiles。
2. 三路风险估计：
   - 文本相关风险：CLIP/RS-CLIP/VLM cross-attention 估计问题相关性。
   - 小目标风险：轻量 objectness/saliency/density head 估计小目标、边缘和纹理异常。
   - 空间覆盖风险：用 diversity/topology score 保证不同区域、长条结构和边界区域不被全剪掉。
3. 保留策略：
   - 高置信证据 token 必保留。
   - 高风险低置信 tile 进入 deferred set，由低分辨率答案不确定性触发二次读取。
   - 低风险冗余 token 才剪掉或压缩。
4. 失败回退：
   - 若 VLM 输出低置信或答案需要定位证据，自动扩展周边 tile。
   - 若问题包含 small/rare class 词表，降低剪枝率并启用小目标 detector prior。

### 5.3 训练信号

可以先不训练完整 VLM，只训练风险头：

- VQA 答案区域：若数据集有 box/mask 或可由 grounding 模型弱标注，作为 evidence label。
- 小目标标签：从 iSAID、DIOR、DOTA、xView、FAIR1M 等检测数据迁移 objectness。
- 伪证据：用 Grad-CAM/attention rollout/遮挡测试找到影响答案的 tile，作为软标签。
- 负样本：把答案区域所在 tile 人为剪掉，记录模型错误概率，训练 risk predictor。

## 6. 实验矩阵

| 实验 | 数据集 | 任务 | Baseline | 指标 | 目的 |
|---|---|---|---|---|---|
| E1 大图 VQA 加速 | LRS-VQA | VQA | full tokens, random pruning, FastV, PyramidDrop, CF-TTP | accuracy, token keep ratio, latency, memory | 验证风险感知剪枝是否在同等 token 下更准 |
| E2 证据漏剪诊断 | LRS-VQA + 人工/伪证据 tile | VQA + evidence | CF-TTP, attention pruning | evidence recall, answer drop when removed, false prune rate | 专门衡量剪掉答案区域的概率 |
| E3 小目标 stress test | iSAID/DIOR/DOTA/xView 转 VQA 或 grounding | small-object QA/grounding | FastV, ATP-LLaVA, DynamicVis features | small-object recall, AP, grounding IoU | 验证飞机、车、船、油罐等小目标风险 |
| E4 空间结构保持 | DeepGlobe road, SpaceNet building/road, LoveDA | grounding/segmentation-aware QA | PyramidDrop, IDPruner, Nüwa | topology F1, boundary F1, path connectivity | 检查道路/河流/地块连续性是否被破坏 |
| E5 OOD 泛化 | EarthShift-style split 或自建跨城市 split | VQA/grounding | CF-TTP, risk-aware no-geo, risk-aware full | cross-region accuracy, calibration, latency | 验证风险头是否过拟合某区域纹理 |
| E6 消融 | LRS-VQA | VQA | 去掉 text risk / objectness / diversity / fallback | accuracy-latency-risk curves | 解释哪个风险源最有用 |

## 7. 指标建议

除常规 VQA accuracy、latency、FLOPs、显存、token keep ratio 外，建议引入：

- Evidence Recall at Keep：被保留 token/tile 覆盖证据区域的比例。
- False Prune Rate：被剪掉 tile 中含答案证据的比例。
- Answer Drop under Evidence Removal：移除被判为低风险 tile 后答案下降幅度，越大说明风险估计漏判。
- Small Object Evidence Recall：小目标证据 tile 的保留率。
- Rare Class Risk Recall：长尾类别或低频词相关 tile 的保留率。
- Spatial Integrity Score：道路连通、建筑边界、地块完整性等结构指标。
- Risk-Accuracy-Latency AUC：在不同风险阈值下的速度-准确率综合曲线。

## 8. 推荐 baseline

1. Full tokens / no pruning：上界，但通常很慢。
2. Random pruning：下界。
3. Uniform tile sampling：常见工程基线。
4. Attention-only pruning：检验 attention 信号是否可靠。
5. FastV：通用 VLM 推理剪枝。
6. PyramidDrop：通用 pyramid/redundancy 削减。
7. ATP-LLaVA / LearnPruner：自适应或学习式剪枝。
8. MetaCompress / TokenPacker：soft compression 而非 hard drop。
9. CF-TTP / LRS-VQA 方法：遥感专用最强基线。
10. DynamicVis/RS-Mamba-style efficient encoder：不剪 token 的高效视觉替代路线。

## 9. 可能的论文方案

### 标题草案

Risk-Aware Token Pruning for Large Remote Sensing Vision-Language Models

### 核心假设

在大幅面遥感 VQA/grounding 中，显式估计被剪 token 的证据风险、小目标风险和空间结构风险，可以在同等 token budget 下显著降低答案错误和证据漏剪，尤其提升小目标和长尾问题。

### 方法贡献

1. 提出 risk-aware token pruning 问题定义和指标。
2. 构建 evidence-prune diagnostic protocol，专门测“剪掉证据导致错答”。
3. 设计三路风险头：text relevance、small-object objectness、spatial diversity/integrity。
4. 提出 deferred reading fallback：低置信回答触发高风险 tile 二次读取。

### 最小可行实现

第一阶段不改 VLM 主体，基于 LLaVA/GeoChat/Qwen-VL 类模型和 LRS-VQA：

1. 用现有 DIP 或滑窗生成 tile。
2. 用 CLIP/RemoteCLIP 计算 text-image tile 相似度。
3. 用轻量 detector/objectness 模型估计小目标风险。
4. 用 k-center 或 DPP 做空间多样性保留。
5. 将 top-k + high-risk deferred tiles 输入 VLM。
6. 对比 CF-TTP、FastV、PyramidDrop、random、full tokens。

### 风险

- LRS-VQA 的证据标注可能不足，需要弱标注或人工抽检。
- 通用 VLM 剪枝代码和遥感 VLM 框架适配成本可能高。
- 小目标 objectness head 可能引入检测数据偏置。
- 若 VLM 本身遥感理解弱，剪枝方法的收益会被模型能力上限遮蔽。

## 10. 下一步阅读清单

1. [LRS-VQA / CF-TTP, ICCV 2025](https://openaccess.thecvf.com/content/ICCV2025/html/Luo_When_Large_Vision-Language_Model_Meets_Large_Remote_Sensing_Imagery_Coarse-to-Fine_ICCV_2025_paper.html)
2. [LRS-VQA GitHub](https://github.com/VisionXLab/LRS-VQA)
3. [FastV, ECCV 2024](https://arxiv.org/abs/2403.06764), [GitHub](https://github.com/pkunlp-icler/FastV)
4. [PyramidDrop, arXiv 2024](https://arxiv.org/abs/2410.17247), [GitHub](https://github.com/Cooperx521/PyramidDrop)
5. [ATP-LLaVA, arXiv 2024](https://arxiv.org/abs/2412.00447), [GitHub](https://github.com/baoyj-ustc/ATP-LLaVA)
6. [LearnPruner, ICLR 2026](https://openreview.net/forum?id=Dxb6gBJHby)
7. [MetaCompress, arXiv 2026](https://arxiv.org/abs/2603.21701), [GitHub](https://github.com/MArSha1147/MetaCompress)
8. [Nüwa, ICLR 2026](https://openreview.net/forum?id=1flL9VIMsX)
9. [IDPruner, OpenReview](https://openreview.net/forum?id=MAuO0IXJWe)
10. [DynamicVis, arXiv 2025](https://arxiv.org/abs/2503.16426), [GitHub](https://github.com/KyanChen/DynamicVis)
11. [RS-Mamba, arXiv 2024](https://arxiv.org/abs/2404.02668), [GitHub](https://github.com/walking-shadow/Official_Remote_Sensing_Mamba)

## 11. 结论

RS-26 最值得推进的不是单纯复现一个 token pruning 方法，而是把“剪枝是否漏掉遥感证据”变成可测、可优化的研究问题。通用 VLM 剪枝方法提供了工程基线，LRS-VQA/CF-TTP 提供了遥感任务入口，DynamicVis/RS-Mamba 等提供了高效视觉替代路线。一个清晰的小论文可以围绕 risk-aware pruning diagnostic + 三路风险估计 + deferred reading fallback 展开，目标是在大幅面遥感 VQA/grounding 中同时报告 accuracy、latency 和 evidence false prune rate。