RS-26 Risk-Aware Token Pruning for Large Remote Sensing VLMs

Series - 2024-2026 遥感 AI 细分研究方向

RS-26 Risk-Aware Token Pruning for Large Remote Sensing VLMs

大幅面遥感图像的矛盾很尖锐:一张卫星或航拍图可以达到几千到几万像素边长,但 VLM 的视觉 token budget 通常按自然图像设计。若直接缩小整图,小目标、细道路、灾损建筑、车辆、飞机等证据会消失;若全图切 tile,再把大量 tile token 送入 VLM,显存、延迟和上下文长度都会爆炸;若只按 attention 或文本相关性剪 token,又可能把真正的答案区域提前剪掉。

因此 RS-26 的核心不是“怎样剪得更多”,而是“怎样知道哪些 token 不能剪”。遥感场景尤其需要风险感知:目标稀疏、长尾类别多、问题可能指向图像中很小的区域,且背景纹理和地物重复度高。一个可投稿的小问题可以定义为:

在大幅面遥感 VQA/grounding 中,token pruning 不只优化保留率和推理速度,还要显式估计被剪 token 中包含答案证据、小目标或罕见类别的风险,并在速度-精度-漏检风险之间自适应取舍。

论文/项目年份/来源链接官方代码/数据与 RS-26 的关系
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token PruningICCV 2025CVFLRS-VQA GitHub遥感专用核心基线。提出 Dynamic Image Pyramid 和 coarse-to-fine text-guided token pruning,用问题文本逐层选择高分辨率区域。
LRS-VQA datasetICCV 2025 配套GitHub同左大幅面遥感 VQA 数据集,适合直接评测“剪掉证据区域”的失败模式。
DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding2025 arXivarXivGitHub, Hugging Face遥感高效视觉骨干。不是 VLM token pruning,但其动态区域感知与稀疏目标建模可作为视觉侧风险估计模块。
RS-Mamba for Large Remote Sensing Image Dense Prediction2024 TGRS/arXivarXivGitHub用线性复杂度 SSM 替代全局二次注意力,可作为“不剪 token 但换骨干”的对照。
FastV: Efficient Vision-Language Models with Token PruningECCV 2024 / arXivarXivGitHub通用 VLM 快速剪枝基线。依据注意力/冗余在推理早期减少视觉 token,需验证其在遥感小目标上是否漏证据。
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction2024 arXivarXivGitHub通用多层级视觉冗余削减。与遥感的 dynamic pyramid 思路相呼应,但需要加入地物稀疏和小目标风险。
ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models2024 arXivarXivGitHub通用自适应剪枝。可作为问题相关 token 保留的基线,检验是否能处理遥感尺度变化。
LearnPrunerICLR 2026 OpenReviewOpenReviewOpenReview 页面为主学习式 token pruning,可迁移为“风险预测器 + 保留策略”的候选框架。
MetaCompress2026 arXivarXivGitHub通用 VLM token compression。适合比较 learned compression 是否比 hard pruning 更少损伤遥感证据。
Nüwa: Mending the Spatial Integrity Torn by VLM Token PruningICLR 2026OpenReviewOpenReview 页面为主指出 token pruning 会破坏空间完整性。对遥感尤其关键,因为道路、河流、地块边界等依赖空间连续结构。
IDPruner: Harmonizing Importance and Diversity for Accelerated MLLMs2025 arXiv/OpenReviewOpenReviewOpenReview 页面为主同时考虑重要性和多样性。可迁移到遥感中的长尾地物和空间覆盖约束。
VisionZip / TokenPacker 等通用视觉 token 压缩2024-2025VisionZip arXiv, TokenPacker arXiv各项目页/GitHub 需二次核验可作为 soft compression baseline,但需要评估小目标语义是否被平均掉。

LRS-VQA/CF-TTP 的关键思路是先看低分辨率全局图,再按问题文本逐层选择高分辨率 tile。它解决了“直接缩小丢小目标”和“全量 tile 太贵”的矛盾,是 RS-26 最重要的起点。

局限也很明确:文本相关性不一定等于答案证据。比如问题问“是否有受损建筑”,受损区域可能很小,低分辨率概览里没有明显响应;又比如问题问“机场附近有没有油罐”,机场大目标会吸走注意力,而油罐才是关键证据。

FastV、PyramidDrop、ATP-LLaVA、LearnPruner、MetaCompress 等主要围绕自然图像 VLM 加速,常见信号包括 attention score、token redundancy、层间变化、文本相关性和学习式选择器。它们的优点是工程成熟、易接入 LLaVA/Qwen-VL/InternVL 类模型。

迁移到遥感时的问题是:自然图像中的主体通常占据较大面积,而遥感 VQA 的答案常落在小面积证据上。单纯按全局 attention 或 token 冗余剪枝,可能把面积小但语义关键的对象当成噪声。

Nüwa、IDPruner 一类工作提醒我们:token pruning 不只是丢 token,也会撕裂空间结构。对遥感来说,道路连通性、建筑群布局、农田边界、河流走向、灾害影响范围都依赖空间连续结构。风险感知剪枝应当保留“证据 token”和“结构 token”两类信息。

DynamicVis、RS-Mamba、RS-vHeat、RoMA 等不是 VLM token pruning,但提供另一种思路:不要过早剪掉视觉证据,而是用更高效的视觉 backbone 或区域感知机制先压缩成鲁棒表示。它们可以作为 RS-26 的强对照组,避免论文只和通用剪枝方法比较。

  1. 大幅面图像的 token budget 不匹配:VLM 上下文长度按自然图像设计,遥感图像面积和对象数量远超普通图片。
  2. 小目标与罕见目标风险高:飞机、车辆、船、损毁建筑、油罐、非法采矿点可能只占很少 token。
  3. 低分辨率概览会误导选择:大目标和高对比区域容易被选中,但答案可能在低显著性区域。
  4. 文本问题本身可能模糊:问题中类别词与遥感 taxonomy 不一致,如 warehouse/building/industrial facility。
  5. 遥感证据常需要上下文:判断“灾损”“农田类型”“机场设施”可能依赖周边结构,而不是单个 object token。
  6. 现有指标偏重准确率和加速比:缺少“剪掉证据区域”的可解释失败统计。

给定大幅面遥感图像 I、问题文本 q、候选 tile/token 集合 T,传统剪枝学习一个保留集合 S,优化 VQA 准确率和 token 数。风险感知版本需要额外估计:

  • P_evidence(t | I, q):token/tile 中包含答案证据的概率。
  • P_small_object(t | I):token/tile 中包含小目标或密集目标的概率。
  • P_rare(t | I):token/tile 中包含长尾/罕见类别的概率。
  • P_structure(t | I):token/tile 对道路、河流、地块、建筑群等空间结构连续性的贡献。

最终目标不是固定剪枝率,而是根据问题难度和风险阈值自适应保留 token:

min latency(S) subject to risk(T - S) <= tau and answer quality not degraded.

  1. 多尺度候选生成:使用 Dynamic Image Pyramid 或普通滑窗生成 coarse/global tokens 与 fine tiles。
  2. 三路风险估计:
    • 文本相关风险:CLIP/RS-CLIP/VLM cross-attention 估计问题相关性。
    • 小目标风险:轻量 objectness/saliency/density head 估计小目标、边缘和纹理异常。
    • 空间覆盖风险:用 diversity/topology score 保证不同区域、长条结构和边界区域不被全剪掉。
  3. 保留策略:
    • 高置信证据 token 必保留。
    • 高风险低置信 tile 进入 deferred set,由低分辨率答案不确定性触发二次读取。
    • 低风险冗余 token 才剪掉或压缩。
  4. 失败回退:
    • 若 VLM 输出低置信或答案需要定位证据,自动扩展周边 tile。
    • 若问题包含 small/rare class 词表,降低剪枝率并启用小目标 detector prior。

可以先不训练完整 VLM,只训练风险头:

  • VQA 答案区域:若数据集有 box/mask 或可由 grounding 模型弱标注,作为 evidence label。
  • 小目标标签:从 iSAID、DIOR、DOTA、xView、FAIR1M 等检测数据迁移 objectness。
  • 伪证据:用 Grad-CAM/attention rollout/遮挡测试找到影响答案的 tile,作为软标签。
  • 负样本:把答案区域所在 tile 人为剪掉,记录模型错误概率,训练 risk predictor。
实验数据集任务Baseline指标目的
E1 大图 VQA 加速LRS-VQAVQAfull tokens, random pruning, FastV, PyramidDrop, CF-TTPaccuracy, token keep ratio, latency, memory验证风险感知剪枝是否在同等 token 下更准
E2 证据漏剪诊断LRS-VQA + 人工/伪证据 tileVQA + evidenceCF-TTP, attention pruningevidence recall, answer drop when removed, false prune rate专门衡量剪掉答案区域的概率
E3 小目标 stress testiSAID/DIOR/DOTA/xView 转 VQA 或 groundingsmall-object QA/groundingFastV, ATP-LLaVA, DynamicVis featuressmall-object recall, AP, grounding IoU验证飞机、车、船、油罐等小目标风险
E4 空间结构保持DeepGlobe road, SpaceNet building/road, LoveDAgrounding/segmentation-aware QAPyramidDrop, IDPruner, Nüwatopology F1, boundary F1, path connectivity检查道路/河流/地块连续性是否被破坏
E5 OOD 泛化EarthShift-style split 或自建跨城市 splitVQA/groundingCF-TTP, risk-aware no-geo, risk-aware fullcross-region accuracy, calibration, latency验证风险头是否过拟合某区域纹理
E6 消融LRS-VQAVQA去掉 text risk / objectness / diversity / fallbackaccuracy-latency-risk curves解释哪个风险源最有用

除常规 VQA accuracy、latency、FLOPs、显存、token keep ratio 外,建议引入:

  • Evidence Recall at Keep:被保留 token/tile 覆盖证据区域的比例。
  • False Prune Rate:被剪掉 tile 中含答案证据的比例。
  • Answer Drop under Evidence Removal:移除被判为低风险 tile 后答案下降幅度,越大说明风险估计漏判。
  • Small Object Evidence Recall:小目标证据 tile 的保留率。
  • Rare Class Risk Recall:长尾类别或低频词相关 tile 的保留率。
  • Spatial Integrity Score:道路连通、建筑边界、地块完整性等结构指标。
  • Risk-Accuracy-Latency AUC:在不同风险阈值下的速度-准确率综合曲线。
  1. Full tokens / no pruning:上界,但通常很慢。
  2. Random pruning:下界。
  3. Uniform tile sampling:常见工程基线。
  4. Attention-only pruning:检验 attention 信号是否可靠。
  5. FastV:通用 VLM 推理剪枝。
  6. PyramidDrop:通用 pyramid/redundancy 削减。
  7. ATP-LLaVA / LearnPruner:自适应或学习式剪枝。
  8. MetaCompress / TokenPacker:soft compression 而非 hard drop。
  9. CF-TTP / LRS-VQA 方法:遥感专用最强基线。
  10. DynamicVis/RS-Mamba-style efficient encoder:不剪 token 的高效视觉替代路线。

Risk-Aware Token Pruning for Large Remote Sensing Vision-Language Models

在大幅面遥感 VQA/grounding 中,显式估计被剪 token 的证据风险、小目标风险和空间结构风险,可以在同等 token budget 下显著降低答案错误和证据漏剪,尤其提升小目标和长尾问题。

  1. 提出 risk-aware token pruning 问题定义和指标。
  2. 构建 evidence-prune diagnostic protocol,专门测“剪掉证据导致错答”。
  3. 设计三路风险头:text relevance、small-object objectness、spatial diversity/integrity。
  4. 提出 deferred reading fallback:低置信回答触发高风险 tile 二次读取。

第一阶段不改 VLM 主体,基于 LLaVA/GeoChat/Qwen-VL 类模型和 LRS-VQA:

  1. 用现有 DIP 或滑窗生成 tile。
  2. 用 CLIP/RemoteCLIP 计算 text-image tile 相似度。
  3. 用轻量 detector/objectness 模型估计小目标风险。
  4. 用 k-center 或 DPP 做空间多样性保留。
  5. 将 top-k + high-risk deferred tiles 输入 VLM。
  6. 对比 CF-TTP、FastV、PyramidDrop、random、full tokens。
  • LRS-VQA 的证据标注可能不足,需要弱标注或人工抽检。
  • 通用 VLM 剪枝代码和遥感 VLM 框架适配成本可能高。
  • 小目标 objectness head 可能引入检测数据偏置。
  • 若 VLM 本身遥感理解弱,剪枝方法的收益会被模型能力上限遮蔽。
  1. LRS-VQA / CF-TTP, ICCV 2025
  2. LRS-VQA GitHub
  3. FastV, ECCV 2024, GitHub
  4. PyramidDrop, arXiv 2024, GitHub
  5. ATP-LLaVA, arXiv 2024, GitHub
  6. LearnPruner, ICLR 2026
  7. MetaCompress, arXiv 2026, GitHub
  8. Nüwa, ICLR 2026
  9. IDPruner, OpenReview
  10. DynamicVis, arXiv 2025, GitHub
  11. RS-Mamba, arXiv 2024, GitHub

RS-26 最值得推进的不是单纯复现一个 token pruning 方法,而是把“剪枝是否漏掉遥感证据”变成可测、可优化的研究问题。通用 VLM 剪枝方法提供了工程基线,LRS-VQA/CF-TTP 提供了遥感任务入口,DynamicVis/RS-Mamba 等提供了高效视觉替代路线。一个清晰的小论文可以围绕 risk-aware pruning diagnostic + 三路风险估计 + deferred reading fallback 展开,目标是在大幅面遥感 VQA/grounding 中同时报告 accuracy、latency 和 evidence false prune rate。

Related Content

评论