Gaze Heads：不用重训，直接把 VLM 的描述视线拨到指定区域

Tue, 16 Jun 2026 07:00:02 +0800

Gaze Heads：不用重训，直接把 VLM 的描述视线拨到指定区域

结论：这一轮最值得补进雷达的是 Gaze Heads: How VLMs Look at What They Describe。它不是遥感专用论文，而是一篇对遥感 VLM 很有迁移价值的 CV/ML 工作：作者发现 VLM 的语言模型 backbone 中存在一小组 attention heads，会跟踪模型当前正在描述的图像区域；只对这些 heads 加一个 inference-time attention-mask bias，就能把模型回答引到指定区域，不需要重新训练模型。论文在漫画面板任务上报告 top-100 gaze heads 的区域重定向准确率为 83.1%，项目页还显示同一机制可扩展到 COCO 自然图像的 bounding box 区域问答，并在 Qwen3-VL 2B 到 32B、Qwen2-VL、Ovis、InternVL 等模型家族中复现。对遥感来说，这个方向比“又做一个 VLM benchmark”更有用：它提供了一条可审计、可干预的区域 grounding 路线，可以服务于遥感 VQA、开放词表目标描述、变化解释、人工交互标注和幻觉诊断。

我按 2026-06-16 07:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是通用 VLM 机制解释与可控推理方法，不涉及 SAR backscatter、coherence、interferometry 或微波传感器。同期本地文章已经覆盖 AI4Land、Clay-CNN Hybrids、TTABC、RPC-GS、OSMGraphCLIP、TUE-CD、GeoFM layer probing、MaskWAM、ShearFuse-UNet、LALE、CoastlineVLM、Stateful Visual Encoders、LG-SAM、LPM、CSI-Net、VecLang、TerraBench、OSTB、BCP、UltraVR、ABot-Earth 等方向，因此这里不重复写已有遥感条目。

幻觉诊断 - Tag - 堂堂一跑堂

Gaze Heads：不用重训，直接把 VLM 的描述视线拨到指定区域

Gaze Heads：不用重训，直接把 VLM 的描述视线拨到指定区域