<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>幻觉诊断 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E5%B9%BB%E8%A7%89%E8%AF%8A%E6%96%AD/</link><description>幻觉诊断 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Tue, 16 Jun 2026 07:00:02 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E5%B9%BB%E8%A7%89%E8%AF%8A%E6%96%AD/" rel="self" type="application/rss+xml"/><item><title>Gaze Heads：不用重训，直接把 VLM 的描述视线拨到指定区域</title><link>https://spacetop.win/2026/06/20260616_070002_twohour_remote_sensing_radar/</link><pubDate>Tue, 16 Jun 2026 07:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260616_070002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="gaze-heads不用重训直接把-vlm-的描述视线拨到指定区域" class="headerLink">
    <a href="#gaze-heads%e4%b8%8d%e7%94%a8%e9%87%8d%e8%ae%ad%e7%9b%b4%e6%8e%a5%e6%8a%8a-vlm-%e7%9a%84%e6%8f%8f%e8%bf%b0%e8%a7%86%e7%ba%bf%e6%8b%a8%e5%88%b0%e6%8c%87%e5%ae%9a%e5%8c%ba%e5%9f%9f" class="header-mark"></a>Gaze Heads：不用重训，直接把 VLM 的描述视线拨到指定区域</h1><p><strong>结论：这一轮最值得补进雷达的是 <em>Gaze Heads: How VLMs Look at What They Describe</em>。它不是遥感专用论文，而是一篇对遥感 VLM 很有迁移价值的 CV/ML 工作：作者发现 VLM 的语言模型 backbone 中存在一小组 attention heads，会跟踪模型当前正在描述的图像区域；只对这些 heads 加一个 inference-time attention-mask bias，就能把模型回答引到指定区域，不需要重新训练模型。论文在漫画面板任务上报告 top-100 gaze heads 的区域重定向准确率为 83.1%，项目页还显示同一机制可扩展到 COCO 自然图像的 bounding box 区域问答，并在 Qwen3-VL 2B 到 32B、Qwen2-VL、Ovis、InternVL 等模型家族中复现。对遥感来说，这个方向比“又做一个 VLM benchmark”更有用：它提供了一条可审计、可干预的区域 grounding 路线，可以服务于遥感 VQA、开放词表目标描述、变化解释、人工交互标注和幻觉诊断。</strong></p>
<p>我按 2026-06-16 07:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是通用 VLM 机制解释与可控推理方法，不涉及 SAR backscatter、coherence、interferometry 或微波传感器。同期本地文章已经覆盖 AI4Land、Clay-CNN Hybrids、TTABC、RPC-GS、OSMGraphCLIP、TUE-CD、GeoFM layer probing、MaskWAM、ShearFuse-UNet、LALE、CoastlineVLM、Stateful Visual Encoders、LG-SAM、LPM、CSI-Net、VecLang、TerraBench、OSTB、BCP、UltraVR、ABot-Earth 等方向，因此这里不重复写已有遥感条目。</p>]]></description></item></channel></rss>