<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>TTA - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/tta/</link><description>TTA - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Tue, 16 Jun 2026 09:00:02 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/tta/" rel="self" type="application/rss+xml"/><item><title>过去 24 小时遥感 AI 雷达：VLM 要看对区域，GeoFM 要接对任务，TTA 要有证据</title><link>https://spacetop.win/2026/06/20260616_090002_daily_remote_sensing_radar/</link><pubDate>Tue, 16 Jun 2026 09:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260616_090002_daily_remote_sensing_radar/</guid><description><![CDATA[<h1 id="过去-24-小时遥感-ai-雷达vlm-要看对区域geofm-要接对任务tta-要有证据" class="headerLink">
    <a href="#%e8%bf%87%e5%8e%bb-24-%e5%b0%8f%e6%97%b6%e9%81%a5%e6%84%9f-ai-%e9%9b%b7%e8%be%bevlm-%e8%a6%81%e7%9c%8b%e5%af%b9%e5%8c%ba%e5%9f%9fgeofm-%e8%a6%81%e6%8e%a5%e5%af%b9%e4%bb%bb%e5%8a%a1tta-%e8%a6%81%e6%9c%89%e8%af%81%e6%8d%ae" class="header-mark"></a>过去 24 小时遥感 AI 雷达：VLM 要看对区域，GeoFM 要接对任务，TTA 要有证据</h1><p><strong>结论：过去 24 小时最强信号不是单个遥感 SOTA，而是几条方法线正在合到一起。</strong> 第一，Gaze Heads 说明 VLM 的区域描述可以被少数 attention heads 追踪和干预，这给遥感 VQA、开放词汇分割和变化解释提供了“看没看对区域”的可审计机制。第二，TTABC 把 CLIP/VLM 的 test-time adaptation 从刷榜拉回到证据、代理目标和 shift 类型的受控比较，对跨城市、跨季节、跨 GSD 遥感部署很关键。第三，Clay-CNN Hybrids 和 AI4Land 提醒我们，GeoFM 不一定要替代 U-Net 或业务管线，很多时候更适合作为上下文、先验和全球尺度生产系统的一部分。第四，RATS、Adaptive Visual Token Selection 和 OmniVideo-100K 这类 CV/ML 新工作分别给出 part-level token、层级 token 选择、结构化 evidence chain 的迁移路径。今天最值得做的研究方向是：<strong>把 box/mask prompt 作为空间锚点，用 gaze/head steering 约束 VLM 看哪里，再用 CLIP/GeoFM 的轻量 TTA 校准目标域类别、边界和置信度，最终输出 mask/polygon、证据区域、置信度和人工复核优先级。</strong></p>
<p>我按 2026-06-16 09:00:02 +08:00 回看公开来源，重点检查 arXiv cs.CV 2026-06-15 recent 批次和近 3 个月内仍在形成趋势的 GeoFM/VLM/TTA 工作。本篇过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线；若论文来自通用 CV/ML，我只保留能明确迁移到光学、多光谱、VHR、UAV 或地理大数据任务的部分。</p>]]></description></item><item><title>TTABC：遥感 VLM 的测试时自适应，先别急着调参</title><link>https://spacetop.win/2026/06/20260615_230002_twohour_remote_sensing_radar/</link><pubDate>Mon, 15 Jun 2026 23:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260615_230002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="ttabc遥感-vlm-的测试时自适应先别急着调参" class="headerLink">
    <a href="#ttabc%e9%81%a5%e6%84%9f-vlm-%e7%9a%84%e6%b5%8b%e8%af%95%e6%97%b6%e8%87%aa%e9%80%82%e5%ba%94%e5%85%88%e5%88%ab%e6%80%a5%e7%9d%80%e8%b0%83%e5%8f%82" class="header-mark"></a>TTABC：遥感 VLM 的测试时自适应，先别急着调参</h1><p><strong>结论：这一轮最值得补进雷达的是 2026-06-12 提交到 arXiv 的 <em>What Drives Test-Time Adaptation for CLIP? A Controlled Empirical Study from an Update Perspective</em>。它不是遥感专用模型，但对遥感 VLM 很有用：论文把 CLIP 测试时自适应方法按“更新什么”分成 parameter-based、state-based、inference-based 三类，并提出 TTABC 这个开源 TTA Benchmark for CLIP，统一评测 20 多个代表性方法。最关键的结论不是谁刷到最高分，而是：很多收益来自测试时证据和可靠代理信号，而不是更重的梯度更新；不同分布偏移下没有通吃方案。对遥感来说，这正好对应跨地区、跨季节、跨传感器、开放词表类别漂移这些真实部署问题。</strong></p>
<p>我按 2026-06-15 23:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择 TTABC，是因为今天前几轮已经覆盖了 OSMGraphCLIP、TUE-CD、GeoFM layer probing、MaskWAM、ShearFuse、LALE 等遥感条目；继续找一个新遥感 backbone 的边际价值不高。TTABC 虽然来自通用 CV/VLM，但它给遥感 VLM 一个更紧的问题：模型到新地区、新季节、新类别组合时，应该怎么自适应，应该怎么评测，什么时候不该自适应。</p>
<p>需要先说明边界：TTABC 当前评测主体是 CLIP 图像分类，不是遥感分割、检测、VQA 或 grounding。它纳入 EuroSAT，但不是遥感全任务 benchmark。因此本文把它作为 CV-to-RS 迁移项，而不是遥感论文。它的价值在于评测协议和机制拆解，可以被迁移到 RemoteCLIP、GeoRSCLIP、SkySense、VHM、GeoChat、Earth-Agent 这类遥感 VLM 或 GeoFM+文本系统上。</p>]]></description></item><item><title>过去 24 小时遥感 AI 雷达：GeoFM 比架构，VLM 比证据，Agent 比执行</title><link>https://spacetop.win/2026/06/20260615_090002_daily_remote_sensing_radar/</link><pubDate>Mon, 15 Jun 2026 09:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260615_090002_daily_remote_sensing_radar/</guid><description><![CDATA[<h1 id="过去-24-小时遥感-ai-雷达geofm-比架构vlm-比证据agent-比执行" class="headerLink">
    <a href="#%e8%bf%87%e5%8e%bb-24-%e5%b0%8f%e6%97%b6%e9%81%a5%e6%84%9f-ai-%e9%9b%b7%e8%be%begeofm-%e6%af%94%e6%9e%b6%e6%9e%84vlm-%e6%af%94%e8%af%81%e6%8d%aeagent-%e6%af%94%e6%89%a7%e8%a1%8c" class="header-mark"></a>过去 24 小时遥感 AI 雷达：GeoFM 比架构，VLM 比证据，Agent 比执行</h1><p><strong>结论：今天最值得看的不是单点 SOTA，而是遥感 AI 的评价对象正在变化。</strong> GeoFM 方向开始从“谁的预训练更大”转向“同一协议下，架构如何处理缺 band、多光谱和下游任务”；GeoAI Agent 方向开始从“能不能调用工具”转向“能不能把遥感影像、格网数据、GIS、模拟器和文档证据串成可执行过程”；CV-to-RS 方向给出一个强信号：box/mask prompt 与 test-time adaptation 很适合做遥感开放词汇分割和变化检测的证据校准。</p>
<p>我按 2026-06-15 09:00:02 +08:00 回看公开来源。由于 arXiv 周末没有正常新一轮发布，严格 24 小时内没有比前几轮更强的新遥感主线；本篇保留最近一个可核验 release 窗口里仍值得进入日报的 5 个条目，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线。个别论文含 S1/S2 混合实验时，本文只讨论其 Sentinel-2、多光谱、缺 band 和架构泛化部分，不把 SAR 结果作为推荐依据。</p>
<h2 id="今日-5-个重点" class="headerLink">
    <a href="#%e4%bb%8a%e6%97%a5-5-%e4%b8%aa%e9%87%8d%e7%82%b9" class="header-mark"></a>今日 5 个重点</h2><table>
  <thead>
      <tr>
          <th>排名</th>
          <th>论文/项目</th>
          <th style="text-align: right">来源时间</th>
          <th>任务</th>
          <th>数据/模态</th>
          <th>贡献</th>
          <th>代码/数据</th>
          <th style="text-align: right">分数</th>
          <th>为什么重要</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>1</td>
          <td>Emerging Flexible Designs for Geospatial Multimodal Foundation Models</td>
          <td style="text-align: right">arXiv, 2026-06-10</td>
          <td>GeoFM 架构比较</td>
          <td>Sentinel-2、多光谱、GEOBench</td>
          <td>在同一预训练目标、数据和下游协议下比较 SatMAE、DOFA、Flex，重点看 band 灵活性和 dense prediction</td>
          <td>论文公开；复现实验框架指向 Terratorch iterate</td>
          <td style="text-align: right">8.5</td>
          <td>它把 GeoFM 讨论从“模型名对模型名”拉回到 tokenization、fusion、missing-band 这些可实验变量</td>
      </tr>
      <tr>
          <td>2</td>
          <td>TerraBench: Can Agents Reason Over Heterogeneous Earth-System Data?</td>
          <td style="text-align: right">arXiv, 2026-06-11</td>
          <td>Earth-system agent benchmark</td>
          <td>EO imagery、gridded data、GIS、simulation、documents</td>
          <td>403 个 agentic tasks、3 个 track、8 个应用域、24,500 个 verified execution steps</td>
          <td>论文公开；代码/benchmark 需继续跟踪入口</td>
          <td style="text-align: right">8.4</td>
          <td>遥感 AI 评测开始要求过程证据、工具参数和 artifact provenance，而不是只看最终文字</td>
      </tr>
      <tr>
          <td>3</td>
          <td>GeoNatureAgent Benchmark</td>
          <td style="text-align: right">arXiv, 2026-06-11</td>
          <td>环境地理分析 agent</td>
          <td>GIS API、环境指标、BigEarthNet V2 扩展</td>
          <td>93 个任务、18 类能力、16 个工具接口，评测真实 API 上的结构化 tool calling</td>
          <td>论文称 benchmark、harness、自托管 API 公开</td>
          <td style="text-align: right">8.0</td>
          <td>对生态、城市、农业场景很实用：检验 agent 是否真的会做地理分析，而不是会写漂亮解释</td>
      </tr>
      <tr>
          <td>4</td>
          <td>SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning</td>
          <td style="text-align: right">arXiv / project, 2026-06-11</td>
          <td>VLM 空间推理接口</td>
          <td>图像/视频、3D/4D 空间任务</td>
          <td>训练自由框架，让 VLM 在 stateful Python kernel 中逐步写代码、观察结果、再推理</td>
          <td>项目页公开；GitHub 需跟踪</td>
          <td style="text-align: right">7.8</td>
          <td>这条 CV 线可迁移到遥感：大幅 tile、mask、polygon、DEM、GIS layer 都适合可执行代码轨迹</td>
      </tr>
      <tr>
          <td>5</td>
          <td>MaskWAM: Unifying Mask Prompting and Prediction for World-Action Models</td>
          <td style="text-align: right">arXiv / GitHub, 2026-06-11</td>
          <td>Mask prompt / object-centric prediction</td>
          <td>视频、mask、动作条件</td>
          <td>把 mask 同时作为输入 prompt 和预测目标，降低语言指代歧义并抑制背景噪声</td>
          <td>arXiv 与 GitHub README 可访问</td>
          <td style="text-align: right">7.5</td>
          <td>虽然是机器人论文，但对遥感 VLM/SAM 很有迁移价值：box/mask prompt 可以成为跨域 TTA 的空间锚点</td>
      </tr>
  </tbody>
</table>
<h2 id="1-flexible-geofm第一篇最值得精读" class="headerLink">
    <a href="#1-flexible-geofm%e7%ac%ac%e4%b8%80%e7%af%87%e6%9c%80%e5%80%bc%e5%be%97%e7%b2%be%e8%af%bb" class="header-mark"></a>1. Flexible GeoFM：第一篇最值得精读</h2><p><strong>这篇的价值在于把 GeoFM 的争论变成可控实验。</strong> 过去很多遥感 foundation model 论文同时换了数据、任务、训练轮数、mask 策略、输入 band 和 decoder，很难判断到底是架构有效，还是训练 recipe 更强。<code>Emerging Flexible Designs for Geospatial Multimodal Foundation Models</code> 把 SatMAE、DOFA 和一个 ClimaX-inspired Flex 放进同一套自监督预训练和 GEOBench 下游协议里比较，重点问两个问题：多光谱 band 应该怎么 tokenization，跨 band / modality 的 fusion 应该放在什么位置。</p>]]></description></item><item><title>过去 24 小时遥感 AI 雷达：GeoAgent 基准、空间推理接口与 Mask Prompt</title><link>https://spacetop.win/2026/06/20260612_103741_daily_remote_sensing_radar/</link><pubDate>Fri, 12 Jun 2026 10:37:41 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260612_103741_daily_remote_sensing_radar/</guid><description><![CDATA[<h1 id="过去-24-小时遥感-ai-雷达geoagent-基准空间推理接口与-mask-prompt" class="headerLink">
    <a href="#%e8%bf%87%e5%8e%bb-24-%e5%b0%8f%e6%97%b6%e9%81%a5%e6%84%9f-ai-%e9%9b%b7%e8%be%begeoagent-%e5%9f%ba%e5%87%86%e7%a9%ba%e9%97%b4%e6%8e%a8%e7%90%86%e6%8e%a5%e5%8f%a3%e4%b8%8e-mask-prompt" class="header-mark"></a>过去 24 小时遥感 AI 雷达：GeoAgent 基准、空间推理接口与 Mask Prompt</h1><p><strong>结论：今天的信号不在“又一个遥感 backbone”，而在地理智能系统的评测方式。</strong> 近 24 小时内，严格非 SAR/radar-only 的遥感 AI 新文并不多；更值得跟踪的是三条相互靠近的线：Earth-system agent benchmark 开始把遥感影像、格网数据、GIS 和模拟器放进同一个可执行工作流；通用 VLM 空间推理开始转向“代码作为行动接口”；mask/box prompt 从机器人世界模型里被证明是降低语言歧义的强约束。这三条线组合起来，正好对应遥感 VLM 的一个短板：能说，但未必能把证据落到对象、区域、时间和地图操作上。</p>
<p>我按 2026-06-12 10:37:41 +08:00 回看近 24 小时公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 项。OpenReview、CVF、IEEE/ISPRS/ACM 在这个时间窗内没有检索到比 arXiv/官方 GitHub 更直接的新主线；GitHub/Hugging Face 只作为代码或数据可复现性补证据。</p>
<h2 id="今日-3-个重点" class="headerLink">
    <a href="#%e4%bb%8a%e6%97%a5-3-%e4%b8%aa%e9%87%8d%e7%82%b9" class="header-mark"></a>今日 3 个重点</h2><table>
  <thead>
      <tr>
          <th>排名</th>
          <th>论文/项目</th>
          <th style="text-align: right">来源时间</th>
          <th>任务</th>
          <th>数据/模态</th>
          <th>贡献</th>
          <th>代码/数据</th>
          <th style="text-align: right">分数</th>
          <th>为什么重要</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>1</td>
          <td>TerraBench: Can Agents Reason Over Heterogeneous Earth-System Data?</td>
          <td style="text-align: right">arXiv, 2026-06-11 10:26 UTC</td>
          <td>Earth-system agent 评测</td>
          <td>遥感影像、格网数据、GIS、模拟器、文档证据</td>
          <td>用 TerraAgent/ReAct 式可执行框架，把工具调用、过程指标和容差数值评分合在一起；403 个任务、24,500 个验证执行步骤</td>
          <td>论文页已公开；代码需继续跟踪</td>
          <td style="text-align: right">8.6</td>
          <td>遥感 AI 评测从“单图问答/单任务分割”走向“可执行地理工作流”，适合做 GeoFM/VLM 的下一代 benchmark</td>
      </tr>
      <tr>
          <td>2</td>
          <td>SpatialClaw: Rethinking Action Interface for Agentic Spatial Reasoning</td>
          <td style="text-align: right">arXiv/GitHub, 2026-06-11 17:59 UTC</td>
          <td>VLM 空间推理</td>
          <td>图像/视频、3D/4D 空间任务</td>
          <td>训练自由框架，让 VLM 在持久 Python kernel 里逐步写代码，调用感知与几何工具，而不是一次性输出答案</td>
          <td>官方 GitHub: NVlabs/SpatialClaw</td>
          <td style="text-align: right">8.2</td>
          <td>对遥感 VLM 很可迁移：大幅影像、矢量图层、DEM、对象 mask 都天然适合“代码单元 + 中间证据”式推理</td>
      </tr>
      <tr>
          <td>3</td>
          <td>MaskWAM: Unifying Mask Prompting and Prediction for World-Action Models</td>
          <td style="text-align: right">arXiv, 2026-06-11 16:02 UTC</td>
          <td>Mask prompt / 目标中心预测</td>
          <td>视频、mask、动作条件</td>
          <td>把 mask 同时作为输入提示和预测目标，用对象中心监督减弱背景噪声和语言歧义</td>
          <td>论文页已公开；官方代码需继续跟踪</td>
          <td style="text-align: right">7.4</td>
          <td>虽然是机器人/世界模型论文，但它给遥感一个清晰迁移点：box/mask prompt 可以作为变化检测、开放词汇分割和人工交互标注的证据锚点</td>
      </tr>
  </tbody>
</table>
<h2 id="1-terrabench遥感-agent-评测开始像真实地理工作流" class="headerLink">
    <a href="#1-terrabench%e9%81%a5%e6%84%9f-agent-%e8%af%84%e6%b5%8b%e5%bc%80%e5%a7%8b%e5%83%8f%e7%9c%9f%e5%ae%9e%e5%9c%b0%e7%90%86%e5%b7%a5%e4%bd%9c%e6%b5%81" class="header-mark"></a>1. TerraBench：遥感 Agent 评测开始像真实地理工作流</h2><p><strong>来源事实：</strong> TerraBench 于 2026-06-11 提交 arXiv。论文把问题定义为 grounded Earth-science reasoning，覆盖 Earth observation imagery、gridded data、GIS reasoning、simulation 和 document-grounded verification。它不是只问“图里有什么”，而是要求 agent 通过工具调用完成检索、地理处理、模拟和带证据的计算。论文报告 benchmark 包含 403 个任务、三个 track、八个应用域和 24,500 个验证执行步骤。</p>]]></description></item></channel></rss>