<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>数值推理 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E6%95%B0%E5%80%BC%E6%8E%A8%E7%90%86/</link><description>数值推理 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Sat, 13 Jun 2026 03:00:02 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E6%95%B0%E5%80%BC%E6%8E%A8%E7%90%86/" rel="self" type="application/rss+xml"/><item><title>TerraBench：地球科学智能体不能只会调工具</title><link>https://spacetop.win/2026/06/20260613_030002_twohour_remote_sensing_radar/</link><pubDate>Sat, 13 Jun 2026 03:00:02 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260613_030002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="terrabench地球科学智能体不能只会调工具" class="headerLink">
    <a href="#terrabench%e5%9c%b0%e7%90%83%e7%a7%91%e5%ad%a6%e6%99%ba%e8%83%bd%e4%bd%93%e4%b8%8d%e8%83%bd%e5%8f%aa%e4%bc%9a%e8%b0%83%e5%b7%a5%e5%85%b7" class="header-mark"></a>TerraBench：地球科学智能体不能只会调工具</h1><p><strong>结论：这一轮最值得单独跟踪的是 TerraBench。它的价值不在于又给 LLM Agent 做了一个排行榜，而是把地球科学任务里的真实困难放进了评测：卫星影像、格网物理量、GIS 上下文、仿真器、外部文档和数值容差必须在同一个可执行流程里协同。结果也很直接：强模型并不是不会选工具，而是经常把参数、单位、空间范围、时间窗口和数值证据链做错。</strong></p>
<p>我按 2026-06-13 03:00 +08 检索公开来源，过滤了 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 方向。本篇选择 2026-06-11 提交的 <em>TerraBench: Can Agents Reason Over Heterogeneous Earth-System Data?</em>。论文有 arXiv、HTML 版本和 GitHub 仓库；它的主线是 Earth-system / geospatial agent benchmark，不是单一遥感视觉模型。</p>
<p>这篇适合放进“多源数据融合、效率部署与应用落地”。原因是它把遥感 AI 从“看懂一张图”推进到“能不能把图像、GIS、环境变量、仿真和文档组织成可审计计算”。对遥感大数据来说，这个方向比普通 VQA 更接近生产系统：用户真正需要的不是模型说一句“这里可能有洪水风险”，而是它能否调用正确数据、设定正确区域、运行正确工具、保留中间产物，并给出容差内的数值答案。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>过去一年地理智能体和遥感 VLM 的热度很高，但很多评测仍然偏窄。常见任务是图像问答、caption、单图 grounding、地图工具问答或简单 GIS 操作。它们能测模型是否会读图、会不会调用地图 API，却很难测真实地球科学工作流里最麻烦的部分：数据异构、单位不一致、空间投影、时间窗口、仿真参数、文档约束和结果可追溯性。</p>
<p>TerraBench 的问题意识很明确。天气和气候基础模型擅长预测物理场，但不擅长用自然语言交互式推理；LLM 擅长语言规划，但不能直接处理高维地球系统数据。真实分析往往处在两者之间：研究者要从遥感影像、栅格变量、矢量边界、模拟器输出和论文表格中重建一个可信结论。</p>
<p>这类任务对遥感 AI 很重要，因为遥感应用的终点通常不是单个 mask 或类别标签，而是一个带行动含义的决策：某个县未来几天水资源压力如何，某片作物在指定气候情景下是否减产，某段道路中断会造成多大通勤延误，某个城市热风险是否超过阈值。模型要回答这些问题，必须把视觉、地理和科学计算接起来。</p>
<p>从 CV/ML 到遥感的迁移路径也很清楚。通用 Agent 研究里的 ReAct、工具调用、代码执行、artifact 管理和过程评测，可以迁移到遥感大数据系统；但遥感场景必须额外处理坐标、尺度、时序、空间自相关、物理单位、数据来源和科学容差。TerraBench 正是在这些地方把普通 agent benchmark 拉回地球科学现实。</p>
<h2 id="方法框架" class="headerLink">
    <a href="#%e6%96%b9%e6%b3%95%e6%a1%86%e6%9e%b6" class="header-mark"></a>方法/框架</h2><p>TerraBench 建在 TerraAgent 之上。TerraAgent 是一个 ReAct-style executable framework，也就是让 LLM 在推理过程中交替进行思考、工具调用和观测，再把环境检索、地理处理、仿真和 artifact-backed computation 连接起来。这里的关键不是“给模型更多工具”，而是把工具调用变成可检查的执行轨迹。</p>]]></description></item></channel></rss>