<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>时序预测 - Tag - 堂堂一跑堂</title><link>https://spacetop.win/tags/%E6%97%B6%E5%BA%8F%E9%A2%84%E6%B5%8B/</link><description>时序预测 - Tag - 堂堂一跑堂</description><generator>Hugo -- gohugo.io</generator><language>zh-CN</language><managingEditor>kingcopper@whu.edu.cn (WangTong)</managingEditor><webMaster>kingcopper@whu.edu.cn (WangTong)</webMaster><lastBuildDate>Mon, 15 Jun 2026 13:00:03 +0800</lastBuildDate><atom:link href="https://spacetop.win/tags/%E6%97%B6%E5%BA%8F%E9%A2%84%E6%B5%8B/" rel="self" type="application/rss+xml"/><item><title>MaskWAM：遥感时序模型也该预测 mask，而不只是预测影像</title><link>https://spacetop.win/2026/06/20260615_130002_twohour_remote_sensing_radar/</link><pubDate>Mon, 15 Jun 2026 13:00:03 +0800</pubDate><author><name>WangTong</name></author><guid>https://spacetop.win/2026/06/20260615_130002_twohour_remote_sensing_radar/</guid><description><![CDATA[<h1 id="maskwam遥感时序模型也该预测-mask而不只是预测影像" class="headerLink">
    <a href="#maskwam%e9%81%a5%e6%84%9f%e6%97%b6%e5%ba%8f%e6%a8%a1%e5%9e%8b%e4%b9%9f%e8%af%a5%e9%a2%84%e6%b5%8b-mask%e8%80%8c%e4%b8%8d%e5%8f%aa%e6%98%af%e9%a2%84%e6%b5%8b%e5%bd%b1%e5%83%8f" class="header-mark"></a>MaskWAM：遥感时序模型也该预测 mask，而不只是预测影像</h1><p><strong>结论：这一轮最值得补进雷达的是 2026-06-11 提交到 arXiv 的 <em>MaskWAM: Unifying Mask Prompting and Prediction for World-Action Models</em>。它本身是机器人 World-Action Model，不是遥感论文；但它给遥感 AI 一个很直接的启发：如果模型要理解“哪里会变、哪个对象重要、未来应该关注什么”，就不应只重建 RGB 或多光谱影像，还应该显式预测任务相关 mask。对光学遥感变化检测、灾害扩散、农田物候、道路/建筑增量更新和 VLM 空间指代来说，mask 既可以是 prompt，也可以是监督目标。</strong></p>
<p>我按 2026-06-15 13:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是一个 CV/机器人方向的可迁移方法，不涉及雷达输入。它和前几轮已经写过的 SpatialClaw、Earth-Agent、TerraBench、Plan2Map、VecLang、CoastlineVLM、Stateful Visual Encoder 等不同：重点不是工具调用或 VLM 答题，而是把 <strong>mask prompt</strong> 和 <strong>future mask prediction</strong> 合并成一个可训练的时空接口。</p>
<h2 id="背景" class="headerLink">
    <a href="#%e8%83%8c%e6%99%af" class="header-mark"></a>背景</h2><p>遥感时序建模里有一个长期问题：我们经常让模型预测像素、预测差异图、预测类别图，或者直接输出变化检测结果，但很少追问模型内部到底在“跟踪哪个对象”。</p>
<p>这在简单二时相变化检测里还可以靠差分特征糊过去。一旦场景变复杂，问题就出来了。比如同一张超高分影像里有多栋相似建筑，文本说“新建的厂房”并不能精确指向目标；农田时序里作物、裸地、阴影和云边界经常混在一起；灾害前后影像中，真正应该关注的是滑坡体、受损建筑、淹没边界或道路阻断，而不是整幅图的外观重建。</p>
<p>现有遥感基础模型和 VLM 很擅长做全局表征、caption、VQA 或开放词表识别，但它们仍容易把“语义上相关”和“空间上对准”混为一谈。用户问的是某个目标、某片区域、某条边界，模型却可能靠上下文猜测。更麻烦的是，如果训练目标只是 RGB/多光谱重建，模型会把云影、纹理、背景和无关地物也当成同等重要的预测对象。</p>
<p>MaskWAM 的价值就在这里。它虽然来自机器人操作，但提出了一个可以迁移到遥感的原则：不要只让模型预测未来画面，也要让它预测未来的任务相关 mask；不要只用文字描述目标，也要允许首帧 mask 作为空间锚点。</p>
<h2 id="论文项目" class="headerLink">
    <a href="#%e8%ae%ba%e6%96%87%e9%a1%b9%e7%9b%ae" class="header-mark"></a>论文/项目</h2><p>MaskWAM 的 arXiv 页面显示论文于 2026-06-11 提交，主题包括 computer vision、machine learning 和 robotics。作者来自香港科技大学、Tencent Robotics X 和清华大学。官方项目页和 GitHub 仓库已经开放，仓库说明这是官方实现，但截至本轮检索，训练、推理、模型权重、数据准备和评测脚本仍在准备发布。</p>]]></description></item></channel></rss>