RPC-GS：卫星 3DGS 别再把 RPC 当针孔相机凑合

Tue, 16 Jun 2026 01:00:02 +0800

RPC-GS：卫星 3DGS 别再把 RPC 当针孔相机凑合

结论：这一轮最值得单独跟踪的是 2026-06-04 提交到 arXiv 的 RPC-GS: Gaussian Splatting with native RPC Rendering for Satellite Imagery。它不是又一个把 3D Gaussian Splatting 套到卫星影像上的工程复现，而是抓住了卫星多视角重建里的一个根问题：现代推扫式卫星通常用 RPC/Rational Polynomial Camera 表达成像几何，过去很多 3DGS 方法为了方便渲染，把 RPC 近似成 pinhole 或 affine camera，这会把相机模型误差直接写进 DSM 和新视角合成结果。RPC-GS 的价值在于把 RPC 原生接入 Gaussian Splatting 渲染链路，让卫星 3D 重建少一点“计算机视觉相机模型”的假设，多一点遥感传感器几何。

我按 2026-06-16 01:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是光学卫星多视角三维重建，实验使用 DFC2019 WorldView-3 RGB 场景和 IARPA2016 多视角卫星 benchmark，不属于雷达方向。同期已在本地文章或用户清单中覆盖的主题包括 TTABC、OSMGraphCLIP、TUE-CD、GeoFM layerwise transfer、MaskWAM、LALE、CoastlineVLM、Stateful Visual Encoders、LG-SAM、LPM、CSI-Net、VecLang、TerraBench、OSTB 等，因此不重复写这些方向。

这篇文章的现实意义在于：遥感 AI 正在快速拥抱 3DGS、NeRF、世界模型、VLM 和 Agent，但很多系统仍把“几何可信度”当成后处理问题。对普通透视相机，3DGS 的投影、协方差变换和深度排序都有清楚定义；对卫星 RPC 相机，投影是经纬高到行列号的有理多项式映射，没有天然的 pinhole camera coordinate frame。若在这里偷懒，模型看起来仍能渲染漂亮图像，但高程、建筑边界、遮挡关系和跨视角一致性都会受损。

VLRS-Bench：遥感 VLM 不能只会认物体，还要会推理

Sat, 13 Jun 2026 07:00:02 +0800

VLRS-Bench：遥感 VLM 不能只会认物体，还要会推理

结论：这一轮最值得单独跟踪的是 VLRS-Bench。它的价值不在于又给遥感 VLM 增加一个问答分数，而是把评测问题从“图里有什么”推进到“为什么会这样、应该怎么做、接下来会发生什么”。这对遥感多模态模型很关键：真实地理任务通常不是识别一栋建筑或一片农田，而是要求模型结合空间结构、时间变化、DSM/NIR 等遥感先验和专家 mask，做出有约束的因果、决策和预测推理。

我按 2026-06-13 07:00 +08 检索公开来源，过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 和 SAR-optical fusion 主线。本篇选择 VLRS-Bench: A Vision-Language Reasoning Benchmark for Remote Sensing。论文有 arXiv、官方 GitHub 和 Hugging Face 数据集；数据来源以公开光学/航空/多时相遥感数据、DSM、NIR 和专家标注为主，不走雷达主线。

这篇适合放进“遥感基础模型与多模态理解”。原因是它直接挑战当前遥感 VLM 的核心短板：很多模型已经会做 scene classification、caption、object counting、visual grounding，但在地理因果、规划决策和未来状态预测上仍然不稳。对后续做遥感 VLM、GeoAgent、变化理解、灾害评估和城市规划推理的人来说，VLRS-Bench 更像一个能力诊断器，而不是普通排行榜。

背景

遥感 VLM 过去两年的发展很快。GeoChat、VHM、SkySenseGPT、GeoPixel、GeoLLaVA、EarthDial 等模型把遥感图像接入了语言交互，很多 benchmark 也覆盖了视觉问答、grounding、caption、object counting、referring segmentation 和超高分辨率理解。这些工作很重要，但它们大多还是围绕“感知”展开：模型看见什么、数出几个、框在哪里、图像属于什么类别。

真实遥感应用往往更难。城市扩张不是只问“有建筑吗”，而是问“为什么这片区域更可能继续扩张”；灾害评估不是只问“哪里被破坏”，而是问“道路、坡度、建筑密度和水体关系会怎样影响救援路径”；农业监测不是只问“这是不是农田”，而是问“物候变化是否支持当前作物状态判断”。这些都需要模型把可见语义、空间关系、时间演化和遥感先验连起来。

VLRS-Bench 的问题意识就在这里。论文认为，现有遥感 benchmark 对复杂 reasoning 的覆盖不足，尤其缺少清晰的推理层级、真实的遥感先验和多时相约束。它把遥感 VLM 评测拆成三类：Cognition、Decision、Prediction。简单说，就是分别问“为什么”“怎么做”“会怎样”。这个拆分很适合指导后续研究，因为它不把所有错误都混成一个平均分，而是让我们看到模型到底是因果理解弱、行动规划弱，还是未来演化预测弱。

从 CV/ML 到遥感的迁移路径也清楚。通用 VLM 领域的 visual reasoning、chain-of-thought、tool-augmented reasoning、self-consistency、RLHF/RLAIF 和 verifier 都可以迁移过来；但遥感场景必须额外处理俯视视角、尺度变化、空间自相关、NIR/DSM/DEM 等非 RGB 先验、多时相变化、专家 mask 和地理约束。VLRS-Bench 的价值，是把这些遥感专有变量放进推理题的构造和评测里。

DSM - Tag - 堂堂一跑堂

RPC-GS：卫星 3DGS 别再把 RPC 当针孔相机凑合

RPC-GS：卫星 3DGS 别再把 RPC 当针孔相机凑合

VLRS-Bench：遥感 VLM 不能只会认物体，还要会推理

VLRS-Bench：遥感 VLM 不能只会认物体，还要会推理

背景