# RPC-GS：卫星 3DGS 别再把 RPC 当针孔相机凑合


# RPC-GS：卫星 3DGS 别再把 RPC 当针孔相机凑合

**结论：这一轮最值得单独跟踪的是 2026-06-04 提交到 arXiv 的 *RPC-GS: Gaussian Splatting with native RPC Rendering for Satellite Imagery*。它不是又一个把 3D Gaussian Splatting 套到卫星影像上的工程复现，而是抓住了卫星多视角重建里的一个根问题：现代推扫式卫星通常用 RPC/Rational Polynomial Camera 表达成像几何，过去很多 3DGS 方法为了方便渲染，把 RPC 近似成 pinhole 或 affine camera，这会把相机模型误差直接写进 DSM 和新视角合成结果。RPC-GS 的价值在于把 RPC 原生接入 Gaussian Splatting 渲染链路，让卫星 3D 重建少一点“计算机视觉相机模型”的假设，多一点遥感传感器几何。**

我按 2026-06-16 01:00 +08 检索公开来源，并过滤 SAR、PolSAR、InSAR、radar-only、microwave-only 与 SAR-optical fusion 主线工作。本篇选择的是光学卫星多视角三维重建，实验使用 DFC2019 WorldView-3 RGB 场景和 IARPA2016 多视角卫星 benchmark，不属于雷达方向。同期已在本地文章或用户清单中覆盖的主题包括 TTABC、OSMGraphCLIP、TUE-CD、GeoFM layerwise transfer、MaskWAM、LALE、CoastlineVLM、Stateful Visual Encoders、LG-SAM、LPM、CSI-Net、VecLang、TerraBench、OSTB 等，因此不重复写这些方向。

这篇文章的现实意义在于：遥感 AI 正在快速拥抱 3DGS、NeRF、世界模型、VLM 和 Agent，但很多系统仍把“几何可信度”当成后处理问题。对普通透视相机，3DGS 的投影、协方差变换和深度排序都有清楚定义；对卫星 RPC 相机，投影是经纬高到行列号的有理多项式映射，没有天然的 pinhole camera coordinate frame。若在这里偷懒，模型看起来仍能渲染漂亮图像，但高程、建筑边界、遮挡关系和跨视角一致性都会受损。

## 背景

3D Gaussian Splatting 的主流设定来自地面相机：每个 3D Gaussian 有位置、协方差、颜色和透明度，渲染时先把 Gaussian 投影到图像平面，再按深度做 alpha compositing。这个流程天然依赖相机投影和深度定义。

卫星影像不是这个几何设定。很多高分辨率光学卫星是 pushbroom sensor，影像不是一次性中心投影形成的，而是随平台运动逐行扫描。遥感产品通常用 RPC 模型描述从地理坐标到影像坐标的映射。RPC 是工程上非常常见的传感器模型，但它不像 pinhole 相机那样给出一个简单的内外参矩阵和相机坐标系。

过去的卫星 NeRF/3DGS 工作常用两种近似。一种是把 RPC 派生为 perspective camera，另一种是用 affine camera 做局部线性化。它们可以让现成 CV 渲染框架跑起来，但代价是把卫星成像的非线性几何压扁。对于低建筑、平坦区域，这种近似可能还算可用；对于高层建筑、复杂城区、山区地形、长基线多日期影像，误差会更明显。

RPC-GS 的问题意识很直接：既然卫星影像的标准相机模型是 RPC，Gaussian Splatting 就应该原生支持 RPC，而不是先把 RPC 改造成 CV 更熟悉的相机。这个方向看起来偏几何，但对遥感基础模型很关键。未来如果 VLM/Agent 要在三维地球、城市数字孪生、灾害评估或建筑高度估计中给出可信回答，它必须依赖几何上站得住的底层表示。

## 方法

RPC-GS 保留 3D Gaussian Splatting 的基本思想，但替换了投影链路。它把 splatting-friendly 的归一化场景坐标，通过一串地理坐标变换映射到 geodetic coordinates，也就是经度、纬度和椭球高；然后使用 RPC 投影函数把三维地理坐标映射到图像行列号。

第一处关键改动是 **Gaussian mean 的 RPC 原生投影**。普通 3DGS 中，Gaussian 中心点通过相机矩阵投影到图像平面。RPC-GS 中，这个投影必须经过地理坐标、RPC 归一化参数和有理多项式函数。这样做避免了把整幅卫星影像硬拟合成一个透视相机，也避免了 affine 近似在局部之外失真。

第二处关键改动是 **协方差投影**。3DGS 不只是投影点，还要投影 Gaussian 的形状和方向。RPC 映射是部分非线性的，如果只投影中心点而不正确处理协方差，splat 在图像上的椭圆形状会错。RPC-GS 推导了基于 Jacobian 的协方差投影，把三维 Gaussian 在 RPC 投影附近的一阶局部变化映射到二维图像平面。这个细节决定了渲染不是只“位置对”，而是局部形状和覆盖范围也对。

第三处关键改动是 **metric ray-based depth**。标准 3DGS 用相机坐标系里的 z 轴深度排序，但 RPC 没有显式相机坐标系。RPC-GS 因此构造了度量射线式深度，用于 front-to-back alpha compositing。这个设计解决的是遮挡顺序问题：如果深度排序错了，高楼、立交、山体和建筑边缘会出现错误透明叠加，DSM 也会受影响。

第四处贡献是 **统一比较 RPC、perspective、affine 三种相机模型**。这比只展示 RPC-GS 的可视化结果更有价值，因为它把争论变成了可检验问题：在相同初始化、相同训练设置和相同数据下，只改变相机模型与渲染器，最终高程误差和图像重建质量会怎样变化。

## 数据

论文使用两个卫星多视角 benchmark。

**DFC2019** 来自 2019 IEEE GRSS Data Fusion Contest，包含美国 Jacksonville 城市区域的多日期 WorldView-3 true-color RGB 卫星影像。论文使用四个场景，每个场景约 10 到 20 张影像。这个数据集适合检验城区多视角重建，因为建筑高度、街区遮挡、阴影和多日期差异都会考验几何模型。

**IARPA2016 Multi-View Stereo 3D Mapping Challenge** 是卫星多视角 3D 重建常用 benchmark。论文使用三个标准场景，每个场景约 40 到 50 张影像。原始数据包含全精度全色和多光谱影像，实验管线中转成 8-bit RGB 进行比较。

两个数据集都是光学卫星影像，不是 SAR 或 microwave 数据。评价重点也不是分类精度，而是三维重建质量：主要看 altitude MAE，也报告 PSNR 等图像重建指标。对遥感业务来说，altitude MAE 比单纯渲染好看更重要，因为 DSM/建筑高度/地形结构才是后续 GIS 分析、应急评估和三维城市建模的基础。

## 实验

论文的核心实验把 native RPC renderer、perspective approximation 和 affine approximation 放在同一框架中比较。所有方法使用相同设置，只改变相机模型和渲染方式。

在 DFC2019 上，native RPC 的平均 altitude MAE 为 2.14 m；perspective 近似为 3.04 m，affine 近似为 5.91 m。换算下来，RPC-GS 相比 perspective 降低 29.6% 高程误差，相比 affine 降低 63.8%。这个差距已经不是小修小补，而是说明相机模型近似本身会成为主要误差源。

在 IARPA2016 上，RPC-GS 也保持最低 altitude MAE。论文报告它相比 perspective 和 affine 分别降低 9.9% 和 37.9% 的平均高程误差。这里 perspective 的损失没有 DFC2019 那么大，但 native RPC 仍然稳定领先，说明改动不是只针对一个数据集调参。

PSNR 方面，RPC-GS 保持竞争力，但它的亮点不是“渲染图像最漂亮”，而是“几何更准”。这点对遥感 AI 很重要。很多生成式 3D 方法容易被新视角图像质量带偏，但遥感场景最终要落到坐标、高程、面积、体积、变化和风险上。如果 PSNR 提高但高程错了，业务价值有限；如果高程误差下降，哪怕渲染指标只是持平，也值得重视。

论文还给出多个场景的定性 DSM 对比。Native RPC 在建筑高度和地形结构上更接近参考 DSM，perspective/affine 近似更容易出现整体高度偏移或局部结构扭曲。这个结果符合直觉：卫星成像几何越复杂，越不能把传感器模型简化成普通 CV 相机。

## 亮点

第一，它把传感器几何放回了模型中心。遥感 AI 这几年很容易被“更大 backbone、更大 VLM、更大数据”吸走注意力，但卫星影像不是普通互联网图片。RPC-GS 提醒我们，坐标系、投影、深度和协方差这些基础问题处理不好，上层模型再大也可能建立在不稳的几何上。

第二，贡献边界清楚。RPC-GS 没有宣称解决所有卫星三维重建问题，而是明确解决 3DGS 与 RPC 相机模型之间的不匹配。这样的论文更容易被复现、比较和扩展，因为变量少，因果链清楚。

第三，实验设计有说服力。它不是拿不同方法、不同初始化、不同训练技巧混在一起比，而是在统一框架里只替换相机模型。这个设计直接回答了“RPC 原生渲染是否真的必要”。结果表明，至少在 DFC2019 和 IARPA2016 上，必要。

第四，它对 VLM/Agent 不是直接能力提升，而是底层可信度提升。未来遥感 VLM 如果要回答“这栋楼大概多高”“灾后建筑是否倾斜”“这个施工区土方量变化多少”“道路高架是否遮挡下方区域”，二维 caption 或 mask 不够，必须接入三维几何证据。RPC-GS 这类模型可以成为 VLM 调用的几何工具。

第五，它给遥感世界模型一个更务实的方向。ABot-Earth、3D Earth Model、城市级 3DGS 都很吸引人，但如果基础相机模型不对，规模化只会放大误差。RPC-native rendering 是把卫星三维生成从演示推向可靠工程的必要环节。

## 不足

第一，公开代码状态还需要跟踪。论文摘要和 checklist 都写到会释放代码和数据处理步骤，但我在公开页面没有看到稳定的官方 GitHub 仓库链接。对 3DGS/RPC 这种实现细节敏感的方法，代码、bundle adjustment、初始化、坐标归一化和数据预处理都很关键。

第二，实验场景数量仍有限。DFC2019 四个场景、IARPA2016 三个场景足以证明方法有效，但还不足以说明它在全球复杂地形、不同卫星、不同太阳高度、不同季节和不同城市形态下都稳。尤其是山区、海岸、高层密集区和强阴影区域，仍需要更多验证。

第三，它主要比较相机模型，没有系统处理多日期外观变化。卫星多视角常常跨日期采集，阴影、车辆、植被、云薄雾和施工变化都会干扰重建。Sat-NeRF 等工作处理过 transient objects 和 shadow modeling，RPC-GS 的几何模块未来还需要和这些外观鲁棒机制结合。

第四，当前重点是 DSM 和新视角合成，还没有直接进入语义任务。对遥感 AI 来说，更有价值的下一步是把 RPC-GS 输出的三维结构接到建筑提取、道路立交识别、灾害损毁评估、变化检测和 VLM 证据推理里，而不是只停在重建指标。

第五，计算成本和大范围部署仍是问题。3DGS 比 NeRF 高效，但城市级、国家级或全球级遥感应用需要分块、缓存、增量更新、LOD 和不确定性管理。RPC-native renderer 解决的是几何正确性，不自动解决大规模系统工程。

## 启发

一个值得继续做的小论文方向是：**RPC-aware 3D Evidence Backbone for Remote Sensing VLMs**。核心问题不是让 VLM 直接“看图猜高度”，而是让 VLM 调用一个 RPC 原生三维证据层，再基于 DSM、视角一致性和不确定性回答空间问题。

假设是：在高分辨率光学卫星场景中，把 RPC-GS 生成的 DSM、遮挡关系和多视角一致性特征作为 VLM/Agent 的外部工具，可以显著降低涉及高度、体积、遮挡、建筑损毁和立体结构的问题幻觉率；相比只给 VLM 单张 RGB 或拼接多视角图像，几何证据会让回答更可审计。

方法可以分三步。第一，复现 RPC-GS，在 DFC2019/IARPA2016 上生成 DSM、depth uncertainty 和 view-consistency map。第二，构造一组遥感三维问答/审核任务，例如建筑高度排序、屋顶是否坍塌、桥梁/高架遮挡关系、土方堆体体积变化、DSM 与 RGB 语义是否冲突。第三，让 VLM 不直接输出答案，而是先调用几何工具，读取局部 DSM、候选对象 polygon、跨视角误差和置信度，再生成结构化判断。

数据可以从 DFC2019、IARPA2016、SpaceNet building footprint、xBD 灾害建筑数据和公开 DSM/城市 LiDAR 参考数据开始。最小实验不需要训练大 VLM：可以先用现成 VLM 加检索式工具调用，比较三种输入设置：单张 RGB、多视角 RGB、RGB + RPC-GS 几何证据。指标包括回答准确率、幻觉率、证据引用完整性、高度误差、对象级一致性、人工审核时间和不确定样本召回率。

基线包括 Sat-NeRF、EO-NeRF、普通 perspective/affine 3DGS、传统 MVS/DSM 工具、RGB-only VLM、multi-view VLM 和带 DSM 输入的 VLM。关键消融不是只看哪种 VLM 更强，而是比较几何证据是否真的减少错误：去掉 RPC-native projection、去掉 uncertainty、去掉多视角一致性、只保留单视角 RGB。

一个可直接放进实验规范的 prompt / 检查清单是：

```text
你是遥感三维证据审计器。给定高分辨率光学卫星影像、多视角重建结果、RPC-GS 生成的 DSM、对象 polygon 和不确定性图，请先检查证据，再回答空间问题。

必须执行：
1. 不允许只根据单张 RGB 纹理判断高度、体积、遮挡或损毁。
2. 必须读取对象区域内的 DSM 统计量，包括最小值、最大值、中位数、边界坡度和异常高程点。
3. 必须检查该对象在多视角中的重投影一致性；一致性差时输出“不确定”。
4. 必须区分真实结构变化和阴影、视角差、季节变化、配准误差或临时物体。
5. 输出应包含对象 ID、空间证据、几何置信度、视觉证据、最终判断和人工复核优先级。
6. 对高度或体积类问题，必须给出误差范围，而不是只给单点估计。

禁止把 DSM 当成绝对真值。
禁止在几何证据低置信度时给出确定性结论。
禁止只报告 VQA accuracy，而不报告几何误差和证据引用质量。
```

这个方向和当前遥感 VLM 热点的关系很明确。VLM 擅长读任务、组织证据和生成人可理解的解释，但不擅长凭二维像素稳定恢复三维几何。RPC-GS 这类工作可以把“几何”变成 VLM 可调用的工具层，让遥感智能解译从“看起来像”转向“坐标、高程和多视角证据都支持”。这比单纯扩大多模态指令数据更慢，但更接近真实遥感 AI 系统需要的可信能力。

## 参考

- RPC-GS 论文：https://arxiv.org/abs/2606.06690
- RPC-GS HTML：https://arxiv.org/html/2606.06690v1
- DFC2019 数据集：https://dx.doi.org/10.21227/c6tm-vw12
- Sat-NeRF：https://arxiv.org/abs/2203.11872
- 3D Surface Reconstruction From Multi-Date Satellite Images：https://arxiv.org/abs/2102.02502
- 3D Gaussian Splatting 原论文：https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/