RS-27 DIP with GIS Priors for Tile Selection

Series - 2024-2026 遥感 AI 细分研究方向

RS-27 DIP with GIS Priors for Tile Selection

细问题:把 dynamic image pyramid / coarse-to-fine tile selection 与 GIS 先验结合,让道路、水系、建筑密度、历史变化热力图、POI 等外部地理信息指导高分辨率 tile 选择,用于遥感 VQA 和 visual grounding。

这个方向的研究空位比较清晰:ICCV 2025 的 LRS-VQA / Dynamic Image Pyramid 已经证明“大幅面遥感 VLM 不能直接缩放整图,需要 coarse-to-fine tile selection 和 text-guided token pruning”。但它的 selection 主要依赖图像和文本相关性;遥感任务天然有 GIS 层,例如道路、水体、建筑 footprint、POI、地块、历史变化区域。当前还缺一个系统研究:这些 GIS 先验如何进入 tile selection,什么时候帮忙,什么时候导致模型偷看地图或被过期地图误导。

最值得做的小论文题目可以是:

GeoPrior-DIP: GIS-prior guided dynamic image pyramid for evidence-grounded remote sensing VQA and visual grounding.

核心假设:在大幅面遥感图像中,若问题和地理关系相关,例如“道路旁的受损建筑”“靠近水体的施工区域”“机场附近的飞机”“高建筑密度区域中的停车场”,把 GIS prior 作为 tile selection 的软约束,可以在相同高分辨率 tile budget 下提升 evidence tile recall、grounding IoU 和 VQA accuracy;但必须加入 image-only / GIS-only / noisy-GIS 对照,避免模型只靠地图先验猜答案。

类别论文/项目年份/来源链接与 RS-27 的关系
大图 VLM / DIPWhen Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token PruningICCV 2025CVF, arXiv, GitHub/LRS-VQA直接前作;提出 Dynamic Image Pyramid 和 text-guided pruning,是本方向的 image/text baseline。
大图检索Text-to-Region Retrieval in Large EO Mosaics本项目 RS-08本地文件已提出 GIS prior index 思路;RS-27 将其从检索扩展到 VQA/grounding tile selection。
证据约束 VQAEvidence-Grounded RS-VQA本项目 RS-06本地文件提供 answer + evidence tile/bbox/mask 的评价框架,可直接作为 RS-27 的任务定义。
视觉定位GeoGround: A Unified Large Vision-Language Model for Remote Sensing Visual GroundingarXiv 2024arXiv, GitHub可提供 HBB/OBB/mask grounding baseline;GIS-prior selection 可以作为高分辨率候选 tile 前端。
VLM benchmarkGEOBench-VLMICCV 2025CVF PDF, GitHub任务覆盖计数、定位、分割、时序分析;可借鉴任务类型和人工核验方式。
RS-VLM 数据VRSBenchNeurIPS 2024 Datasets & BenchmarksarXiv, GitHub有 caption、object reference、VQA,可作为 evidence-grounded QA 数据源之一。
Geo prior VLMGeoPriorCLIP2025/2026 方向ORNL page通过级联地理信息先验增强 RSVLM,说明“地理先验 + 图文对齐”是合理路线。
Raster-vector 表示Spatial Representation Learning Beyond PixelsarXiv 2026arXiv代表 raster 与 vector semantics 融合趋势;RS-27 可把 vector semantics 下沉为 tile prior。
Geoentity 表示NARA: Anchor-Conditioned Relation-Aware Contextualization of Heterogeneous GeoentitiesarXiv 2026arXiv提供 heterogeneous geoentities / relation-aware 表示思路,适合建 POI/road/building relation prior。
图像+表格/环境变量GeoViSTA: Geospatial Vision-Tabular TransformerarXiv 2026arXiv说明遥感/地理任务正在融合 image + tabular/geospatial attributes。
鲁棒性EarthShiftarXiv 2026arXiv, project可用于测试 GIS prior 在真实分布偏移下是否仍有效。
地图先验数据OpenStreetMap持续更新OSM, Overpass API道路、水体、POI、landuse 的主要开放来源,但存在时效和覆盖偏差。
建筑 footprintMicrosoft Global ML Building Footprints数据源GitHub建筑密度、建筑 footprint entropy、urban prior。
建筑 footprintGoogle Open Buildings数据源project适合非洲、南亚等区域的建筑先验与覆盖偏差分析。
动态地表Dynamic World数据源project, Nature article可构造历史变化热力图和水体/植被/建成区先验。

大幅面遥感 VQA 和 grounding 有一个很具体的瓶颈:问题相关区域可能只占整图极小比例。直接缩放整图会吞掉小目标;固定切 tile 会让 token 数和延迟爆炸;只靠低分辨率图像注意力又容易漏掉语义弱但地理关系强的目标。

GIS 先验之所以有价值,是因为很多遥感问题本来就带有空间关系:

  • “道路旁的建筑是否受损”:候选区域应靠近道路和建筑 footprint。
  • “水体附近是否出现新施工”:候选区域应靠近水体边界,且历史变化热力图较高。
  • “机场停机坪上有多少飞机”:候选区域应靠近 airport/runway/apron POI 或 OSM aeroway。
  • “城市边缘是否有新增裸地”:候选区域应在建成区边缘,且多时相变化显著。
  • “桥梁附近是否有洪水淹没道路”:候选区域应同时满足 road-water intersection / bridge prior。

这不是把 GIS 信息粗暴拼给 VLM。真正的问题是:在高分辨率 tile budget 有限时,GIS prior 如何帮助选择该放大的局部区域,同时不让模型偷懒只靠地图作答。

输入:

  • 大幅面光学遥感图像或 mosaic:I
  • 自然语言问题或 grounding query:q
  • 多尺度 tile pyramid:T_l = {t_i^l}
  • 可选 GIS 层:道路、水体、建筑 footprint、POI、地块、行政边界、历史变化热力图

输出:

  • VQA:答案 a、证据 tile ids、bbox/mask、置信度
  • Grounding:目标 bbox/OBB/mask、证据 tile ids、GIS consistency score

把问题中的地理实体和关系解析成 prior weights。

Query token / relation对应 GIS prior
road, highway, bridge, intersection, runwayroad density, distance-to-road, road class, line orientation
river, lake, coastline, flooded, waterwater mask overlap, distance-to-water, flood/change score
building, residential, dense urban, damagedbuilding footprint density, footprint size distribution, building-road adjacency
airport, school, hospital, port, factoryPOI category count, distance-to-POI, landuse tag
newly built, changed, expanded, damagedhistorical change heatmap, multi-temporal embedding difference
near, adjacent, inside, between, alongdistance transform, topology relation, containment, intersection

实现上先不必训练 parser。最小版本可以用规则和关键词;增强版本可用 LLM 抽取 (entity, relation, prior_type),再映射到 GIS feature。

对每个 tile 预计算 GIS 特征,避免推理时重复 rasterize。

tile_features[t] = {
  road_density,
  distance_to_major_road_min,
  water_fraction,
  distance_to_water_min,
  building_density,
  building_footprint_entropy,
  poi_type_histogram,
  landuse_histogram,
  historical_change_score,
  map_age_or_confidence,
  gis_coverage_flag
}

注意:每个 GIS layer 要记录来源和时间戳。过期道路、缺失建筑 footprint、POI 覆盖偏差都要进入鲁棒性测试,而不是被当作干净真值。

对候选 tile 计算三类分数:

S(t | q) =
  alpha * S_visual_lowres(t, q)
+ beta  * S_gis_prior(t, q)
+ gamma * S_uncertainty_or_novelty(t)
- lambda * S_redundancy(t, selected_tiles)
  • S_visual_lowres:LRS-VQA/DIP 风格的低分辨率图文相关性。
  • S_gis_prior:query parser 权重与 tile GIS feature 的匹配度。
  • S_uncertainty_or_novelty:避免只选最像的区域,保留可能漏检的小目标/长尾区域。
  • S_redundancy:diversity term,避免 top-K 都集中在同一片城区。

关键设计:GIS prior 只用于 tile selection 和 reranking,不直接生成最终答案。最终答案必须由高分辨率图像证据支持。

  1. Level 0:低分辨率全图,计算 image/text saliency。
  2. Level 1:粗 tile,融合 GIS prior,选 top-K。
  3. Level 2:对子 tile 继承父 tile GIS feature,并加入局部 rasterized prior。
  4. Level 3:高分辨率 tile 送入 VLM/grounding head。
  5. Re-query:如果 answer confidence 高但 evidence/GIS consistency 低,触发更多 tile。

输出必须包含证据:

answer: "yes / count / class / description"
evidence:
  tile_ids: [...]
  bbox_or_mask: [...]
scores:
  answer_confidence: ...
  tile_recall_proxy: ...
  gis_consistency: ...
  image_gis_disagreement: ...

当 GIS prior 与图像证据冲突时,模型应报告 image_gis_disagreement,例如 OSM 显示有道路但影像里道路已被淹没或地图过期。

样例问题:

  • “Is there a damaged building near the main road?”
  • “How many aircraft are parked near the runway?”
  • “Are there construction changes along the river?”
  • “Is the flooded area covering any road segments?”
  • “Which dense-building area contains a parking lot?”

标注:

  • answer
  • evidence tile id
  • bbox/mask
  • query relation type:road / water / building / POI / change
  • GIS layer availability and timestamp

输入 query:

  • “the building cluster west of the river”
  • “the bridge crossing the flooded road”
  • “airplanes near the terminal apron”
  • “new bare soil patches beside the highway”

输出 bbox/OBB/mask。重点测 tile selection 是否先找到正确 high-res tile,再测 grounding。

这是最有新意的扩展任务:故意收集地图过期或遥感影像显示变化的区域,让模型判断“GIS prior 与影像是否冲突”。这能防止 GIS prior 变成捷径。

组件数据来源用途
大图/高分辨率影像LRS-VQA、xView、SpaceNet、DeepGlobe、Vaihingen/Potsdam、NAIP/Maxar 可用区域大图 VQA / grounding 主影像
道路OSM roads、SpaceNet Roads、DeepGlobe Roadsroad prior、bridge/intersection queries
建筑Microsoft Global ML Building Footprints、Google Open Buildings、SpaceNet buildingsbuilding density、building footprint prior
水体OSM water、Dynamic World、JRC Global Surface Waterwater proximity、flood/water relation
POIOSM POI tagsairport/school/hospital/port/factory prior
历史变化Dynamic World time series、Sentinel-2 NDVI/NDBI/NDWI diff、已有 change labelschange heatmap prior
  1. 选 20-50 张大幅面影像或 mosaic。
  2. 对齐 OSM/建筑/水体/POI GIS 层,生成多尺度 tile feature bank。
  3. 按 prior 类型自动生成候选 query,例如 road-near-building、water-near-road、airport-aircraft。
  4. 用 GIS 只生成候选,不直接当真值;人工核验 answer 与 evidence bbox/mask。
  5. 构造 noisy-GIS split:随机删除、平移、过期或替换部分 GIS layer。
Baseline描述目的
Fixed grid固定切 tile,按顺序或均匀采样最朴素成本基线
Low-res only缩放整图直接 VQA/grounding测小目标损失
Image-only DIPLRS-VQA 风格,仅用 image/text saliency直接前作
GIS-only selector只用 GIS prior 选 tile,再看图回答检测 prior shortcut
Late fusionimage-only top-K 与 GIS top-K 合并简单融合
GeoPrior-DIPimage/text/GIS/uncertainty 联合 scorer目标方法
Oracle tile用标注 evidence tile 作为上限测后端 VLM/grounding 上限
  • Evidence Tile Recall@K:top-K tile 是否覆盖人工证据区域。
  • Evidence Area Coverage@K:top-K tile 覆盖证据 mask 的比例。
  • Tile Budget:平均处理高分辨率 tile 数。
  • Token/Latency Cost:视觉 token 数、推理时间、显存。
  • Selection Diversity:选中 tile 的空间分散程度,避免只集中在城区。
  • VQA accuracy / F1 / exact match。
  • Grounding IoU、mAP、pointing game accuracy。
  • Evidence consistency:答案是否由证据 bbox/mask 支撑。
  • Relation correctness:near/inside/along/intersection 等空间关系是否成立。
  • Prior Reliance Gap:image+GIS 与 GIS-only 的差距。若 GIS-only 很高,要警惕捷径。
  • Noisy-GIS Robustness:GIS layer 删除、平移、过期时性能下降。
  • Image-GIS Conflict Detection:地图和影像冲突时能否拒绝或报告不一致。
  • Coverage Bias:不同国家/城乡/OSM 完整度下的性能差异。
实验RoadWaterBuildingPOIChange heatmapUncertainty目标问题
A0 image-only DIP000000直接前作
A1 + road100000road-near-object 是否提升
A2 + water010000flood/river/coast query
A3 + building001000dense urban/building query
A4 + POI000100airport/port/school/hospital query
A5 + change heatmap000010newly built/damaged/expanded query
A6 all GIS111110GIS 全量收益
A7 all + uncertainty111111防止漏掉 prior 弱区域
A8 noisy GIS111111地图错误下的鲁棒性
A9 GIS-only111110检查捷径和偏置

论文中可以把结果表设计成这样:

MethodTile R@5Evidence Coverage@5VQA AccGrounding IoUTokensLatencyNoisy-GIS Drop
Low-res only-
Fixed grid-
Image-only DIP中高中高中高中高-
GIS-onlyquery-dependentquery-dependent不稳定不稳定
GeoPrior-DIP可控
Oracle tile上限上限上限上限-
  1. GIS shortcut:模型可能只靠地图作答,例如 OSM 有 airport 就回答有飞机。解决:必须做 image-only、GIS-only、image+GIS、noisy-GIS 四组。
  2. 地图过期:OSM/建筑 footprint 与影像时间不一致。解决:记录 GIS timestamp,构造 image-GIS conflict split。
  3. 覆盖偏差:OSM 在欧美城市更完整。解决:按国家、城乡、OSM completeness 分层报告。
  4. 空间错位:矢量数据与影像存在 meter-level shift。解决:tile-level prior 用软距离场,不用硬 intersection。
  5. 先验过强导致漏检:不在地图附近的目标被忽略。解决:加入 uncertainty/novelty branch,保留 image-only 高不确定区域。
  6. 评价混淆:VQA 答案提升可能来自更好的 tile selection,也可能来自后端 VLM。解决:单独报告 tile recall 与 oracle tile 上限。
  • 选 10-20 张大图,优先 LRS-VQA 或公开 VHR 城市影像。
  • 用 OSM + building footprints + water layer 对齐影像 footprint。
  • 构造 3 层 pyramid:全图、1024/2048 tile、512/1024 子 tile。
  • 预计算 road/water/building/POI/change features。
  • 实现 fixed grid、image-only DIP、GIS-only selector、late fusion。
  • 先做 tile recall,不接复杂 VLM。
  • 人工标注 100-200 个 evidence tile/query。
  • 实现 query parser 和 fusion scorer。
  • 加 uncertainty/diversity term。
  • 接 GeoGround/GroundingDINO/SAM 或 VLM QA 后端。
  • 做 A0-A9 ablation。
  • 做 noisy-GIS:删除 30% road、平移 building footprint、替换 POI。
  • 报告 tile recall、answer accuracy、grounding IoU、cost、prior reliance gap。
  1. 任务贡献:第一个系统研究 GIS-prior guided tile selection 的遥感大图 VQA/grounding benchmark。
  2. 方法贡献:GeoPrior-DIP,将 image/text saliency、GIS prior、uncertainty/diversity 融合到 dynamic pyramid selection。
  3. 评测贡献:提出 prior reliance gap、noisy-GIS robustness、image-GIS conflict detection 等指标。
  4. 实践贡献:降低高分辨率 tile 处理量,在 relation queries 上提升 evidence recall。

目标 venue:TGRS / ISPRS JPRS / CVPR EarthVision / ICCV workshop;若数据和实验足够强,可向 ICCV/CVPR 地理空间 VLM 方向冲击。

  • RS-06:提供 evidence-grounded VQA 评价。
  • RS-08:提供 text-to-region retrieval 的粗索引思路。
  • RS-09:提供 HBB/OBB/mask grounding 后端。
  • RS-21:提供真实分布偏移和 OOD split 设计。
  • RS-39:后续可专门研究 POI-assisted VLM reasoning,避免 POI shortcut。
  • large remote sensing imagery vision language model dynamic image pyramid
  • coarse-to-fine tile selection remote sensing VQA
  • GIS priors remote sensing visual grounding
  • OpenStreetMap prior remote sensing VLM
  • raster vector fusion geospatial foundation model
  • map prior guided tile selection satellite imagery
  1. When Large Vision-Language Model Meets Large Remote Sensing Imagery, ICCV 2025
  2. LRS-VQA GitHub
  3. GeoGround arXiv
  4. GeoGround GitHub
  5. GEOBench-VLM CVF PDF
  6. GEOBench-VLM GitHub
  7. VRSBench arXiv
  8. VRSBench GitHub
  9. GeoPriorCLIP ORNL page
  10. Spatial Representation Learning Beyond Pixels arXiv
  11. NARA arXiv
  12. GeoViSTA arXiv
  13. EarthShift arXiv
  14. OpenStreetMap
  15. Overpass API
  16. Microsoft Global ML Building Footprints
  17. Google Open Buildings
  18. Dynamic World

Related Content

评论