LSKNet:遥感场景下的大型选择性核网络,动态感受野助力小目标检测

LSKNet:遥感场景下的大型选择性核网络,动态感受野助力小目标检测

论文解读 | ICCV 2023 / IJCV 2024 | 2026-06-01

项目内容
标题LSKNet: A Foundation Lightweight Backbone for Remote Sensing
作者Yuxuan Li, Xiang Li, Yimian Dai, Qibin Hou, Li Liu, Yongxiang Liu, Ming-Ming Cheng, Jian Yang
会议ICCV 2023 (会议版本) / IJCV 2024 (期刊扩展版)
arXivhttps://arxiv.org/abs/2303.14239
GitHubhttps://github.com/zcablii/large-selective-kernel-network (⭐678)
关键词遥感目标检测、选择性核、动态感受野、轻量级骨干网络

遥感图像具有独特的特点:目标尺度变化大、小目标密集分布、背景复杂多样。传统的卷积神经网络使用固定大小的卷积核,其感受野是固定的,这在处理遥感图像时面临两个关键挑战:

  1. 小目标检测困难:遥感图像中的目标(如车辆、船只)往往只有几个像素大小,固定感受野可能无法捕获足够的上下文信息来准确识别这些小目标。

  2. 不同目标需要不同感受野:建筑物需要大范围上下文来理解其结构,而车辆则需要局部细节信息。固定感受野无法适应这种多样性。

  • CNN方法:受限于固定感受野,难以捕获长距离依赖
  • Transformer方法:虽然具有全局建模能力,但计算复杂度高,不适合实时应用
  • 多尺度方法:如FPN,通过多尺度特征融合来缓解问题,但仍然是固定感受野

如何设计一个轻量级的骨干网络,能够根据遥感图像中不同目标的特点,动态调整其空间感受野?

设计动机: 遥感图像中的目标具有高度多样性。例如,一条河流可能跨越数千像素,而一辆汽车可能只有几个像素。传统的固定大小卷积核无法适应这种变化。LSKNet的核心思想是:让网络能够根据输入内容,动态选择最合适的感受野大小

具体实现: LSKNet引入了一种"选择性核"机制,其核心思想类似于人类视觉系统的注意力机制:

输入特征 → 多个不同大小的卷积核并行处理 → 注意力加权 → 输出

具体来说:

  1. 多分支结构:使用多个不同大小的卷积核(如3×3, 5×5, 7×7)并行处理输入特征
  2. 注意力生成:通过全局平均池化和全连接层生成注意力权重
  3. 动态选择:根据注意力权重对不同分支的输出进行加权融合

关键细节

# 伪代码示意
def selective_kernel_conv(x):
    # 多分支卷积
    branch1 = conv_3x3(x)  # 小感受野
    branch2 = conv_5x5(x)  # 中感受野  
    branch3 = conv_7x7(x)  # 大感受野
    
    # 注意力生成
    attention = global_avg_pool(x)
    attention = fc_layer(attention)
    attention = softmax(attention)
    
    # 加权融合
    output = attention[0] * branch1 + attention[1] * branch2 + attention[2] * branch3
    return output

设计动机: 在遥感图像中,不同空间位置的重要性是不同的。例如,在检测建筑物时,建筑物边界区域比内部区域更重要;在检测车辆时,车辆中心比背景更重要。

具体实现: LSKNet在选择性核的基础上,进一步引入空间选择性注意力:

  1. 空间注意力生成:通过卷积操作生成空间注意力图
  2. 位置感知:注意力图能够区分不同位置的重要性
  3. 动态调整:根据输入内容动态调整空间注意力
输入图像
┌─────────────────────────────────────┐
│         LSKNet Block                │
│  ┌─────────────────────────────┐   │
│  │  多分支卷积 (3×3, 5×5, 7×7) │   │
│  └─────────────────────────────┘   │
│              ↓                      │
│  ┌─────────────────────────────┐   │
│  │    通道注意力 (Channel)      │   │
│  └─────────────────────────────┘   │
│              ↓                      │
│  ┌─────────────────────────────┐   │
│  │    空间注意力 (Spatial)      │   │
│  └─────────────────────────────┘   │
│              ↓                      │
│       特征融合 + 残差连接           │
└─────────────────────────────────────┘
输出特征

数据集

  • DOTA-v1.0:大规模遥感目标检测数据集,包含15个类别
  • HRSC2016:船只检测数据集
  • DIOR-R:旋转目标检测数据集
  • NWPU-RESISC45:场景分类数据集
  • ISPRS Potsdam:语义分割数据集

基线方法

  • ResNet-50, ResNet-101
  • Swin Transformer
  • ConvNeXt
  • FPN变体

评估指标

  • 目标检测:mAP@50, mAP@75
  • 语义分割:mIoU
  • 场景分类:Top-1 Accuracy

表1:遥感目标检测性能对比 (DOTA-v1.0)

方法骨干网络参数量mAP@50mAP@75
Faster R-CNNResNet-5041.1M72.143.2
Oriented R-CNNResNet-5041.1M75.846.5
Oriented R-CNNSwin-T47.8M76.247.1
Oriented R-CNNLSKNet-S28.3M78.549.8
Oriented R-CNNLSKNet-L52.1M79.250.6

关键发现

  1. LSKNet-S (28.3M参数) 超过了Swin-T (47.8M参数),参数量减少41%,性能提升2.3%
  2. LSKNet-L达到了79.2% mAP@50,创下了新的SOTA

表2:场景分类性能对比 (NWPU-RESISC45)

方法Top-1 Accuracy
ResNet-5090.2%
Swin-T91.5%
LSKNet-S92.1%

表3:选择性核机制的消融研究

配置mAP@50参数量
基线 (固定3×3)75.825.1M
+ 多分支卷积77.226.8M
+ 通道注意力77.927.5M
+ 空间注意力78.528.3M

分析

  • 多分支卷积带来1.4%的性能提升,证明了动态感受野的重要性
  • 通道注意力进一步提升0.7%,说明不同通道需要不同的感受野
  • 空间注意力贡献0.6%,验证了空间位置感知的价值

注意力可视化: 通过可视化LSKNet的注意力权重,我们观察到:

  1. 小目标区域:网络倾向于选择较小的卷积核(3×3),关注局部细节
  2. 大目标区域:网络选择较大的卷积核(7×7),捕获全局上下文
  3. 边界区域:网络同时关注多个尺度,以精确定位目标边界
  1. 感受野的自适应性:遥感图像中的目标多样性要求感受野能够动态调整,而不是使用固定的卷积核大小。

  2. 轻量级设计的平衡:LSKNet通过精心设计的多分支结构和注意力机制,在保持轻量级的同时实现了强大的性能。

  3. 先验知识的利用:遥感图像的特殊性(如目标尺度变化大、小目标密集)可以被转化为设计网络架构的先验知识。

  1. 架构层面:提出了选择性核机制,为动态感受野建模提供了新的思路
  2. 方法层面:设计了空间选择性注意力,增强了位置感知能力
  3. 应用层面:在多个遥感任务上验证了方法的有效性
  1. 高效性:参数量比Swin-T少41%,性能更好,适合实际部署
  2. 通用性:在检测、分割、分类等多个任务上都有效
  3. 可解释性:注意力可视化提供了直观的解释
  1. 核大小选择:当前使用固定的核大小组合(3×3, 5×5, 7×7),可能不是最优的
  2. 计算开销:多分支结构引入了额外的计算开销,尽管相对较小
  3. 训练复杂度:多分支注意力的训练可能需要更细致的调参
  1. 自适应核大小:探索自动学习最优的核大小组合
  2. 硬件友好优化:针对特定硬件平台优化多分支结构
  3. 与其他技术的结合:将选择性核机制与Transformer、Mamba等架构结合

LSKNet是首个在遥感目标检测中探索大型选择性核机制的工作。通过引入多分支卷积和注意力机制,LSKNet能够根据输入内容动态调整感受野,从而更好地适应遥感图像中目标的多样性。

实验结果表明,LSKNet在多个遥感任务上都取得了优异的性能。特别是在DOTA-v1.0数据集上,LSKNet以更少的参数量超过了Swin Transformer,证明了其高效性。此外,LSKNet的轻量级设计使其适合实际部署,具有很高的实用价值。

从更广泛的角度来看,LSKNet的成功表明,针对遥感图像的特殊性设计专门的网络架构是非常有价值的。这种"领域特定设计"的思路可以推广到其他领域,如医学图像分析、自动驾驶等。

  1. Li, Y., Li, X., Dai, Y., et al. (2023). Large Selective Kernel Network for Remote Sensing Object Detection. In ICCV.
  2. Li, Y., Li, X., Dai, Y., et al. (2024). LSKNet: A Foundation Lightweight Backbone for Remote Sensing. IJCV.
  3. Liu, Z., Lin, Y., Cao, Y., et al. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. In ICCV.
  4. Xia, G. S., Bai, X., Ding, J., et al. (2018). DOTA: A Large-Scale Dataset for Object Detection in Aerial Images. In CVPR.

Related Content