跳转至

FPN

概述

[CVPR2017][FPN] Feature Pyramid Networks for Object Detection

FPN 是一个非常重要的 idea,这种设计思想被广泛应用于后续的目标检测方法中。

Motivation

对于不同 scale 的图像/特征识别物体是计算机视觉中常见的任务,许多的目标检测模型在识别的过程中应用了不同的 scale。在提取特征的过程中形成了这种“特征金字塔”(feature pyramid)的结构。在特征金字塔中:

  • 顶层的特征图有强语意(semantically strong),但位置信息粗略,用来预测小物体的 bbox 不准确。
  • 底层的特征图有弱语意,但位置信息精确。

因此,作者考虑能够通过一种方法提取兼有二者优点的特征。将上层的强语意与下层的高分辨率结合。

模型结构

Bottom-up pathway

自底向上的过程生成强语意的金字塔顶。

这一过程相当于下采样的过程,使用常用的卷积层就可以实现。在作者使用的 ResNet backbone 中,作者采样的步长为 2,最后留下的特征图为 \{C_2, C_3, C_4, C_5\},相对原图像采样步长分别为 \{4, 8, 16, 32\}

Top-down pathway and lateral connections

自顶向上的过程,并利用横向连接进行特征融合。

自顶向下

对语意更强的高层特征图进行上采样,得到与下层相同的尺寸。

横向连接

对下层特征图用 1 \times 1 卷积降维,并且与按位加与上层融合。

卷积

为降低混叠效应(aliasing effect),对得到的融合后的特征图再进行 3 \times 卷积,得到最终结果 \{P_2, P_3, P_4, P_5\}

应用

以 YOLOv4 为例,FPN 被应用在 neck 的部分对于 backbone 提取出的多尺度特征进行融合。


最后更新: 2022年7月12日
回到页面顶部