目标检测系列——开山之作RCNN原理

绛木子 2024-07-07 251

RCNN原理

首先介绍RCNN的原理，先来看看论文中这张经典的图片。这张图片展示了RCNN的实现过程，其主要有四步，下面分别对每步进行讲解。

候选区域生成

候选区域生成在RCNN中采用的是selective search 【简称SS算法】，这个算法的原理大致是通过颜色、大小、形状等一些特征对图像进行聚类，算法的结果是在一张图片中生成一系列的候选框，RCNN中让每张图像都生成2000个候选框。这些候选框有着大量的重叠部分，因此我们后面需要将这些重叠的候选框去除，得到相对准确的候选框。下图展示了SS算法得到的大致结果，可见一个目标会有多个候选框生成。

神经网络提取特征

上一步我们由SS算法从一张图片中得到了2000个候选框，接下来需要对这些候选框进行特征提取，即分别将2000个候选框区域喂入ALexNet网络进行训练，提取特征。

需要注意的是，在RCNN中，我们不需要最后的softmax层，只需要经过最后两次全连接层，利用其提取到的特征即可。此外由于全连接层的存在，需要对输出图片的尺寸进行限制，即需要图片分辨率为227227。论文中所采用的方法为无论候选区域的大小或纵横比如何，先将其周围扩展16个邻近像素，然后将所有像素强制缩放至227227尺寸。

SVM分类器分类

回归器修正候选框位置

目标检测 RCNN