(以下内容写于一年前)
以下内容来自作者关于yolov2的原论文及个人理解
Yolov2在Yolov1的基础上进行了许多的改进,
其中包括
Batch Normalization(批标准化):作者在每个卷积层后面都加了一个batch normalization 层,作用是让网络更好的收敛和防止过拟合,添加了Batch Normalization层之后就可以去掉防止过拟合的dropout操作
High Resolution Classifier(更高的分辨率):
将检测图片的分辨率提升到448*448,更全面的提取图片中的特征。
Convolution With Anchor Boxes:
在yolov1中,bounding box的预测是由神经网络自己根据训练集学习得的,没有预先定义bounding box。在yolov2中作者借鉴了Fast RCNN的做法,采用了事先设置bounding box而神经网络要做的预测关于事先设置的bounding box的中心点和长宽的偏移。不过与Fast RCNN的手动选择预定义bound ing box的方法不同,作者使用k-means对训练集的bounding box的相关数据进行归纳获取预定义bounding box的属性。至于为什么选择预定义bounding box,作者的说法是卷积网络预测偏移要比直接预测各个属性坐标要简单。
Fine-Grained Features(更加细致的特征):
Yolov1是将原图片分成7*7的特征图这也造成了Yolov1在检测小物体时有很大的问题,Yolov2将原来的7*7变成了11*11,在一定程度上对检测小物体优化。Yolov2还使用了passthrough layer即把较浅层的特征图与深层特征图结合,使在深层的传递中也有较为细粒度的浅层特征。
Direct location prediction:
上面提到了Yolov2采用了预定义bounding box进行bounding box的预测,与Yolov1关于bounding box还有几个不同点,Yolov2每个grid cell预测5个bounding box,每个bounding box包含五个属性如下图:
其中t是神经网络输出的相关值,c是grid cell关于原图像的坐标,p是预定义的bounding box的长宽,b则是预测出的属性, 是就是这个bound ing box的confidence。
Darknet-19:
Yolov2采用了一种新的分类网络结构darknet-19,一共有19个卷积层,5个Maxpool层,网络结构如下,Darknet-19去掉了原本yolov1中的全连接层,改为使用Global average pooling 。
来源:CSDN
作者:WavewaveDeng
链接:https://blog.csdn.net/weixin_41418240/article/details/103683338