yolo introduction.pptx4. YOLO系列时间线
《You Only Look Once: Unified,
Real-Time Object Detection》
2015年
YOLOv1
YOLOv2
2016年
《YOLO9000: Better, Faster,
Stronger》
《YOLOv3: An Incremental
Improvement》
2018年
YOLOv3
YOLOv4
2020.04
Alexey Bochkovskiy
《YOLOv4: Optimal Speed and
Accuracy of Object Detection》
Ultralytics公司
2020.06
YOLOv5算法
12. YOLOv2
• Batch normalization
• High Resolution Classifier
• Convolutional With Anchor Boxes
• Dimension Clusters
• Direct location prediction
• New network:Darknet-19
• Fine-Grained Features
• Multi-state training
13. Batch normalization
• Batch Normalization可以提升模型收敛速度,而且可以起到一定正
则化效果,降低模型的过拟合。在YOLOv2中,每个卷积层后面都
添加了Batch Normalization层,并且不再使用droput。使用Batch
Normalization后,YOLOv2的mAP提升了2.4%。
60. 参考内容
• YOLOv1-v4论文
• https://github.com/ultralytics/yolov5
• https://blog.csdn.net/wfei101/article/details/79398563
• https://zhuanlan.zhihu.com/p/35325884
• https://github.com/bubbliiiing/yolov4-pytorch
• https://zhuanlan.zhihu.com/p/143747206
• https://zhuanlan.zhihu.com/p/172121380
• https://www.jiangdabai.com/
Editor's Notes yolov1-yolov3都是同一个作者,原作者宣布不继续yolo系列后,俄罗斯的Alexey扛起了大旗
1)将输入图片resize变换到448*448的大小;2)通过卷积神经网络预测出可能存在物体的框;3)通过NMS滤掉多余的框得到检测结果 yolov1将输入划分为7*7的格子,每个格子预测两个目标框,每个框的预测参数包含4个目标框(bounding box)的值和一个置信度,
最终的输出为7*7*30:将输入图像划分为7*7的区域,每个区域预测2个物体框,每个框包含5个参数,分别为框的4个位置信息和1个置信度,20个(VOC数据集)类别的预测概率。30=2*5+20 受faster R-CNN启发引入先验框(anchor boxes)
对边框的预测使用相对先验款的偏移值offsets
使用416*416的原因:这一步的目的是为了让后面产生的卷积特征图宽高都为奇数,这样就可以产生一个center cell
没有anchor boxes,模型recall为81%,mAP为69.5%;加入anchor boxes,模型recall为88%,mAP为69.2% 使用sigmoid函数来归一化,cx,cy表示第几个中心点的位置,如图中所示,此时cx=cy=1, pw和ph是先验框的宽度与长度 前面26 * 26 * 512的特征图使用按行和按列隔行采样的方法,就可以得到4个新的特征图,维度都是13 * 13 * 512,然后做concat操作,得到13 * 13 * 2048的特征图,将其拼接到后面的层,相当于做了一次特征融合,有利于检测小目标。 在测试时,YOLOv2可以采用不同大小的图片作为输入,在VOC 2007数据集上的效果如下图所示。可以看到采用较小分辨率时,YOLOv2的mAP值略低,但是速度更快,而采用高分辨输入时,mAP值更高,但是速度略有下降
mAP:对所有类的AP去平均
AP: Dropout:随机失活防止过拟合,每次都随机去除一半的神经元,大量应用在全连接网络里,但在卷积网络里效果不好 Dropout效果不好的原因:卷积层对这种随机丢弃的点不敏感,因为在卷积神经网络中,常用的三连操作,卷积层+激活+池化层,池化层本身就是对相邻单元作用的,因此即使随机丢弃,通过三连操作,也可以从相邻的位置学习到相同的信息,所以dropout在卷积神经网络里效果并不好 Dropblock研究者的启发来源于Cutout数据增强 注意:这里最大池化采用padding操作,移动的步长为1,比如13×13的输入特征图,使用5×5大小的池化核池化,padding=2,因此池化后的特征图仍然是13×13大小。 YOLOv5有四种模型,Yolov5s、Yolov5m、Yolov5l、Yolov5x