opencv-python+yolov3实现目标检测

权重文件、配置文件、label名称的下载地址：
https://pjreddie.com/media/files/yolov3.weights
https://github.com/pjreddie/darknet/blob/master/cfg/yolov3.cfg
https://github.com/pjreddie/darknet/blob/master/data/coco.names
百度云链接: https://pan.baidu.com/s/17wGydZnDF1KFIDv9p-c9FQ 提取码: typr

正文

先引库

import numpy as np
import cv2 as cv
import os
import time

yolo_dir = 'yolov3'  # YOLO文件路径
weightsPath = os.path.join(yolo_dir, 'yolov3.weights')  # 权重文件
configPath = os.path.join(yolo_dir, 'yolov3.cfg')  # 配置文件
labelsPath = os.path.join(yolo_dir, 'coco.names')  # label名称
imgPath = os.path.join(yolo_dir, '2.jpg')  # 测试图像
CONFIDENCE = 0.5  # 过滤弱检测的最小概率
THRESHOLD = 0.4  # 非最大值抑制阈值

我的路径如下：

# 加载网络、配置权重
net = cv.dnn.readNetFromDarknet(configPath, weightsPath)  # #  利用下载的文件
print("loading YOLO.....")  # # 可以打印下信息

# 加载图片、转为blob格式、送入网络输入层
img = cv.imread(imgPath)
blobImg = cv.dnn.blobFromImage(img, 1.0/255.0, (416, 416), None, True, False)# net需要的输入是blob格式的，用blobFromImage这个函数来转格式
net.setInput(blobImg)  # # 调用setInput函数将图片送入输入层
# 获取网络输出层信息（所有输出层的名字），设定并前向传播
outInfo = net.getUnconnectedOutLayersNames()# 前面的yolov3架构也讲了，yolo在每个scale都有输出，outInfo是每个scale的名字信息，供net.forward使用
print(outInfo)
layerOutputs = net.forward(outInfo)  # 得到各个输出层的、各个检测框等信息，是二维结构。

# 拿到图片尺寸
(H, W) = img.shape[:2]
# 过滤layerOutputs
# layerOutputs的第1维的元素内容: [center_x, center_y, width, height, objectness, N-class score data]
# 过滤后的结果放入：
boxes = [] # 所有边界框（各层结果放一起）
confidences = [] # 所有置信度
classIDs = [] # 所有分类ID

# # 1）过滤掉置信度低的框框
for out in layerOutputs:  # 各个输出层
    for detection in out:  # 各个框框
        # 拿到置信度
        scores = detection[5:]  # 各个类别的置信度
        classID = np.argmax(scores)  # 最高置信度的id即为分类id
        confidence = scores[classID]  # 拿到置信度

        # 根据置信度筛查
        if confidence > CONFIDENCE:
            box = detection[0:4] * np.array([W, H, W, H])  # 将边界框放会图片尺寸
            (centerX, centerY, width, height) = box.astype("int")
            x = int(centerX - (width / 2))
            y = int(centerY - (height / 2))
            boxes.append([x, y, int(width), int(height)])
            confidences.append(float(confidence))
            classIDs.append(classID)

# # 2）应用非最大值抑制(non-maxima suppression，nms)进一步筛掉
idxs = cv.dnn.NMSBoxes(boxes, confidences, CONFIDENCE, THRESHOLD) # boxes中，保留的box的索引index存入idxs
# 得到labels列表
with open(labelsPath, 'rt') as f:
    labels = f.read().rstrip('\n').split('\n')
# 应用检测结果
np.random.seed(42)
COLORS = np.random.randint(0, 255, size=(len(labels), 3), dtype="uint8")  # 框框显示颜色，每一类有不同的颜色，每种颜色都是由RGB三个值组成的，所以size为(len(labels), 3)
if len(idxs) > 0:
    for i in idxs.flatten():  # indxs是二维的，第0维是输出层，所以这里把它展平成1维
        (x, y) = (boxes[i][0], boxes[i][1])
        (w, h) = (boxes[i][2], boxes[i][3])

        color = [int(c) for c in COLORS[classIDs[i]]]
        cv.rectangle(img, (x, y), (x+w, y+h), color, 2)  # 线条粗细为2px
        text = "{}: {:.4f}".format(labels[classIDs[i]], confidences[i])
        cv.putText(img, text, (x, y-5), cv.FONT_HERSHEY_SIMPLEX, 0.5, color, 2)  # cv.FONT_HERSHEY_SIMPLEX字体风格、0.5字体大小、粗细2px
cv.imshow('detected image', img)
cv.waitKey(0)

运行结果：

附：

目标检测算法

按照历史脉络来谈：

手工特征提取算法，如VJ、HOG、DPM
R-CNN算法（2014），最早的基于深度学习的目标检测器之一，其结构是两级网络：1）首先需要诸如选择性搜索之类的算法来提出可能包含对象的候选边界框；2）然后将这些区域传递到CNN算法进行分类；

R-CNN算法存在的问题是其仿真很慢，并且不是完整的端到端的目标检测器。
Fast R-CNN算法（2014末），对原始R-CNN进行了相当大的改进：提高准确度，并减少执行正向传递所花费的时间。

但是，该模型仍然依赖于外部区域搜索算法。
faster R-CNN算法（2015），真正的端到端深度学习目标检测器。删除了选择性搜索的要求，而是依赖于
（1）完全卷积的区域提议网络（RPN, Region Purpose Network），可以预测对象边界框和“对象”分数（量化它是一个区域的可能性的分数）。
（2）然后将RPN的输出传递到R-CNN组件以进行最终分类和标记。
R-CNN系列算法，都采取了two-stage策略。特点是：虽然检测结果一般都非常准确，但仿真速度非常慢，即使是在GPU上也仅获得5 FPS。
one-stage方法有：yolo（2015）、SSD（2015末），以及在这两个算法基础上改进的各论文提出的算法。这些算法的基本思路是：均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同尺度和长宽比，然后利用CNN提取特征后直接进行分类与回归。
整个过程只需要一步，所以其优势是速度快，但是训练比较困难。
yolov3（2018）是yolo作者提出的第三个版本（之前还提过yolov2和它们的tinny版本，tinny版本经过压缩更快但是也降低了准确率）。yolov3支持80类物体的目标检测，完整列表[戳这里]: https://github.com/pjreddie/darknet/blob/master/data/coco.names