基于YOLOv4,的学生行为识别研究

2023-10-05 09:30:19| 来源：网友投稿

刘健，陈亮

(沈阳理工大学自动化与电气工程学院，沈阳 110159)

传统课堂上，教师通过观察学生上课状态以及作业的完成情况等很难全面、系统地观察到所有学生，且不具有实时性，教学效果得不到及时反馈。

计算机视觉技术日益发展，传统的特征提取算法有SIFT 算法[1]和ORB 算法[2]；
传统的分类算法有支持向量机(Support vector machine，SVM)等。

传统方法中同一类物体在图像中呈现不同的状态时，仅依靠人为设定的特征模板难以获得较好的检测效果。

伴随人工智能和深度学习技术的快速发展，国内外学者逐渐开始将深度学习模型与学生行为检测相结合。

Girshick 等[3]提出了区域卷积网络(Region-based Convolutiona Network，R-CNN)、快速区域卷积网络Fast-RCNN[4]和Faster-RCNN[5]系列二阶段检测算法。

在目标检测领域，由于RCNN 系列需要对每张图片进行特征框的提取，检测时间长，且对于多尺度、小目标的检测仍存在检测精度问题，实际应用性不高。

He 等[6]提出残差网络，解决深层网络中梯度消失问题，但当网络深度过深时，会出现网络退化。

周波等[7]提出了三维全卷积网络，但因其算法参数过多，数据集有限，容易过拟合。

董琪琪等[8]提出一种SSD 的改进算法结合聚类算法K-means，对教室学生数据集的检测有较高的精度与速度，但对遮挡情况的检测存在一定的缺陷。

王毅等[9]提出一种三维卷积与双向长短期记忆算法(LSTM)结合的行为分类算法，该算法在人类动作视频数据集HMDB-51 和动作识别数据集UCF-101 上表现良好，但算法要提高检测速度有很大的难度。

上述方法通常存在识别精度差、检测速度慢以及模型训练费时的缺点，对于教室学生目标众多、分布复杂、存在遮挡等情况，很难达到检测的实时性，不符合本研究对教室学生行为分类的要求。

本文结合目标检测和目标识别算法的研究现状，提出一种基于一阶段检测算法YOLOv4 的深度学习网络模型，将轻量化的神经网络模型MobileNetV3 替代主干网络CSPDarknet53，达到简化网络结构的目的，并使用聚类算法K-means 对自制数据集进行优化，提升网络对学生行为分类的速度、检测精度以及对学生行为检测的实时性。

1.1 数据集采集

以还原真实课堂为基准，本文采用的图像采集自高校教室，以增加模型的泛化能力和数据集的普适性。

通过选取不同专业、不同课程的课堂视频，并对视频进行筛查，去除模糊、障碍物遮挡等部分，形成原始数据集。

1.2 数据集制作

研究选用计算机视觉PASCAL VOC 数据集格式制作数据集。

首先利用软件Adobe premiere将监控视频转换成图像的格式，为呈现课堂的实时性，每10 秒选取一张图片，使用标注工具LabelImg 对图片中的学生目标进行手工标注矩形框。课堂中学生行为划分为studying(学习)、sleeping(睡觉)、talking(讲话)和 playing(玩手机)四类，得到标签文件用于训练。

2.1 YOLOv4 目标检测网络

YOLOV4 模型由主干、身体和头部三部分组成，主干选用特征提取网络CSPDarknet53、身体为空间金字塔池化网络(Spatial Pyramid Pooling，SPP)与路径聚合网络(Path Aggregation Network，PANet)，头部延续 YOLOv3[10]分类网络。YOLOV4 网络结构如图1 所示。

在主干特征提取网络中Resblock＿body 模块由卷积层和残差层组成；
在PANet 中，将输入的特征图转化为不同尺度的特征图并与原特征图进行堆叠(Concat)，扩大卷积的感受野；
头部采用两次卷积操作，实现检测输出。

YOLOv4 网络在训练中使用余弦退火学习率、数据增强和遗传算法等策略，进一步减少总体损失，可增强教室学生目标检测的鲁棒性。

图1 YOLOv4 网络结构图

2.2 MobileNetV3 网络模型结构

选用MobileNetV3作为骨干网络，可以在损失精度极小的同时，模型训练的参数量大幅度降低，具有轻量化结构、体积小、计算量少等优点[11]。

几种模型对比如表1 所示，与VGG16[12]模型相比，参数量仅为其1/40，与GoogleNet[13]和MobileNetV2[14]模型相比，参数量约缩小1/2。

表1 模型性能对比

2.3 深度可分离卷积

传统卷积过程中单通道对应一个输出通道，将各通道的输入特征图与相应的卷积核分别作卷积操作后相加，之后输出特征，其运算量N1 为

式中:DK为卷积核的宽；
M为输入通道数；
N为输出通道数；
Dw、Dh分别为输入图片的高和宽。

深度可分离卷积由深度卷积和逐点卷积组成，首先经过大小为3 ×3 的卷积核进行深度卷积，使通道和卷积核一一对应，之后经过一个大小为1 ×1 的逐点卷积进行降维操作，生成特征图。深度可分离卷积的运算量N2 为

N1 与N2 二者之间计算量的对比为

由式(3)可知，训练后网络的计算量和参数量理论上可以缩小为原来的1/9，优化了模型大小，可有效提高检测速度。

2.4 轻量化YOLOv4 目标检测模型结构

YOLOv4 较之前版本在检测精度和速度上有了大幅度的提升，但其采用的CSPDarkNet53 主干网络架构中存在大量的残差模块，会冗余大量的训练参数，耗时较长，不能满足分析学生课堂行为对实时性的要求，在移动设备端应用有较大的难度。

针对以上问题，以 YOLOv4 网络模型为基础进行改进，图2 为改进后网络结构图，以轻量化MobileNetV3 替换原有的 CSPDarkNet53 模型，其中bneck 模块包括逆残差层和两个全连接层，输出端采用YOLOv3 分类方式，经过卷积层，输出大、中、小三个尺度的特征图。

由式(3)可知，使用深度可分离卷积后计算量及参数量得到有效降低，可提高YOLOv4 模型的检测速度。

图2 轻量化YOLOv4 网络模型

2.5 损失函数

本文提出的轻量化YOLOv4 损失函数中类别损失采用回归损失CIOU 替代YOLOv3 中的均方误差损失，其余部分继续延用YOLOv3 中边界框回归损失和置信度损失。

CIOU 考虑了目标和锚点之间的距离、重叠比率和缩放，与交并损失IOU 相比较，目标框回归更加稳定，其计算公式为

式中:b、bgt分别代表预测边界框和真实边界框的中心点；
ρ2代表预测框和真实框中心点间距的平方；
c代表包含预测框和真实框中最小矩形框的对角线长度；
α、ν分别代表权重因子和用来度量长宽比的相似性。

相应边界框回归损失Lciou为

网络总损失Lobject为

式中:Lconf为置信度损失；
Lcls为类别损失。

2.6 优化聚类算法K-means

在自制数据集上，人工标记的真实框尺寸相对集中，仅通过K 均值聚类产生的锚框大小也相对集中，无法体现模型的多尺度输出优势。

本文改进预选框的生成办法，使用线性尺度缩放的方式，将聚类生成的锚框尺寸优化，通过拉伸锚框以提升模型的检测精度，最终的预选框尺寸如表2所示。

表2 预选框尺寸

3.1 实验环境设置

实验使用计算机 CPU 为 i7-7700H，GPU 为NVIDIA GeForce GTX1070Ti，内存为 16 GB，在Windows10 系统、深度学习开源框架Pytorch 和Python3.6 软件环境下进行仿真实验。

3.2 实验方法

将4550 张图像按照 7∶2∶1 的比例划分为训练集、测试集和验证集，分别为3 185 张、910 张和455 张。

用标注软件将所有学生课堂行为分为四类，分别为 studying、playing、sleeping、talking。

在相同的实验环境下，在YOLOv4、高效网络Efficient-Net[15]及Faster-RCNN 网络模型中训练标注好的训练集。

实验的评价指标选用检测参数量、速度及平均精度。

3.3 实验结果分析

将带有学生课堂行为的训练集分别投入Faster-RCNN、EfficientNet、YOLOv4 和轻量化 YOLOv4检测模型中训练。

图3 分别为以上四种网络模型训练的损失值变化曲线图。

改进后模型的损失曲线如图3(d)所示，明显优于其他算法，与图3(c)相比，损失值降低了约一个点，且当迭代次数达到125 时曲线收敛并且损失值稳定在0.5 附近。

由图3(a)、图3(b)可见，两种模型损失值有明显波动，且损失值较高。

根据以上对比实验表明，改进后的YOLOv4 模型对学生行为的识别更高效。

图3 不同模型损失值变化曲线图

表3 为改进后算法与其他算法检测结果对比。

由表3 可见，本文算法在进行学生目标检测与行为分类时与YOLOv4、EfficientNet 和Faster-RCNN 相比，平均精度和检测速度都有明显的提升，参数量也大幅度减少。

与YOLOv4 算法相比，准确率提高了1.79%，训练参数近似为原模型的1/4，检测速度提高了13.5%。

表3 四种模型对学生行为检测结果对比

图4 为用四种模型检测测试集图像的结果，与改进后算法结果相比较，YOLOv4 算法检测的准确性较低，EfficientNet 和 Faster-RCNN 会对部分遮挡的目标出现漏检的情况，且对小目标检测的准确度低，在教室高密度、目标遮挡等情况下，本文算法仍有较好的检测结果。

图4 不同模型检测结果对比

利用深度学习网络模型与传统图像处理方法结合，在YOLOv4 目标检测网络中引用Mobile-NetV3 轻量化网络，同时预选框设置使用K-means方法，提高网络训练的识别精度，利用深度可分离卷积将网络训练参数大幅度降低，在最小化精度损失的前提下加速网络模型训练速度，确保网络检测的实时性。

对高校课堂学生数据集的检测结果表明，改进后的网络模型更加轻量化，在学生课堂行为分类中取得了较好的效果，平均精度与检测速度得到明显提升，具有良好的应用前景。

猜你喜欢轻量化卷积损失汽车轻量化集成制造专题主编精密成形工程(2022年2期)2022-02-22基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02胖胖损失了多少元数学小灵通·3-4年级(2021年5期)2021-07-16从滤波器理解卷积电子制作(2019年11期)2019-07-04一种轻量化自卸半挂车结构设计智富时代(2019年2期)2019-04-18一种轻量化自卸半挂车结构设计智富时代(2019年2期)2019-04-18玉米抽穗前倒伏怎么办?怎么减少损失?今日农业(2019年15期)2019-01-03基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20瞄准挂车轻量化锣响挂车正式挂牌成立专用汽车(2016年1期)2016-03-01一般自由碰撞的最大动能损失广西民族大学学报(自然科学版)(2015年3期)2015-12-07