高空抛物目标检测方法-尊龙凯时官方app下载

文档序号:36398333发布日期:2023-12-15 23:45阅读:9来源:国知局

高空抛物目标检测方法、装置、设备和存储介质
技术领域
1.本发明涉及人工智能技术领域,尤其涉及一种高空抛物目标检测方法

装置

设备和存储介质



背景技术:

2.高空抛物的目标具有尺寸小

运动速度快的特点

对于高空抛物事件的监测能力,对保护城市的安全至关重要

3.目前的高空抛物检测方法中利用轻量级检测模型如移动网络
mobilenet v3
进行检测的方法性能最为突出

轻量级检测模型
mobilenet v3
中基于计算量的考虑,对输入的待测图像以较大的比例进行缩小,得到缩小后的特征图,进而在缩小后的特征图上执行目标检测,这使得其检测小目标的能力有限,精度较差



技术实现要素:

4.本发明提供一种高空抛物目标检测方法

装置

设备和存储介质,用以解决现有技术中对高空抛物小目标检测的检测精度较差的缺陷,实现提高检测精度,可以满足高空抛物中小目标检测的精度要求

5.第一方面,本发明提供一种高空抛物目标检测方法,方法包括:
6.获取第一高空抛物目标的待测图像;
7.将所述待测图像输入第一神经网络,得到所述待测图像的多个第一特征图,各个所述第一特征图的尺度不同;所述第一神经网络中包含的瓶颈型结构和所述瓶颈型结构对应的通道数为根据所述第一高空抛物目标对应的精度要求和计算量要求得到的;
8.利用第二神经网络对所述多个第一特征图进行特征融合,得到待测图像的多个第二特征图;
9.利用第三神经网络根据预设的目标背景前景分类信息,对多个第二特征图进行分类处理,得到包含所述第一高空抛物目标的候选锚框;
10.利用第四神经网络根据所述候选锚框,预测得到所述第一高空抛物目标的目标类别信息和所述第一高空抛物目标的目标边界信息

11.可选地,所述将所述待测图像输入第一神经网络,得到所述待测图像的多个第一特征图,包括:
12.利用第一神经网络的第一卷积层对所述待测图像进行第一卷积操作,得到第三特征图;
13.利用第一神经网络的第二卷积层中包含的多个瓶颈型结构依次对所述第三特征图进行第二卷积操作,得到多个所述瓶颈型结构各自对应的第一特征图;所述第二卷积操作包括初始卷积

深度可分离卷积以及输出卷积

14.可选地,当所述瓶颈型结构为第一神经网络的第二卷积层中的卷积步长为2的瓶颈型结构时,利用所述瓶颈型结构对所述第三特征图进行第二卷积操作之前,还包括:
15.针对每个所述瓶颈型结构,对所述瓶颈型结构的上一个瓶颈型结构对应的第一特征图进行平均池化操作,得到所述瓶颈型结构的上一个瓶颈型结构对应的池化后的第一特征图;
16.利用所述第一神经网络的第二卷积层中包含的多个瓶颈型结构依次对所述第三特征图进行第二卷积操作,得到多个所述瓶颈型结构各自对应的第一特征图,包括:
17.针对每个所述瓶颈型结构,利用所述瓶颈型结构对所述瓶颈型结构的上一个瓶颈型结构对应的池化后的第一特征图进行第二卷积操作,得到所述瓶颈型结构对应的第一特征图

18.可选地,所述第二神经网络为基于稀疏连接卷积构建的,所述第二神经网络包括第三卷积层和第一稀疏连接卷积层;所述利用第二神经网络对所述多个第一特征图进行特征融合,得到待测图像的多个第二特征图,包括:
19.利用所述第三卷积层对所述多个第一特征图进行第三卷积操作,得到多个融合后的第一特征图;
20.利用所述第一稀疏连接卷积层对所述多个融合后的第一特征图进行第四卷积操作,得到所述多个第二特征图;所述第一稀疏连接卷积层中包含的分组数量基于所述第一稀疏连接卷积层处理的所述融合后的第一特征图的尺寸确定

21.可选地,所述第三神经网络为基于稀疏连接卷积构建的,所述第三神经网络包括第二稀疏连接卷积层

第四卷积层以及第五卷积层;所述第四卷积层和所述第五卷积层各自对应的第五卷积操作

第六卷积操作并行进行;所述利用第三神经网络根据预设的目标背景前景分类信息对多个第二特征图进行分类处理,得到包含所述第一高空抛物目标的候选锚框,包括:
22.针对每个所述第二特征图,利用所述第三神经网络在所述第二特征图上生成多个锚框;所述锚框的信息至少包含尺度和宽高比;相邻的锚框之间的距离小于或等于预设距离;
23.针对每个所述锚框,利用所述第四卷积层对所述锚框进行分类,得到所述锚框的类别;所述锚框的类别包含以下至少一项:包含第一高空抛物目标的锚框

不包含第一高空抛物目标的锚框;
24.根据各个所述锚框的类别,得到所述候选锚框

25.可选地,所述第四神经网络中包括全连接层,所述全连接层包含
softmax
分类器;所述利用第四神经网络根据所述候选锚框,预测得到所述第一高空抛物目标的目标类别信息和所述第一高空抛物目标的目标边界信息,包括:
26.利用所述
softmax
分类器根据所述候选锚框对应的区域信息和预设的抛物目标分类信息,得到所述第一高空抛物目标对应的类别概率信息和所述第一高空抛物目标的目标边界信息;
27.根据所述类别概率信息,得到所述第一高空抛物目标的目标类别信息

28.可选地,所述获取第一高空抛物目标的待测图像之前,还包括:
29.基于预设的视频数据,得到多个帧图像;
30.提取所述多个帧图像中多个包含第二高空抛物目标的序列帧图像;
31.将多个所述包含第二高空抛物目标的序列帧图像进行尺寸调整,得到多个预设尺
寸的序列帧图像;
32.根据所述目标分类信息,对所述多个预设尺寸的序列帧图像分别进行目标类别的标注,得到多个标注目标类别的序列帧图像;
33.将所述多个标注目标类别的序列帧图像的集合,确定为第一图像集;
34.所述获取第一高空抛物目标的待测图像,包括:
35.在所述第一图像集中提取第一高空抛物目标对应的标注目标类别的序列帧图像;
36.将所述第一高空抛物目标对应的标注目标类别的序列帧图像确定为第一高空抛物目标的待测图像

37.可选地,所述利用第四神经网络根据所述候选锚框,预测得到所述第一高空抛物目标的目标类别信息和所述第一高空抛物目标的目标边界信息之后,还包括:
38.利用目标跟踪网络根据所述目标边界信息,对所述第一高空抛物目标的运动状态进行预测,得到所述第一高空抛物目标对应的预测信息;
39.其中,所述预测信息包含至少一个时刻所述第一高空抛物目标的状态向量

至少一个时刻所述第一高空抛物目标的协方差矩阵以及以下至少一项:至少一个时刻所述第一高空抛物目标的观测向量

至少一个时刻所述第一高空抛物目标的卡尔曼增益;所述目标跟踪网络基于重力加速度
ga
模型构建;所述第一高空抛物目标具有唯一的标识
id

40.根据所述第一高空抛物目标对应的预测信息

所述第一高空抛物目标的目标边界信息,确定所述目标边界信息与所述预测信息是否匹配;
41.当所述目标边界信息与所述预测信息匹配的情况下,根据至少一个时刻的所述目标边界信息,得到所述第一高空抛物目标的目标运动轨迹

42.第二方面,本发明提供一种目标检测装置,装置包括:
43.获取模块,用于获取第一高空抛物目标的待测图像;
44.处理模块,用于将所述待测图像输入第一神经网络,得到所述待测图像的多个第一特征图,各个所述第一特征图的尺度不同;所述第一神经网络中包含的瓶颈型结构和所述瓶颈型结构对应的通道数为根据所述第一高空抛物目标对应的精度要求和计算量要求得到的;利用第二神经网络对所述多个第一特征图进行特征融合,得到待测图像的多个第二特征图;利用第三神经网络根据预设的目标背景前景分类信息,对多个第二特征图进行分类处理,得到包含所述第一高空抛物目标的候选锚框;利用第四神经网络根据所述候选锚框,预测得到所述第一高空抛物目标的目标类别信息和所述第一高空抛物目标的目标边界信息

45.第三方面,本发明还提供一种电子设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述高空抛物目标检测方法

46.第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述高空抛物目标检测方法

47.第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述高空抛物目标检测方法

48.本发明提供的一种高空抛物目标检测方法

装置

设备和存储介质,通过获取第一高空抛物目标的待测图像,将待测图像输入第一神经网络,得到待测图像的多个第一特征
图,其中,各个第一特征图的尺度不同,第一神经网络中包含的瓶颈型结构和瓶颈型结构对应的通道数为根据第一高空抛物目标对应的精度要求和计算量要求得到的;然后,利用第二神经网络对多个第一特征图进行特征融合,得到待测图像的多个第二特征图,进一步地,利用第三神经网络根据预设的目标背景前景分类信息,对多个第二特征图进行分类处理,得到包含第一高空抛物目标的候选锚框;最后,利用第四神经网络根据候选锚框,预测得到第一高空抛物目标的目标类别信息和第一高空抛物目标的目标边界信息

本发明中的第一神经网络包含的瓶颈型结构和瓶颈型结构对应的通道数可以根据第一高空抛物目标对应的精度要求和计算量要求得到,利用第一神经网络对待测图像进行特征提取,得到多个不同尺度的第一特征图,可以满足小目标检测的精度要求,进而,利用第二神经网络基于多个不同尺度的第一特征图进行特征融合,得到待测图像的多个第二特征图,最终,利用第三神经网络对多个第二特征图进行分类处理,得到包含第一高空抛物目标的候选锚框,根据候选锚框利用第四神经网络预测第一高空抛物目标的目标类别信息和目标边界信息,对高空抛物小目标的检测精度较高

附图说明
49.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

50.图1是本发明提供的目标检测方法的流程示意图之一;
51.图2是本发明提供的第一神经网络的结构示意图之一;
52.图
3a
是本发明提供的第一神经网络的结构示意图之二;
53.图
3b
是本发明提供的第一神经网络的结构示意图之三;
54.图4是本发明提供的第二神经网络以及第三神经网络的结构示意图;
55.图5是本发明提供的目标检测方法的流程示意图之二;
56.图6是本发明提供的目标检测装置的结构示意图;
57.图7是本发明提供的电子设备的结构示意图

具体实施方式
58.为使本发明的目的

技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚

完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例

基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围

59.首先,对本发明实施例应用的场景做简要介绍

60.当前,随着城市化进程的加速和城市基础设施的改善,高层住宅的数量逐年增多

然而,这种迅猛增长的城市建筑也带来了高空抛物事故的频发

高空抛物主要发生在较高楼层,并且往往缺乏目击证人,由于抛物目标的高速下坠和短暂持续时间,对抛物者的追责异常困难

为解决此问题,住宅小区

学校等人员密集场所通过警示措施提醒公众禁止高空抛物,尽管采取了上述措施,高空抛物问题仍然屡禁不止,每次事件的发生都再次提醒人们
对安全的重视

目前,为解决高空抛物问题,可利用人工智能技术增强监控摄像机的能力,实现智能识别抛物轨迹并发出告警

61.目前的高空抛物中目标检测主要分为两种:
62.一类是传统的视觉动态目标检测方法,如帧差法

光流检测法,利用高斯背景建模,由于传统方法基于像素点的计算进行检测,检测过程需要花费大量的计算资源,且易受光线,相机抖动的影响,鲁棒性较差,容易产生误检

63.一类是深度学习目标检测算法,高级检测模型的推理过程需要花费大量的计算资源,很难应用于资源受限的移动或边缘设备,而深度学习中的轻量级检测模型,通常以较大的比例缩小输入图像,并在小的特征图上执行目标检测,这使得其检测小目标的能力非常有限,精度较差

64.目前的高空抛物检测方案中的目标跟踪,通常采用卡尔曼滤波算法等方法对检测到的目标进行跟踪预测

然而,传统卡尔曼滤波算法并没有充分考虑到轻重物体抛下后产生的速度等物理规律情况,导致对高空抛物的跟踪容易丢失

65.基于上述不足,本发明提供一种满足高精度

计算量成本低的高空抛物检测的尊龙凯时官方app下载的解决方案

66.下面结合图
1-图7描述本发明提供的目标检测的方案

67.图1是本发明提供的目标检测方法的流程示意图之一

如图1所示,该目标检测方法包括:
68.步骤
101、
获取第一高空抛物目标的待测图像;
69.具体地,第一高空抛物目标的待测图像可以是从第一图像集中获取,所述第一图像集可以是基于预设的视频数据得到,预设的视频数据例如社区高空抛物监控获得的视频数据,可选地,该预设的视频数据是对应不同场景

天气条件和目标类型的高空抛物的视频数据

可选地,所述第一高空抛物目标的待测图像为经过预处理的序列帧图像,例如尺寸为
320
像素
×
320
像素的序列帧图像

70.步骤
102、
将待测图像输入第一神经网络,得到待测图像的多个第一特征图,各个第一特征图的尺度不同;第一神经网络中包含的瓶颈型结构和瓶颈型结构对应的通道数为根据第一高空抛物目标对应的精度要求和计算量要求得到的;
71.具体地,其中,第一神经网络如改进的移动网络
mobilenet v3
网络,第一神经网络中包含的瓶颈型结构
bottleneck
和瓶颈型结构
bottleneck
对应的通道数可以根据第一高空抛物目标对应的精度要求和计算量要求得到,例如第二个
bottleneck
后增加2个
bottleneck
,在在常规卷积
(
第一个卷积层
)
,以及第
1,2,5,6,7,8bottleneck
网络增加
50
%的通道数,具体增加的瓶颈型结构的数量和各个瓶颈型结构对应的通道数可以根据第一高空抛物目标对应的精度要求和计算量要求得到的

可以理解的是,第一神经网络中包含的瓶颈型结构越多,经过特征提取得到的第一特征图中特征信息越多,但是相应地,第一特征图中的图像尺寸就会越小

72.将步骤
101
获取到的第一高空抛物目标的待测图像,例如待测图像为尺寸为
320
×
320
像素的序列帧图像,表示待测图像为高
320
像素,宽
320
像素的图像,将其输入至第一神经网络中进行特征提取,基于第一神经网络对待测图像进行特征提取,可以得到待测图像的多个不同尺度的第一特征图,例如
10
×
10
×
160
的第一特征图
(
表示高
10
像素,宽
10
像素,
通道数
160
的第一特征图
)、20
×
20
×
112
的第一特征图
(
表示高
20
像素,宽
20
像素,通道数
112
的第一特征图
)、40
×
40
×
60
的第一特征图
(
表示高
40
像素,宽
40
像素,通道数
60
的第一特征图
)

80
×
80
×
36
的第一特征图
(
表示高
80
像素,宽
80
像素,通道数
36
的第一特征图
)。
73.步骤
103、
利用第二神经网络对多个第一特征图进行特征融合,得到待测图像的多个第二特征图;
74.具体地,在步骤
102
得到多个第一特征图后,可以利用第二神经网络进行特征融合,得到待测图像的多个第二特征图

75.可选地,在步骤
102
中各个瓶颈型结构输出对应的第一特征图中可以选取一部分第一特征图作为第二神经网络的输入,选取的依据可以是第一特征图的尺寸大小,第一特征图中第一高空抛物目标的大小决定,例如选取特征信息比较清晰且尺寸大小不同的4个第一特征图输入至第二神经网络

76.进一步地,针对每个所述第一特征图,可以利用第二神经网络中的第三卷积层对第一特征图进行第三卷积操作,第三卷积操作可以是常规的卷积操作,例如使用1×1的卷积核对第一特征图进行卷积,可选地,还可以将不同尺度的多个第一特征图进行融合,得到对应的融合后的第一特征图,将其输入第一稀疏连接卷积层

进一步地,可以利用第二神经网络中的第一稀疏连接卷积层对融合后的第一特征图进行第四卷积操作,其中,第四卷积操作可以是稀疏连接卷积,从而得到对应的第二特征图

77.对应地,多个第一特征图输入至第二神经网络中,对应可以得到待测图像的多个第二特征图

78.步骤
104、
利用第三神经网络根据预设的目标背景前景分类信息,对多个第二特征图进行分类处理,得到包含第一高空抛物目标的候选锚框;
79.具体地,可以理解的是,可以利用第三神经网络根据多个第二特征图生成密集的锚框,所述锚框的密集程度可以通过设定相邻的锚框之间的距离小于或等于预设距离来确定,生成多个锚框;
80.进一步地,可以根据多个锚框以及预设的目标背景前景分类信息,使用分类器判断每个锚框中是否包含感兴趣的目标,在本实施例中感兴趣的目标为第一抛物目标,也即可以得到包含第一抛物目标的候选锚框

81.可选地,还可以通过回归器调整候选锚框的位置和尺寸,此外,为了避免冗余和重叠的候选锚框,可以使用非极大值抑制算法
(nms)
,保留置信度高且重叠小的候选框作为最终的包含第一抛物目标的候选锚框

82.步骤
105、
利用第四神经网络根据候选锚框,预测得到第一高空抛物目标的目标类别信息和第一高空抛物目标的目标边界信息

83.利用第四神经网络,可以通过卷积神经网络的池化层
roi
池化提取高空抛物目标区域候选框的特征向量,根据特征向量通过全连接层的
softmax
分类器得到目标类别的类别概率信息,例如目标类别的概率分布;进一步地,可以根据目标类别的类别概率信息最终输出目标检测结果,包括第一高空抛物目标的目标类别信息例如类别标签,以及第一高空抛物目标的目标边界信息,例如边界框信息,边界框信息如中心位置

纵横比

高度等

84.本发明实施例提供的方法中,通过获取第一高空抛物目标的待测图像,将待测图像输入第一神经网络,得到待测图像的多个第一特征图,其中,各个第一特征图的尺度不
同,第一神经网络中包含的瓶颈型结构和瓶颈型结构对应的通道数为根据第一高空抛物目标对应的精度要求和计算量要求得到的;然后,利用第二神经网络对多个第一特征图进行特征融合,得到待测图像的多个第二特征图,进一步地,利用第三神经网络根据预设的目标背景前景分类信息,对多个第二特征图进行分类处理,得到包含第一高空抛物目标的候选锚框;最后,利用第四神经网络根据候选锚框,预测得到第一高空抛物目标的目标类别信息和第一高空抛物目标的目标边界信息

本发明中的第一神经网络包含的瓶颈型结构和瓶颈型结构对应的通道数可以根据第一高空抛物目标对应的精度要求和计算量要求得到,利用第一神经网络对待测图像进行特征提取,得到多个不同尺度的第一特征图,可以满足小目标检测的精度要求,进而,利用第二神经网络基于多个不同尺度的第一特征图进行特征融合,得到待测图像的多个第二特征图,最终,利用第三神经网络对多个第二特征图进行分类处理,得到包含第一高空抛物目标的候选锚框,根据候选锚框利用第四神经网络预测第一高空抛物目标的目标类别信息和目标边界信息,对高空抛物小目标的检测精度较高

85.可选地,将待测图像输入第一神经网络,得到待测图像的多个第一特征图,包括:
86.利用第一神经网络的第一卷积层对待测图像进行第一卷积操作,得到第三特征图;
87.利用第一神经网络的第二卷积层中包含的多个瓶颈型结构依次对第三特征图进行第二卷积操作,得到多个瓶颈型结构各自对应的第一特征图;第二卷积操作包括初始卷积

深度可分离卷积以及输出卷积

88.具体地,第一神经网络的结构包括第一卷积层和第二卷积层,第一神经网络例如
mobilenet v3。
图2是本发明提供的第一神经网络的结构示意图之一,表示第一神经网络对待测图像的处理过程示意图

如图2所示,将待测图像输入第一神经网络,首先,利用第一神经网络的第一卷积层对待测图像进行第一卷积操作,得到第三特征图,其中,例如待测图像为“(320

320

3)”,则表示待测图像为高
320
像素,宽
320
像素,通道数3的序列帧图像,通过利用第一神经网络的第一卷积层对待测图像进行第一卷积操作后,可以得到第三特征图,第一卷积操作例如利用3×3的卷积核对待测图像进行卷积操作,同时在原结构基础上增加例如
50
%的通道数,从而可以得到尺寸为
160
×
160
像素,通道数为
24
的第三特征图

89.进一步地,可以利用第一神经网络的第二卷积层中包含的多个瓶颈型结构依次对第三特征图进行第二卷积操作,得到多个瓶颈型结构各自对应的第一特征图,其中,第二卷积操作包括:初始卷积

深度可分离卷积以及输出卷积

具体地,初始卷积例如采用1×1的卷积核对第三特征图进行卷积,深度可分离卷积例如包括两个单独的操作:深度卷积
(depthwise convolution)
和逐点卷积
(pointwiseconvolution)
,输出卷积例如对深度可分离卷积后的第三特征图进行降维,减少到所需维度

90.示例性,以第1个瓶颈型结构
bottleneck
的操作为例,利用第1个瓶颈型结构
bottleneck
对第三特征图进行第二卷积操作,得到第1个瓶颈型结构对应的第一特征图的过程示例如下:
91.首先,利用第1个瓶颈型结构
bottleneck
例如采用1×1的卷积核对“尺寸为
160
×
160
像素,通道数为
24”的第三特征图进行初始卷积通道扩张,可以得到
(160

160

72)
的特征图像,也即初始卷积后的第三特征图;
92.进一步地,在初始卷积后,第1个瓶颈型结构可以对初始卷积后的第三特征图进行
深度可分离卷积
(depthwise separableconvolution)
,以减少计算的复杂性和参数的数量,同时保持特征信息的丰富性,其中,深度可分离卷积包括两个单独的操作:深度卷积
(depthwise convolution)
和逐点卷积
(pointwise convolution)
,深度卷积可以为每个输入通道应用单独的滤波器,而逐点卷积执行1×1卷积来合并生成的特征图,同时增加卷积核的数量,例知在原来的基础上增加
50
%的卷积核数,得到深度可分离卷积后的第三特征图,例如得到“80
×
80
×
36”的第一特征图
93.进一步地,通过输出卷积对深度可分离卷积后的第三特征图进行降维,同时将通道数减少到所需维度,例如得到“160
×
160
×
24”的第一特征图,也即第1个瓶颈型结构对应的第一特征图为“尺寸为
160
×
160
像素,通道数为
24”的图片

94.可选地,还可以使用挤压与激励模块来增强瓶颈型结构的表达能力

95.可选地,第一神经网络中的多个瓶颈型结构可以堆叠在一起,每个瓶颈型结构逐渐降低特征图的空间分辨率,同时可以适应增加瓶颈型结构中对应的通道数,最终可以得到多个瓶颈型结构各自对应的第一特征图,也即可以得到多个瓶颈型结构各自输出的第一特征图,也即可以得到待测图像的多个不同尺度的第一特征图,例如
10
×
10
×
160
的第一特征图
(
表示高
10
像素,宽
10
像素,通道数
160
的第一特征图
)、20
×
20
×
112
的第一特征图
(
表示高
20
像素,宽
20
像素,通道数
112
的第一特征图
)、40
×
40
×
60
的第一特征图
(
表示高
40
像素,宽
40
像素,通道数
60
的第一特征图
)

80
×
80
×
36
的第一特征图
(
表示高
80
像素,宽
80
像素,通道数
36
的第一特征图
)。
96.本发明实施例提供的方法中,通过利用第一神经网络的第一卷积层对待测图像进行第一卷积操作,得到第三特征图,然后利用第一神经网络的第二卷积层中包含的多个瓶颈型结构依次对第三特征图进行第二卷积操作,得到多个瓶颈型结构各自对应的第一特征图,其中,第二卷积操作包括初始卷积

深度可分离卷积以及输出卷积

通过根据待测图像的精度要求和计算量要求对第一神经网络中包含的瓶颈型结构和瓶颈型结构对应的通道数进行调整,使得第一神经网络可以更适用于小目标的检测,有利于提取并保存更详细的特征信息,有效提高小目标的检测精度

97.可选地,当瓶颈型结构为第一神经网络的第二卷积层中的卷积步长为2的瓶颈型结构时,利用瓶颈型结构对第三特征图进行第二卷积操作之前,还包括:
98.针对每个瓶颈型结构,对瓶颈型结构的上一个瓶颈型结构对应的第一特征图进行平均池化操作,得到瓶颈型结构的上一个瓶颈型结构对应的池化后的第一特征图;
99.利用第一神经网络的第二卷积层中包含的多个瓶颈型结构依次对第三特征图进行第二卷积操作,得到多个瓶颈型结构各自对应的第一特征图,包括:
100.针对每个瓶颈型结构,利用瓶颈型结构对瓶颈型结构的上一个瓶颈型结构对应的池化后的第一特征图进行第二卷积操作,得到瓶颈型结构对应的第一特征图

101.具体地,第2,6,9,
15
个瓶颈型结构,可以理解的是,第2,6,9,
15
个瓶颈型结构的共性在于:第2,6,9,
15
个瓶颈型结构的步长为2,且输入至第2,6,9,
15
个瓶颈型结构的第一特征图,也即第
1,5,8,14
个瓶颈型结构对应的第一特征图的像素数量为偶数像素

102.图
3a
是本发明提供的第一神经网络的结构示意图之二,如图
3a
所示,在卷积计算的过程中,第一神经网络默认会忽略一个填充像素,导致第
1,5,8,14
个瓶颈型结构对应的第一特征图在分辨率空间上不对称,会存在特征错位的情况,也就是说会造成特征失准,而
且,由逐层累积的多个步长
stride
卷积引起的特征失准在整个网络中也会逐层累积,并在更高级别中变得显著,导致特征提取不准确

103.进一步地,当所述瓶颈型结构为第一神经网络的第二卷积层中的卷积步长为2的瓶颈型结构时,如第2,6,9,
15
个瓶颈型结构时,在利用第2,6,9,
15
个瓶颈型结构对第三特征图进行第二卷积操作之前,还可以包括:对第
1,5,8,14
个瓶颈型结构对应的第一特征图进行平均池化操作,得到第
1,5,8,14
个瓶颈型结构对应的池化后的第一特征图并进行
stride
卷积之前采用平均池化层,最终得到第
1,5,8,14
个瓶颈型结构对应的池化后的第一特征图,
104.示例性地,图
3b
是本发明提供的第一神经网络的结构示意图之三,对第一特征图进行平均池化操作得到池化后的第一特征图的过程如图
3b
所示:将像素数量为偶数像素8的第一特征图转换为像素数量为奇数像素9的第一特征图,从而避免了
stride
卷积中的不对称性,并校正了特征未对准的问题

可选地,在优化第一神经网络时,可以将相邻的卷积层和平均池化层融合为一个层,以提高检测效率

105.进一步地,可以利用第2,6,9,
15
个瓶颈型结构对第
1,5,8,14
个瓶颈型结构对应的池化后的第一特征图进行第二卷积操作,得到第2,6,9,
15
个瓶颈型结构对应的第一特征图

例如,利用第3个瓶颈型结构对输入至第3个瓶颈型结构中的第一特征图,也即对第
1,5,8,14
个瓶颈型结构对应的池化后的第一特征图进行第二卷积操作,得到第2,6,9,
15
个瓶颈型结构对应的第一特征图

106.本发明实施例提供的方法中,当瓶颈型结构为第一神经网络的第二卷积层中的卷积步长为2的瓶颈型结构时,例如为第2,6,9,
15
个瓶颈型结构时,通过对该瓶颈型结构的上一个瓶颈型结构,也即第
1,5,8,14
个瓶颈型结构对应的第一特征图进行平均池化操作,然后利用第2,6,9,
15
个瓶颈型结构对第
1,5,8,14
个瓶颈型结构对应的池化后的第一特征图进行第二卷积操作,得到第2,6,9,
15
个瓶颈型结构对应的第一特征图

平均池化操作将像素数量为偶数像素的第一特征图转换为像素数量为奇数像素的第一特征图,从而避免了步长卷积计算过程中导致的不对称性,校正了特征未对准的问题

107.可选地,第二神经网络为基于稀疏连接卷积构建的,第二神经网络包括第三卷积层和第一稀疏连接卷积层;利用第二神经网络对多个第一特征图进行特征融合,得到待测图像的多个第二特征图,包括:
108.利用第三卷积层对多个第一特征图进行第三卷积操作,得到多个融合后的第一特征图;
109.利用第一稀疏连接卷积层对多个融合后的第一特征图进行第四卷积操作,得到多个第二特征图;第一稀疏连接卷积层中包含的分组数量基于第一稀疏连接卷积层处理的融合后的第一特征图的尺寸确定

110.具体地,在步骤
102
中得到多个瓶颈型结构各自对应的第一特征图后,还可以在其中进行筛选,得到一部分满足特征信息丰富且兼顾尺度的第一特征图,特征信息丰富可以理解为图像特征信息和语义特征信息均包含

进一步地,将筛选后的多个不同尺度的第一特征图输入第二神经网络和第三神经网络中进行进一步的特征融合,例如将五个不同尺度的第一特征图输入至第二神经网络,该四个不同尺度的第一特征图包括
10
×
10
×
160
的第一特征图
(
表示高
10
像素,宽
10
像素,通道数
160
的第一特征图
)、20
×
20
×
112
的第一特征图
(
表示高
20
像素,宽
20
像素,通道数
112
的第一特征图
)、40
×
40
×
60
的第一特征图
(
表示高
40
像素,宽
40
像素,通道数
60
的第一特征图
)
以及
80
×
80
×
36
的第一特征图
(
表示高
80
像素,宽
80
像素,通道数
36
的第一特征图
)。
111.图4是本发明提供的第二神经网络以及第三神经网络的结构示意图,如图4所示,其中,第二神经网络为基于稀疏连接卷积构建的,第二神经网络包括第三卷积层和第一稀疏连接卷积层

其中,可以理解的是,稀疏连接卷积是深度
depth-wise
卷积和分组逐点
point-wise group
卷积的组合,与普通深度可分离卷积相比,稀疏连接卷积进一步减少了通道之间的连接,这种稀疏设置对检测性能的影响很小,并大大降低了计算成本

稀疏连接卷积和标准卷积的计算量比较如下
:
112.若输入的第一特征图尺寸为hi
×
wi×
m,
卷积核尺寸为hk
×
wk×
m,
卷积核的个数为
n,
输出特征图尺寸为hi
×
wi×
n。
则:
113.(1)
标准卷积的参数量为:
114.hk×
wk×m×n×hi
×
wi;
115.其中,hk
×
wk×m为标准卷积中的卷积核尺寸,n为标准卷积中的卷积核的个数,hi
×
wi×m为输入的特征图的尺寸,如第一特征图的尺寸

116.(2)
稀疏连接卷积中,
depth-wise
卷积中的卷积核尺寸为hk
×
wk×1,卷积核数目为m,
point-wise group
卷积中的卷积核尺寸为1×1×
m/g
,数目为
n。
则稀疏连接卷积的参数量为:
117.hk×
wk×1×m×hi
×
wi 1
×1×
m/g
×n×hi
×
wi;
118.其中,hk
×
wk×1为
depth-wise
卷积中的卷积核尺寸,m为
depth-wise
卷积中的卷积核个数,1×1×m为单个卷积核的尺寸
,g
为分组数量,n为
point-wise group
卷积中的卷积核个数

119.(3)
则稀疏连接卷积与标准卷积的计算量比值为:
[0120][0121]
其中,hk
×
wk×m×hi
×
wi n
×hi
×
wi/g
为稀疏连接卷积的计算量,hk
×
wk×m×n×hi
×
wi为标准卷积的计算量

[0122]
进一步地,利用第二神经网络对多个第一特征图进行特征融合,得到待测图像的多个第二特征图的具体过程如下:
[0123]
针对每个尺度的第一特征图,首先利用第三卷积层对第一特征图进行第三卷积操作,例如对多个不同尺度的第一特征图进行第三卷积,可以得到多个层级各自对应的融合后的第一特征图

具体地,首先可以通过横向连接和顶层连接实现不同层级对应的第三卷积后的第一特征图的特征融合,其中,横向连接使用
1x1
的卷积层将不同特征图的通道数升维至
245
,使其拥有相同的通道数以便融合,顶层连接指的是可以通过上采样操作将高层特征图的分辨率增加至与下层特征图相同,并与下层特征图逐元素相加,融合后的第一特征图包含了来自不同层级的丰富语义和特征信息

[0124]
进一步地,利用第一稀疏连接卷积层对多个层级各自对应的融合后的第一特征图进行第四卷积操作,得到多个第二特征图,其中,第一稀疏连接卷积层中包含的分组数量基于第一稀疏连接卷积层处理的融合后的第一特征图的尺寸确定

例如,对应
80
×
80
的融合
后的第一特征图,确定的第一稀疏连接卷积层中包含的分组数量为
49
,对应
40
×
40
融合后的第一特征图,确定的第一稀疏连接卷积层中包含的分组数量为
7。
[0125]
本发明实施例提供的方法中,利用第二神经网络的第三卷积层对多个第一特征图进行第三卷积操作,得到多个融合后的第一特征图,然后利用第一稀疏连接卷积层对多个融合后的第一特征图进行第四卷积操作,得到多个第二特征图,其中,第一稀疏连接卷积层中包含的分组数量基于第一稀疏连接卷积层处理的融合后的第一特征图的尺寸确定

本方法中融合后得到的多个第二特征图包含了来自不同层级的丰富语义和特征信息,特征提取更为准确

第二神经网络基于稀疏连接卷积构建,实现提高对小目标的检测性能的同时,降低了高空抛物目标检测的计算量

[0126]
可选地,第三神经网络为基于稀疏连接卷积构建的,第三神经网络包括第二稀疏连接卷积层

第四卷积层以及第五卷积层;第四卷积层和第五卷积层各自对应的第五卷积操作

第六卷积操作并行进行;第二稀疏连接卷积层中包含的分组数量基于第二稀疏连接卷积层处理的第二特征图的尺寸确定;利用第三神经网络根据预设的目标背景前景分类信息对多个第二特征图进行分类处理,得到包含第一高空抛物目标的候选锚框,包括:
[0127]
针对每个第二特征图,利用第三神经网络在第二特征图上生成多个锚框;锚框的信息至少包含尺度和宽高比;相邻的锚框之间的距离小于或等于预设距离;
[0128]
针对每个锚框,利用第四卷积层对锚框进行分类,得到锚框的类别;锚框的类别包含以下至少一项:包含第一高空抛物目标的锚框

不包含第一高空抛物目标的锚框;
[0129]
根据各个锚框的类别,得到候选锚框

[0130]
具体地,在得到融合后得到的多个第二特征图后,将多个第二特征图输入至第三神经网络中,以根据多个第二特征图对第一高空抛物目标进行背景前景分类和回归预测

[0131]
如图4所示,第三神经网络为基于稀疏连接卷积构建的,第三神经网络包括第二稀疏连接卷积层

第四卷积层以及第五卷积层

第二稀疏连接卷积层中包含的分组数量基于第二稀疏连接卷积层处理的第二特征图的尺寸确定,图4中的第二稀疏连接卷积层中包含的分组数量为
49
,第四卷积层和第五卷积层分别由两个并行的1×1卷积核组成,卷积操作并行进行,分别用于分类和回归

[0132]
针对每个第二特征图,利用第二稀疏连接卷积层在第二特征图上生成多个锚框,其中,锚框的信息至少包含尺度和宽高比

相邻的锚框之间的距离小于或等于预设距离,例如预设距离为
16
个像素,相邻的锚框之间的距离为4个像素,小于预设距离
16
个像素,这样做的好处是形成密集的锚框
anchor
可以覆盖各种尺寸和形状的第一高空抛物目标

[0133]
进一步地,针对每个锚框,利用第四卷积层对锚框进行分类,得到锚框的类别,锚框的类别可以为:包含第一高空抛物目标的锚框

不包含第一高空抛物目标的锚框

[0134]
进一步地,根据各个所述锚框的类别,可以确定出候选锚框,也即确定出包含第一高空抛物目标的锚框

[0135]
可选地,还可以利用根据包含第一高空抛物目标的锚框和所述第一高空抛物目标的目标真实标注框,得到包含第一高空抛物目标的锚框相对于所述第一高空抛物目标的真实标注框的偏移量,所述偏移量例如包含第一高空抛物目标的锚框相对于所述第一高空抛物目标的真实标注框的坐标偏移

平移和缩放参数等;基于此偏移量可以调整包含第一高空抛物目标的锚框的位置和尺寸以更好地拟合第一高空抛物目标

[0136]
可选地,为了避免冗余和重叠的候选框,可以使用非极大值抑制算法,保留置信度高且重叠小的候选框作为最终的候选框

[0137]
本发明实施例提供的方法中,第三神经网络为基于稀疏连接卷积构建的,利用第三神经网络对多个第二特征图进行分类处理,生成包含高空抛物的候选锚框,进一步基于第四神经网络进行分类处理和回归,得到目标类别信息和目标边界信息,检测精度较高,计算量少

[0138]
可选地,第四神经网络中包括全连接层,全连接层包含
softmax
分类器;利用第四神经网络根据候选锚框,预测得到第一高空抛物目标的目标类别信息和第一高空抛物目标的目标边界信息,包括:
[0139]
利用
softmax
分类器根据候选锚框对应的区域信息和预设的抛物目标分类信息,得到第一高空抛物目标对应的类别概率信息和所述第一高空抛物目标的目标边界信息;
[0140]
根据类别概率信息,得到第一高空抛物目标的目标类别信息

[0141]
具体地,第四神经网络中包括全连接层,全连接层包含
softmax
分类器,在得到所述候选锚框后,可以利用第四神经网络根据候选锚框,预测得到第一高空抛物目标的目标类别信息和第一高空抛物目标的目标边界信息

实现过程示例如下:
[0142]
首先,可以利用第四神经网络通过池化操作提取第一高空抛物目标的候选框的特征向量,然后根据特征向量利用全连接层的
softmax
分类器根据候选锚框对应的区域信息和预设的抛物目标分类信息,得到第一高空抛物目标对应的类别概率信息和所述第一高空抛物目标的目标边界信息,类别概率信息例如所述第一高空抛物目标的类别概率分布

[0143]
进一步地,根据类别概率信息,例如所述第一高空抛物目标的类别概率分布,可以将所述第一高空抛物目标的类别概率分布中最大概率对应的目标类别确定为第一高空抛物目标的目标类别信息

[0144]
最后,输出上述检测结果,即第一高空抛物目标的目标类别信息和第一高空抛物目标的边界信息

[0145]
本实施例提供的方法中,根据候选锚框利用第四神经网络预测得到第一高空抛物目标的目标类别信息和第一高空抛物目标的目标边界信息,实现了提高对小目标的检测性能的同时,降低了高空抛物目标检测的计算量

[0146]
可选地,获取第一高空抛物目标的待测图像之前,还包括:
[0147]
基于预设的视频数据,得到多个帧图像;
[0148]
提取多个帧图像中多个包含第二高空抛物目标的序列帧图像;
[0149]
将多个包含第二高空抛物目标的序列帧图像进行尺寸调整,得到多个预设尺寸的序列帧图像;
[0150]
根据目标分类信息,对多个预设尺寸的序列帧图像分别进行目标类别的标注,得到多个标注目标类别的序列帧图像;
[0151]
将多个标注目标类别的序列帧图像的集合,确定为第一图像集;
[0152]
获取第一高空抛物目标的待测图像,包括:
[0153]
在第一图像集中提取第一高空抛物目标对应的标注目标类别的序列帧图像;
[0154]
将第一高空抛物目标对应的标注目标类别的序列帧图像确定为第一高空抛物目标的待测图像

[0155]
具体地,可以基于预设的视频数据,得到多个帧图像,其中预设的视频数据可以是社区高空抛物监控获得的视频数据,获得的视频数据具有多样性和真实性,涵盖不同场景

天气条件和物体类型的高空抛物事件

[0156]
进一步地,可以提取多个帧图像中多个包含第二高空抛物目标的序列帧图像

例如,选取其中包含真实高空抛物事件的样本,也即包含第二高空抛物目标,对样本视频解码抽帧,得到多个包含第二高空抛物目标的序列帧图像

[0157]
进一步地,将多个包含第二高空抛物目标的序列帧图像进行尺寸调整,得到多个预设尺寸的序列帧图像,例如预设尺寸为
320
×
320
像素,将多个包含第二高空抛物目标的序列帧图像统一调整为
320
×
320
像素的图像

[0158]
进一步地,根据预设的目标分类信息,对多个预设尺寸的序列帧图像分别进行目标类别的标注,得到多个标注目标类别的序列帧图像

将所述多个标注目标类别的序列帧图像的集合,确定为第一图像集

[0159]
可选地,基于第一图像集使用
skyarcdet
高空抛物检测模型进行训练,得到训练后的
skyarcdet
高空抛物检测模型

[0160]
在利用训练后的
skyarcdet
高空抛物检测模型进行目标的轨迹预测时,本实施例中获取第一高空抛物目标的待测图像,可以是监控视频流中获取序列帧图像,对包含第二高空抛物目标的序列帧图像进行预处理得到待测图像,所述预处理与获得第一图像集的步骤类似,此处不再赘述

获取第一高空抛物目标的待测图像,也可以是在第一图像集中进行获取,在第一图像集中提取第一高空抛物目标对应的标注目标类别的序列帧图像,将第一高空抛物目标对应的标注目标类别的序列帧图像确定为第一高空抛物目标的待测图像

[0161]
本发明实施例提供的方法中,通过对待测图像进行预处理,使得基于待测图像进行小目标检测得到的检测结果更加准确,检测性能较好

[0162]
可选地,所述利用第四神经网络根据所述候选锚框,预测得到所述第一高空抛物目标高空抛物的目标类别信息和所述第一高空抛物目标高空抛物的目标边界信息之后,还包括:
[0163]
利用目标跟踪网络根据目标边界信息,对第一高空抛物目标的运动状态进行预测,得到第一高空抛物目标对应的预测信息;
[0164]
其中,预测信息包含至少一个时刻第一高空抛物目标的状态向量

至少一个时刻第一高空抛物目标的协方差矩阵以及以下至少一项:至少一个时刻第一高空抛物目标的观测向量

至少一个时刻第一高空抛物目标的卡尔曼增益;目标跟踪网络基于重力加速度
ga
模型构建;第一高空抛物目标具有唯一的标识
id

[0165]
根据第一高空抛物目标对应的预测信息

第一高空抛物目标的目标边界信息,确定目标边界信息与预测信息是否匹配;
[0166]
当目标边界信息与所述预测信息匹配的情况下,根据至少一个时刻的目标边界信息,得到第一高空抛物目标的目标运动轨迹

[0167]
具体地,利用目标跟踪网络,可以对每个检测到的第一高空抛物目标进行初始化,同时为每个第一高空抛物目标分配一个唯一的
id
,根据所述第一高空抛物目标目标边界信息,可以使用目标跟踪网络例如改进后的卡尔曼滤波算法对第一高空抛物目标的上一帧运动状态进行预测,得到第一高空抛物目标下一帧运动状态的预测信息;预测信息包含至少
一个时刻第一高空抛物目标的状态向量

至少一个时刻第一高空抛物目标的协方差矩阵以及以下至少一项:至少一个时刻第一高空抛物目标的观测向量

至少一个时刻第一高空抛物目标的卡尔曼增益;目标跟踪网络基于重力加速度
(gravitational acceleration

ga)
模型构建

该过程示例如下:
[0168]
基于
ga
模型构建目标跟踪网络,例如目标跟踪网络为引入
ga
模型的卡尔曼滤波器算法,也即采用
ga
模型对目标的轨迹进行预测,其中,第一高空抛物目标的状态向量可以描述为:
[0169]
xk=
(c v a)
t

[0170]
其中c=
(x,y,s,r)
t
,v

(xv,yv,sv,rv)
t
,a

(xa,ya,sa,ra)
t
[0171]
其中,
xk表示k时刻第一高空抛物目标的状态向量,
(x,y)
表示第一高空抛物目标的边界框的中心坐标,r表示第一高空抛物目标的边界框的宽高比,h表示第一高空抛物目标的边界框的高度,
(xv,yv,rv,hv)
表示第一高空抛物目标的边界框的中心坐标,宽高比和高度各自速度的变化值,
(ua,va,ra,ha)
t
表示各自加速度的变化值;则表达式为:
[0172][0173]
其中,
xk表示k时刻第一高空抛物目标的状态向量,
wk表示过程噪声;
vk表示k时刻第一高空抛物目标观测噪声;
[0174]
进一步地,可以根据目标边界信息

使用改进后的卡尔曼滤波对第一高空抛物目标的上一帧运动状态进行分析,得到第一高空抛物目标下一帧的运动状态的预测信息

[0175]
示例性地,首先,使用状态转移矩阵f根据上一时刻第一高空抛物目标的状态向量
x
k-1
得到预测的状态向量,如当前时刻第一高空抛物目标的状态向量,进一步地,使用状态转移矩阵
f、
过程噪声的协方差矩阵q和上一时刻的协方差矩阵
p
k-1
对当前时刻的协方差矩阵
pk进行预测,得到预测的协方差矩阵:
[0176][0177]
其中,
xk表示k时刻第一高空抛物目标的状态向量,f表示状态转移矩阵,f表示控制矩阵,
x
k-1
表示
k-1
时刻第一目标的状态向量,
pk表示k时刻的协方差矩阵,
p
k-1
为上一时刻的协方差矩阵,q为过程噪声的协方差矩阵;
[0178]
进一步地,卡尔曼滤波算法的状态更新方程如下,用于融合预测的状态向量和观测向量:
[0179][0180]
其中,kk
表示k时刻的卡尔曼增益,h表示观测矩阵,
pk表示k时刻第一高空抛物目标的协方差矩阵,r为观测噪声的协方差矩阵,
zk表示k时刻第一高空抛物目标的观测向量

[0181]
进一步地,根据第一高空抛物目标对应的预测信息

第一高空抛物目标的目标边界信息,确定目标边界信息与预测信息是否匹配,具体地,可以先根据第一高空抛物目标对应的预测信息,得到第一高空抛物目标的预测框;然后,确定上一帧第一高空抛物目标的预测框和当前帧第一高空抛物目标的目标边界信息如检测框之间的的相交度,即上一帧第一高空抛物目标的预测框
(
也即当前帧第一高空抛物目标对应的运动状态
)
与当前帧中第一高空抛物目标的检测框之间的交集面积与并集面积的比值;进而,可以利用匈牙利匹配算法对所述检测框与所述预测框的相交度组成的状态关联矩阵进行指派,从而实现目标预测结果与检测结果之间的关联,并在多帧图片中生成第一高空抛物目标的目标跟踪轨迹

[0182]
本发明实施例提供的方法中,目标跟踪网络基于重力加速度
ga
模型构建,通过目标跟踪网络对第一高空抛物目标进行跟踪预测,提高了高空抛物目标跟踪的准确性

[0183]
图5是本发明提供的目标检测方法的流程示意图之二

如图5所示,方法包括:
[0184]
首先,对获取的图像进行预处理,得到第一高空抛物目标的待测图像;
[0185]
其次,利用改进的
mobilenet v3
网络对第一高空抛物目标的待测图像进行特征提取;
[0186]
然后,利用稀疏特征金字塔网络和稀疏区域候选网络进行特征融合和分类回归,生成包含高空抛物的候选锚框;
[0187]
进一步地,利用检测头网络根据候选锚框预测得到第一高空抛物目标的目标类别信息和第一高空抛物目标的目标边界信息;
[0188]
进一步地,基于重力加速度
ga
模型构建目标跟踪网络,根据目标跟踪网络对第一高空抛物目标的运动状态的预测信息进行预测;
[0189]
进一步地,将上一时刻第一高空抛物目标的运动状态的预测信息与第一高空抛物目标的目标边界信息进行匹配;
[0190]
判断上一时刻第一高空抛物目标的运动状态的预测信息与第一高空抛物目标的目标边界信息是否匹配;
[0191]
若匹配成功,则利用上一时刻第一高空抛物目标的运动状态的预测信息更新目标跟踪网络,得到当前时刻第一高空抛物目标的运动状态的预测信息;
[0192]
若匹配不成功,则利用上一时刻第一高空抛物目标的运动状态的预测信息初始化目标跟踪网络;
[0193]
对下一时刻第一高空抛物目标的运行状态的预测信息进行更新,迭代更新目标跟踪网络;
[0194]
最后,根据多个时刻第一高空抛物目标的运行状态的预测信息,输出第一高空抛物目标的目标类别信息及运动轨迹

[0195]
下面对本发明提供的目标检测装置进行描述,下文描述的目标检测装置与上文描述的目标检测方法可相互对应参照

[0196]
图6是本发明提供的目标检测装置
600
的结构示意图,如图6所示,目标检测装置
600
包括:包括:
[0197]
获取模块
610
,用于获取第一高空抛物目标的待测图像;
[0198]
处理模块
620
,用于将所述待测图像输入第一神经网络,得到所述待测图像的多个第一特征图,各个所述第一特征图的尺度不同;所述第一神经网络中包含的瓶颈型结构和
所述瓶颈型结构对应的通道数为根据所述第一高空抛物目标对应的精度要求和计算量要求得到的;利用第二神经网络对所述多个第一特征图进行特征融合,得到待测图像的多个第二特征图;利用第三神经网络根据预设的目标背景前景分类信息,对多个第二特征图进行分类处理,得到包含所述第一高空抛物目标的候选锚框;利用第四神经网络根据所述候选锚框,预测得到所述第一高空抛物目标的目标类别信息和所述第一高空抛物目标的目标边界信息

[0199]
本发明实施例提供的装置中,通过获取第一高空抛物目标的待测图像,将待测图像输入第一神经网络,得到待测图像的多个第一特征图,其中,各个第一特征图的尺度不同,第一神经网络中包含的瓶颈型结构和瓶颈型结构对应的通道数为根据第一高空抛物目标对应的精度要求和计算量要求得到的;然后,利用第二神经网络对多个第一特征图进行特征融合,得到待测图像的多个第二特征图,进一步地,利用第三神经网络根据预设的目标背景前景分类信息,对多个第二特征图进行分类处理,得到包含第一高空抛物目标的候选锚框;最后,利用第四神经网络根据候选锚框,预测得到第一高空抛物目标的目标类别信息和第一高空抛物目标的目标边界信息

本发明中的第一神经网络包含的瓶颈型结构和瓶颈型结构对应的通道数可以根据第一高空抛物目标对应的精度要求和计算量要求得到,利用第一神经网络对待测图像进行特征提取,得到多个不同尺度的第一特征图,可以满足小目标检测的精度要求,进而,利用第二神经网络基于多个不同尺度的第一特征图进行特征融合,得到待测图像的多个第二特征图,最终,利用第三神经网络对多个第二特征图进行分类处理,得到包含第一高空抛物目标的候选锚框,根据候选锚框利用第四神经网络预测第一高空抛物目标的目标类别信息和目标边界信息,对高空抛物小目标的检测精度较高

[0200]
可选地,所述处理模块
620
,具体用于:
[0201]
利用第一神经网络的第一卷积层对所述待测图像进行第一卷积操作,得到第三特征图;
[0202]
利用第一神经网络的第二卷积层中包含的多个瓶颈型结构依次对所述第三特征图进行第二卷积操作,得到多个所述瓶颈型结构各自对应的第一特征图;所述第二卷积操作包括初始卷积

深度可分离卷积以及输出卷积

[0203]
可选地,所述处理模块
620
,还用于:
[0204]
当所述瓶颈型结构为第一神经网络的第二卷积层中的卷积步长为2的瓶颈型结构时,利用所述瓶颈型结构对所述第三特征图进行第二卷积操作之前,还包括:
[0205]
针对每个所述瓶颈型结构,对所述瓶颈型结构的上一个瓶颈型结构对应的第一特征图进行平均池化操作,得到所述瓶颈型结构的上一个瓶颈型结构对应的池化后的第一特征图;
[0206]
利用所述第一神经网络的第二卷积层中包含的多个瓶颈型结构依次对所述第三特征图进行第二卷积操作,得到多个所述瓶颈型结构各自对应的第一特征图,包括:
[0207]
针对每个所述瓶颈型结构,利用所述瓶颈型结构对所述瓶颈型结构的上一个瓶颈型结构对应的池化后的第一特征图进行第二卷积操作,得到所述瓶颈型结构对应的第一特征图

[0208]
可选地,所述第二神经网络为基于稀疏连接卷积构建的,所述第二神经网络包括第三卷积层和第一稀疏连接卷积层;
[0209]
所述处理模块
620
,还用于:
[0210]
利用所述第三卷积层对所述多个第一特征图进行第三卷积操作,得到多个融合后的第一特征图;
[0211]
利用所述第一稀疏连接卷积层对所述多个融合后的第一特征图进行第四卷积操作,得到所述多个第二特征图;所述第一稀疏连接卷积层中包含的分组数量基于所述第一稀疏连接卷积层处理的所述融合后的第一特征图的尺寸确定

[0212]
可选地,所述第三神经网络为基于稀疏连接卷积构建的,所述第三神经网络包括第二稀疏连接卷积层

第四卷积层以及第五卷积层;所述第四卷积层和所述第五卷积层各自对应的第五卷积操作

第六卷积操作并行进行;所述第二稀疏连接卷积层中包含的分组数量基于所述第二稀疏连接卷积层处理的第二特征图的尺寸确定;
[0213]
所述处理模块
620
,还用于:
[0214]
针对每个所述第二特征图,利用所述第三神经网络在所述第二特征图上生成多个锚框;所述锚框的信息至少包含尺度和宽高比;相邻的锚框之间的距离小于或等于预设距离;
[0215]
针对每个所述锚框,利用所述第四卷积层对所述锚框进行分类,得到所述锚框的类别;所述锚框的类别包含以下至少一项:包含第一高空抛物目标的锚框

不包含第一高空抛物目标的锚框;
[0216]
根据各个所述锚框的类别,得到所述候选锚框

[0217]
可选地,所述第四神经网络中包括全连接层,所述全连接层包含
softmax
分类器;
[0218]
所述处理模块
620
,还用于:
[0219]
利用所述
softmax
分类器根据所述候选锚框对应的区域信息和预设的抛物目标分类信息,得到所述第一高空抛物目标对应的类别概率信息和所述第一高空抛物目标的目标边界信息;
[0220]
根据所述类别概率信息,得到所述第一高空抛物目标的目标类别信息

[0221]
可选地,目标检测装置
600
还包括图像集构建模块;
[0222]
所述图像集构建模块,用于:
[0223]
基于预设的视频数据,得到多个帧图像;
[0224]
提取所述多个帧图像中多个包含第二高空抛物目标的序列帧图像;
[0225]
将多个所述包含第二高空抛物目标的序列帧图像进行尺寸调整,得到多个预设尺寸的序列帧图像;
[0226]
根据所述目标分类信息,对所述多个预设尺寸的序列帧图像分别进行目标类别的标注,得到多个标注目标类别的序列帧图像;
[0227]
将所述多个标注目标类别的序列帧图像的集合,确定为第一图像集;
[0228]
所述获取模块
610
,具体用于:
[0229]
在所述第一图像集中提取第一高空抛物目标对应的标注目标类别的序列帧图像;
[0230]
将所述第一高空抛物目标对应的标注目标类别的序列帧图像确定为第一高空抛物目标的待测图像

[0231]
可选地,目标检测装置
600
还包括目标跟踪模块;
[0232]
所述目标跟踪模块,用于:
[0233]
利用目标跟踪网络根据所述目标边界信息,对所述第一高空抛物目标的运动状态进行预测,得到所述第一高空抛物目标对应的预测信息;
[0234]
其中,所述预测信息包含至少一个时刻所述第一高空抛物目标的状态向量

至少一个时刻所述第一高空抛物目标的协方差矩阵以及以下至少一项:至少一个时刻所述第一高空抛物目标的观测向量

至少一个时刻所述第一高空抛物目标的卡尔曼增益;所述目标跟踪网络基于重力加速度
ga
模型构建;所述第一高空抛物目标具有唯一的标识
id

[0235]
根据所述第一高空抛物目标对应的预测信息

所述第一高空抛物目标的目标边界信息,确定所述目标边界信息与所述预测信息是否匹配;
[0236]
当所述目标边界信息与所述预测信息匹配的情况下,根据至少一个时刻的所述目标边界信息,得到所述第一高空抛物目标的目标运动轨迹

[0237]
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器
(processor)710、
通信接口
(communications interface)720、
存储器
(memory)730
和通信总线
740
,其中,处理器
710
,通信接口
720
,存储器
730
通过通信总线
740
完成相互间的通信

处理器
710
可以调用存储器
730
中的逻辑指令,以执行目标检测方法,该方法包括:
[0238]
获取第一高空抛物目标的待测图像;
[0239]
将所述待测图像输入第一神经网络,得到所述待测图像的多个第一特征图,各个所述第一特征图的尺度不同;所述第一神经网络中包含的瓶颈型结构和所述瓶颈型结构对应的通道数为根据所述第一高空抛物目标对应的精度要求和计算量要求得到的;
[0240]
利用第二神经网络对所述多个第一特征图进行特征融合,得到待测图像的多个第二特征图;
[0241]
利用第三神经网络根据预设的目标背景前景分类信息,对多个第二特征图进行分类处理,得到包含所述第一高空抛物目标的候选锚框;
[0242]
利用第四神经网络根据所述候选锚框,预测得到所述第一高空抛物目标的目标类别信息和所述第一高空抛物目标的目标边界信息

[0243]
此外,上述的存储器
730
中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中

基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备
(
可以是个人计算机,服务器,或者网络设备等
)
执行本发明各个实施例所述方法的全部或部分步骤

而前述的存储介质包括:u盘

移动硬盘

只读存储器
(rom

read-only memory)、
随机存取存储器
(ram

randomaccess memory)、
磁碟或者光盘等各种可以存储程序代码的介质

[0244]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的目标检测方法,该方法包括:
[0245]
获取第一高空抛物目标的待测图像;
[0246]
将所述待测图像输入第一神经网络,得到所述待测图像的多个第一特征图,各个所述第一特征图的尺度不同;所述第一神经网络中包含的瓶颈型结构和所述瓶颈型结构对应的通道数为根据所述第一高空抛物目标对应的精度要求和计算量要求得到的;
[0247]
利用第二神经网络对所述多个第一特征图进行特征融合,得到待测图像的多个第二特征图;
[0248]
利用第三神经网络根据预设的目标背景前景分类信息,对多个第二特征图进行分类处理,得到包含所述第一高空抛物目标的候选锚框;
[0249]
利用第四神经网络根据所述候选锚框,预测得到所述第一高空抛物目标的目标类别信息和所述第一高空抛物目标的目标边界信息

[0250]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的目标检测方法,该方法包括:
[0251]
获取第一高空抛物目标的待测图像;
[0252]
将所述待测图像输入第一神经网络,得到所述待测图像的多个第一特征图,各个所述第一特征图的尺度不同;所述第一神经网络中包含的瓶颈型结构和所述瓶颈型结构对应的通道数为根据所述第一高空抛物目标对应的精度要求和计算量要求得到的;
[0253]
利用第二神经网络对所述多个第一特征图进行特征融合,得到待测图像的多个第二特征图;
[0254]
利用第三神经网络根据预设的目标背景前景分类信息,对多个第二特征图进行分类处理,得到包含所述第一高空抛物目标的候选锚框;
[0255]
利用第四神经网络根据所述候选锚框,预测得到所述第一高空抛物目标的目标类别信息和所述第一高空抛物目标的目标边界信息

[0256]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上

可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的

本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施

[0257]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件

基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如
rom/ram、
磁碟

光盘等,包括若干指令用以使得一台计算机设备
(
可以是个人计算机,服务器,或者网络设备等
)
执行各个实施例或者实施例的某些部分所述的方法

[0258]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围

当前第1页1  
相关技术
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图