基于目标跟踪和异常检测的实时跨镜追踪方法与流程-尊龙凯时官方app下载

文档序号:36265720发布日期:2023-12-06 08:46阅读:11来源:国知局
基于目标跟踪和异常检测的实时跨镜追踪方法与流程

1.本发明涉及计算机视觉图像处理技术领域,具体涉及一种基于目标跟踪和异常检测的实时跨镜追踪方法



背景技术:

2.跨镜追踪是行人重识别(
person re-identification

re-id
)技术的通俗说法

具体指的是一种利用计算机视觉方法判断连续图像序列或者视频中是否存在目标人员的技术,该技术可以快速判断和分析该目标是否在多个摄像机镜头画面中出现,同时记录下出现的时间和位置信息

目前已经广泛地应用于安全事件检测

公安办案取证

以及对特定目标人员进行追踪等场景

3.一个典型的实时
re-id
系统由两个主要模块组成:(1)图库生成器
——
它提取目标人员的边界框(人体识别时的标记)来组成图像库;(2)经典
re-id
模块
——
用于从图库中的裁剪图像中进行识别查询

4.然而,目前的实时
re-id
方法存在两个缺陷:(1)通常生成的图库过大,资源消耗严重

(2)图库生成时容易产生大量质量较差的图像,且由此产生的小错误会对检测结果产生较大影响



技术实现要素:

5.基于上述表述,本发明提供了一种基于目标跟踪和异常检测的实时跨镜追踪方法,可以减小图库的大小并提高其图像质量,还能提高实时
re-id
的检测效率

6.本发明解决上述技术问题的技术方案如下:基于目标跟踪和异常检测的实时跨镜追踪方法,包括以下步骤:
s1、
将原始视频流分解,生成一组可能含有同一个人的连续图像序列;
s2、
对图像序列中各幅图像中的行人进行判定,以判断各幅图像中是否存在目标人员,若当前图像中存在目标人员,则将该幅图像标记为有效图像;
s3、
在各个有效图像中的框选目标人员,生成图像边界框序列,将所有带边界框的图像以列表形式输出为一组轨迹图像片段列表,并将所有完整片段进行保存;
s4、
对轨迹片段进行分析,为每个图像序列选择一个最佳的代表图像放入图像搜索库;
s5、
最佳代表图像进行分析,计算查询该图像中目标人员与图库图像中目标人员之间的相似度得分,输出检测结论

7.作为优选方案:步骤
s2
中利用
yolov3
目标检测模块对被搜索的图像序列的第一幅图像进行处理以生成初始边界框,初始边界框用于初始化目标跟踪器,判定有效的图像进入目标追踪模块继续分析,否则目标检测模块继续对下一幅图像进行判定

8.作为优选方案:步骤
s3
中使用
re3
算法的目标追踪模块在有效图像中运行以生成图像边界框序列,然后将结果以列表形式输出为一组轨迹图像片段列表,并将所有完整片
段进行保存

9.作为优选方案:步骤
s4
中异常检测模块中,使用
doc
的异常检测模块对轨迹片段进行分析,为每个图像序列选择一个最佳的代表图像放入图像搜索库,供后续
re-id
模块进行检测

10.作为优选方案,在步骤
s1
中:(1)将原始视频流分解,生成图像序列;(2)依次对图像序列中的每一幅图像进行识别和判断,以判断各幅图像中是否存在行人,若存在行人则提取其识别特征;(3)将存在行人的所有图像从图像序列中分离出来,并根据各个行人的识别特征将存在该行人的图像归集从而得到各个行人的样本图像序列,不存在该行人的图像则不归集

11.作为优选方案:步骤(2)中对分解得到的图像序列中的各个图像中人体特征进行识别,以判断各个图像中是否存在行人;若存在行人则对各个行人的识别特征进行提取,若能够识别到行人的人脸,则提取其面部特征和步态特征,若不能识别到行人的人脸,则提取其背面形体特征和步态特征;若本组图像序列中不存在行人,则对下一组图像序列进行判定

12.作为优选方案:步骤(3)中在归集图像时根据面部特征识别同一行人,根据背面形体特征识别同一行人,再将背朝摄像头的行人的步态特征与面朝摄像头的行人的步态特征进行比对,若步态特征一致,则认为该行人为同一行人,从而将同一行人的正面图像和背面图像归集在一起

13.作为优选方案:所述背面形体特征包括头部宽度与肩部宽度的比值

14.作为优选方案:所述步态特征包括行人头部中心与肩部中心的距离和行走时头顶起伏距离的比值以及行走起伏周期

15.与现有技术相比,本技术的技术方案具有以下有益技术效果:该方法首先使用
yolov3
目标检测算法对视频图像帧进行检测判定,对被搜索视频图像帧的第一帧进行处理以生成初始边界框

然后使用
re3
目标追踪算法来识别图像序列
(
对应于同一目标人员的连续边界框
)
,接着使用
doc
异常检测算法
(learning deep features for one-class classi

cation)
来选择每组图像序列的最佳图像代表,最后使用
siamidl
方法对此代表图像进行经典
re-id
检测

本方法可以同时减小图库的大小并提高其图像质量,显著提高了实时
re-id
的检测效率

附图说明
16.图1为实施例一中的方法流程示意图;图2为实施例二中的行人背面示意图

具体实施方式
17.参照图1,一种基于目标跟踪和异常检测的实时跨镜追踪方法,包括以下步骤:步骤一

将原始视频流分解,生成一组可能包含同一行人的连续图像序列

18.图像序列即按一定的时间间隔从视频流中分离出各个视频帧采集得到的图像集
合,图像序列中的图片可以是
10

、20
张等,视具体需求而定

本实施例中可以采用人工来对图像序列中的视频帧进行模糊判断,目的是判断这一组图像序列中是否包含同一行人

19.步骤二

对图像序列中各幅图像中的行人进行判定,以判断图像中是否存在目标人员,若当前图像中存在目标人员,则将该图像标记为有效图像

20.本实施例中采用
yolov3
行人检测模型对图像序列中的行人进行判定

21.yolov3
行人检测模型的作用是从图像中寻找预定义的类别
(
本方法中指的是目标人员
)
,并从诸多候选目标中定位目标对象

本方法中使用
tensorflow
中提出的带有
darknet-53
的预训练
yolov3
模型,其具备多尺度预测能力,它可以检测到小物体

22.本实施例中,先是对
yolov3
行人检测模型进行预定义,将模型检测的类别定义为目标人员,将前述连续图像序列中的各幅图像输入到
yolov3
行人检测模型,
yolov3
行人检测模型搜索各幅图像的行人并对各幅图像中的行人进行识别,以检测各幅图像中是否存在目标人员

若图像中存在目标人员,则将该图像标记为有效图像,否则
yolov3
行人检测模型继续对下一幅图像进行判定,经过若干次迭代后,
yolov3
行人检测模型会将所有判定有效的图像选出
。yolov3
行人检测模型对第一幅有效图像中的目标人员进行框选以生成初始边界框,初始边界框用于初始化目标跟踪模型

23.yolo
模型被称为统一检测器或单阶段检测器,它可直接预测完整图像的边界框和分类概率,并通过卷积神经网络进行单向传递

所有版本的
yolo
都将图像划分为网格并预测边界框的位置,每个网格都具有类概率和相关的置信度分数

24.步骤三

在有效图像中框选目标人员,生成图像边界框序列,将所有带边界框的图像以列表形式输出为一组轨迹图像片段列表,并将所有完整片段进行保存

25.本实施例中用到了使用
re3
算法的目标追踪模型(下文简称
re3
目标追踪模型)

本方法中使用了
r3
算法(一种基于回归的跟踪器的算法),这是一种精确的通用目标跟踪算法
。re3
算法使用卷积层来嵌入目标的外形,循环层来回忆目标的外形和运动,回归层来输出对象的位置
。re3
算法初始时需要被跟踪的目标周围的边界框,并在后续帧中产生边界框

26.本步骤中利用前述初始边界框完成
re3
目标追踪模型的初始化,在后续的有效图像中运行
re3
目标追踪模型可以自动生成图像边界框序列

然后将
re3
目标追踪模型锚定的一组带边框的轨迹图像以列表形式输出为一组轨迹图像片段列表,并将所有完整片段进行保存

27.步骤四

对轨迹图像片段进行分析,为每个图像序列选择一个最佳的代表图像放入图像搜索库,供后续检测

28.本实施例中使用了异常检测模型来对轨迹图像片段进行分析

29.本实施例中的异常检测模型基于
doc(learning deep features for one-class classi

cation)
的异常检测方法
。doc
异常检测方法是以
cuhk03
数据集的图像作为目标类,
voc 2012
数据集的图像作为异常值训练
doc
异常检测模型
。doc
异常检测模型的特征提取器的主干是在
imagenet
上预训练的
inception resnetv2。doc
异常检测模型的能够识别出与常规值偏离比较明显的数据

30.我们将
doc
方法用于异常检测,因为正常的数据服从高斯分布,而异常的数据不服从高斯分布,那么模型训练的目标就是准确表征“正常”,与模型偏差较大的即异常点

我们
只采用正常的数据做训练,那么衡量对象与正常数据的差距,可以将这个过程看成一个单分类问题
one-class classification。
31.所以
doc
异常检测模型是一个单类别分类器,经过训练可以区分
re-id
的好图像和坏图像

对于每张图像,
doc
方法可生成一个分数(用于评价与正常图像的接近程度,越接近分数越高),表示其对
re-id
的适合度

32.该步骤中,在轨迹图片片段的每一张图像中运行异常检测模块,异常检测模块会对每一张图像产生一个分数,然后使用这个分数来选择图像序列的最佳图像,即得分最高的图像

33.步骤五

对于最佳图像进行分析,计算最佳图像与图库图像之间的相似度得分,得到检测结论

34.本步骤中在查询指令开始前,先输入一张确定是目标人员的图片,以此为检测参考,然后开始查询动作,使用
siamidl
的经典
re-id
方法对最佳代表图像进行分析,计算查询图像与图库图像之间的相似度得分,输出检测结论

35.通过上述方案可以减小图库的大小并提高其图像质量,显著提高实时
re-id
的检测效率

36.效果验证:(1)评价指标说明为了评估
trade re-id
在实时
prid
数据集上的性能,我们使用了下列评价指标:指标
1、
查找成功率
(finding rate, fr)。
表示当提出查询请求后能正确返回的短视频的比例

当查询经常失败(无返回结果)时,就会出现低
fr。
37.指标
2、
真实结果验证率
(tvr)。
表示发出警报的比例,查询就在呈现的候选对象中

当监测人员经常受到不合理的干扰时,就会出现低
tvr。
38.指标
3、
平均精度
(map)
,该指标通过计算
tvr

fr
曲线下的面积来定义

39.指标
4、fr

tvr
的最优
f1
分数
f1*。
这里的分数计算方法与机器学习算法中常用的精度和召回率的f分数计算类似

区别在于这里
f1*
表示最优的
f1
分数,该值使得实时
re-id
流程能够完美地工作

40.(2)实验结果说明基于实时
prid
数据集实验结果如下表

[0041][0042]
可以看到,相比于仅使用经典的
re-id
方法
(siamidl)
,本方法能够减小图库体量的优点产生了明显的性能提升

我们还可以看到,本方法的表现几乎总是比仅用
siamidl
时好

这意味着使用异常检测模块选择最佳的图像来表示图像序列对于实时
re-id
来说有明显成效

总的来说,这些结果证实,本方法是解决实时
re-id
问题,优化其性能的一种可行方法

实施例二
[0043]
本实施例与实施例一的区别在于步骤
s1
的实现方式不同

[0044]
确切来讲,本实施例中判断一组图像序列中是否包含同一行人是借助自动化程序判断的,而非借助人工进行模糊判断

[0045]
人工判断不仅工作量大,而且由于人工判断一般是通过面部特征来识别各个行人的,当图像中(例如车站

机场等公共场所的监控视频图像)的行人比较密集

流动性大

且行人出现转身时,人工是经常会丢失同一行人的

这就导致人工模糊判断得到可能包含同一行人的图像序列经常会丢失很多关键图像

[0046]
本实施例中,在步骤
s1
中:(1)将原始视频流分解,生成图像序列

[0047]
(2)依次对图像序列中的每一幅图像进行识别和判断,以判断各幅图像中是否存在行人,若存在行人则提取其识别特征

[0048]
(3)将存在行人的所有图像从图像序列中分离出来,并根据各个行人的识别特征将存在该行人的图像归集从而得到各个行人的样本图像序列,不存在该行人的图像则不归集

[0049]
后续可以将各个行人的样本图像序列输入到
yolov3
行人检测模型中进行判定,以判断各段样本图像序列中的行人是否为目标人员

[0050]
具体的,步骤(2)中对分解得到的图像序列中的各个图像中人体特征进行识别,以判断各个图像中是否存在行人,若存在行人则对各个行人的识别特征进行提取,若能够识别到行人的人脸,则提取其面部特征(面部特征包括正脸和侧脸特征)和步态特征,若不能识别到行人的人脸,则提取其背面形体特征和步态特征

若本组图像序列中不存在行人,则对下一组图像序列进行判定

[0051]
由上述描述可知,本实施例中行人的识别特征包括面部特征

背面形体特征和步态特征

[0052]
参照图2,本实施例中的背面形体特征包括头部宽度
w1
与肩部宽度
w2
的比值k;步态特征包括行人头部中心
o1
与肩部中心
o2
的距离和行走时头顶起伏距离的比值
p
以及行走起伏周期
t。
[0053]
人行走时身高会有起伏,由于每个人都有自己的走路动作习惯且每个人的身体比例是唯一的

所以对于同一行人,其头部中心
o1
与肩部中心
o2
的距离和行走时身高起伏距离的比值
p、
以及一个起伏周期
t
的时长基本是固定不变的

由于在视频画面中,随着行人与摄像头的距离发生改变,真实的头部宽度

肩部宽度

头肩中心点距离和身高起伏量是很难测准的;但是对于同一行人,其在连续的视频帧中的k值
、p
值和
t
值固定的,因此在连续的视频画面中可以将行走时的k值
、p
值和
t
值作为识别同一行人的手段

[0054]
规定每个像素点的长宽均为单位
1。
[0055]
对于背朝摄像头的行人,当第一次识别到该行人时可以对其头部进行识别,识别到头部后提取头部轮廓,在头部覆盖的区域中选取横向跨度最大的一行像素点(如图2中头部横向虚线所在位置的一行像素点),扫描该行像素点得到该行像素点数量
n1
;同理,对该行人的肩部进行识别,识别到肩部后提取肩部轮廓,在肩部覆盖的区域中选取横向跨度最大的一行像素点(如图2中肩部横线所在位置的一行像素点),扫描该行像素点得到该行像
素点数量
n2。
[0056]
假设行人的头部宽度为
w1、
肩部宽度为
w2
,则可以认为
w1/w2=n1/n2
,即
k= n1/n2。
[0057]
同时选取头部横向虚线的中点
o1
,并选取肩部横向虚线的中点
o2
,根据
o1

o2
的像素点坐标计算得出
o1

o2
的像素距离,即
x
个像素点

在连续几帧画面中都对
o1
的坐标进行定位,得出
o1
在竖直方向上的最大位移,即在竖直方向的像素点跨度;例如
o1
在竖直方向上的最大像素点跨度为s个像素点,假设行人的头部中心与肩部中心的距离为
l1、
行人行走的身高起伏距离为
l2
,则可以认为
p=l1/l2=x/s。
[0058]
在连续几帧画面中,获取
o1
在相邻两次移动至最高位置时的时间点
t1

t2
,则
t=t2-t1。
[0059]
通过上述手段可以获得视频图像中各个行人的k值
、p
值和
t


[0060]
将视频流分解成连续的图像序列后,通过对各幅图像中的人体特征进行识别,将存在行人的所有图像从该图像序列中分离出来,再对分离出的所有图像中的各个行人的识别特征进行提取

对于所有行人,若能提取到其面部特征则同时提取其步态特征(对应的是面朝摄像头的行人);对于所有行人,若能提取到其背面形体特征则同时提取其步态特征(对应的是背朝摄像头的行人)

[0061]
步骤(3)中,在归集图像时根据面部特征识别同一行人,根据背面形体特征识别同一行人,再将背朝摄像头的行人的步态特征与面朝摄像头的行人的步态特征进行比对,若步态特征一致,则认为该行人为同一行人,从而将同一行人的正面图像和背面图像归集在一起

[0062]
再将背朝摄像头的行人的步态特征与面朝摄像头的行人的步态特征进行比对,若步态特征一致,则认为该行人为同一行人

[0063]
结合面部特征

背面形体特征和步态特征中和判断,针对各个行人将包含该行人的所有图像(包含正面图像和背面图像)按照时间线归集从而得到该行人的样本图像序列

如此可以得到各个行人的所有图像,不易出现漏判的情况,使获得的图像序列包含各个行人更全的信息量

[0064]
后续将获得的样本图像序列输入到行人检测模型中后,可以更有利于行人检测模型判断该样本图像序列中的行人是否为目标人员,实现更好的跨镜追踪效果

[0065]
通过上述手段实际上是以每个行人为单位,自动从原始图像序列中分离归集包含该行人的图像作为样本图像序列;通过上述手段生成的图像序列具针对性且更准确,改变了传统通过人工判断的方式,可以提高作业效率,降低人工工作量且不会出现漏判的情况

[0066]
本实施例中,为了进一步提高后续行人检测模块对样本图像序列中行人的识别效率,可以采取以下措施:将样本图像序列输入到行人检测模型之前,从样本图像序列中抽取包含有该行人面部特征的一幅图像,将该图像作为样本图像序列的第一幅图像,从而得到新的样本图像序列

[0067]
再将新的样本图像序列输入至行人检测模型中进行检测识别

[0068]
如此将样本图像序列输入到行人检测模型后,行人检测模型可以在对第一幅图像识别时就能识别到该行人的最明显识别特征(即面部特征),可以第一时间判断出该行人是否为模型中预定义的目标人员

[0069]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改

等同替换

改进等,均应包含在本发明的保护范围之内

当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图