>

每一帧图片的注意力特征都是与其他帧相互学习

- 编辑:澳门博发娱乐官网 -

每一帧图片的注意力特征都是与其他帧相互学习

澳门博发娱乐官网 1

【环球网科技综合报道】近日,国内人工智能企业澎思科技在行人再识别(Person Re-identification,简称ReID)算法上取得突破,在三大主流ReID数据集测试(Market1501,DukeMTMC-reID,CUHK03)中,算法关键指标首位命中率(Rank-1 Accuracy)获得业内最好成绩,刷新了世界纪录。

具体来说,主要包括三个方面:

谈到ReID技术的发展历程,李震从近年来各大厂商突破ReID性能背后的核心技术开始了他的分析:多任务框架的交替训练、基于多粒度特征提取的模型以及基于多分支的局部特征提取网络。通过这几项核心技术的成功应用,各大厂商在三个主流数据库上都获得了相对原始基线模型大约10%的指标提升。

在iLIDS-VID和PRID-2011等数据集上首位命中率也分别达到了88.0%和95.5%。

行人再识别技术起源于多摄像头跟踪,用于判断非重叠视域中拍摄到的不同图像中的行人是否属于同一个人。作为人脸识别技术的重要补充,其发展内核便是在不同视频中,在无法获取清晰人脸特征信息前提下,机器通过穿着、发型、体态等信息将同一个人识别出来,增强数据的时空连接性。

近日,澎思科技在基于视频的行人再识别数据集(PRID-2011,iLIDS-VID,MARS)中取得突破。

对于ReID究竟是什么,李震介绍:ReID主要解决的是跨摄像头、跨场景下人群的识别与检索问题。简单来说,就是在不同的摄像设备(如监控摄像头,手机摄像头等)下将多人的场景拍摄下来,再将不同场景下出现的同一个人识别出来。ReID不同于人脸识别,人脸识别是用来认证一个人的身份,而ReID是将同一个人在不同摄像设备下的影像匹配起来,生成跨摄像头时空轨迹。典型的基于行人ReID的应用是以图搜图。如下图所示,最左边无边框图片为检索图,右边有边框的图片则是按相似度由高到低排序的结果。

PRID-2011、iLIDS-VID和MARS均为基于视频的行人再识别数据集。PRID-2011数据集中的视频对通过两个固定的监控摄像头进行采集,摄像头A包含385个行人,摄像头B包含749个行人。

行人再识别技术涉及计算机视觉、机器学习、模式识别等多个学科领域,可以广泛应用于智能视频监控、安保、刑侦等领域。在公共安全以外,行人再识别技术还可以应用于智慧城市、智能交通、智慧零售、智能制造、智慧园区等领域,有很高的应用价值。

1、受遮挡、姿态变化、视角变化等因素的影响,视频序列中行人的特征是不连续的。用全局特征来度量每一帧图片的权重往往会损失掉许多重要的信息。采用分割重组策略将特定局部特征重组成多个视频序列进行学习,进而极大减少局部特征损失对最终特征的影响。

我们可以看出,虽然该方案达到了目前业界最高准确率,但是它是一个庞大的网络结构,不仅网络训练起来需要仔细操作,而且不论是模型训练,还是模型部署,都需要较大的计算开销和显存开销。

澎思科技此次一举实现在三大数据库上,仅利用原始数据就实现Rank-1 Accuracy关键指标大幅度提升。目前,澎思科技算法在最大的视频数据集MARS上的首位命中率指标已经达到88.8%,领先香港中文大学、中科大、北京大学等国内外知名机构。

澎思科技Market1501 部分测试结果

澎思科技角介绍,基于视频的行人再识别技术更贴近智慧城市建设的诸多应用场景,能有效解决行人信息有限、特征不足及其他干扰因素等问题,相比单帧图片的行人再识别具备更长远的落地应用空间。

我们先看一下某AI企业最新的算法方案:

澎思科技行人再识别ReID算法在MARS数据集的部分测试结果

通过图网络结构,学习得到各个细粒度特征的加权系数,进一步提高特征的分辨能力;

据了解,澎思科技算法在最大的视频数据集MARS上的首位命中率指标88.8%,在iLIDS-VID和PRID-2011等数据集上首位命中率分别为88.0%和95.5%。

澳门博发娱乐官网 2

iLIDS-VID是在PRID-2011之后公布的数据集,与PRID-2011相比,数据更加整齐,也更有挑战性。iLIDS-VID数据集是通过机场到达大厅的CCTV监控视频采集得到的,包含300个行人在两个摄像头下的600段视频。视频中存在严重的着装相似,光照和视角变化,复杂背景和遮挡现象,因此识别难度大。

ReID前景广阔

2、提出双向图注意力机制模块。将图卷积神经网络和SENet结合,在整个序列上进行通道域的模式选择学习。同时通过双向网络进行空间域的注意力区域学习。由于图卷积网络的特性,每一帧图片的注意力特征都是与其他帧相互学习结合的结果,从而提高特征的代表性。

在智能交通领域,相关系统的成功实施也依赖于准确与高性能的车辆/人体重识别算法。ReID已成为视频结构化领域中非常重要的基础技术之一。

这些行人中,只有200个行人同时出现在两个摄像头中。

据悉,澎思科技新加坡研究院团队投入巨大精力潜心研究底层算法,开创性地提出了多项技术革新。此次,澎思科技在算法上的突破主要得益于以下几个方面:

3、利用帧间相似度进行序列融合。通过数学计算的方式就可以达到融合的目的。这样,数据的类内相似度得到了提高。在结合三元损失函数进行训练后,类间相似度得到了降低,进而提高重识别效果。

然而,到目前为止,ReID仍然是不完美的,它最终的目的是要能达到一对一的高精度自动匹配的状态。可是,现实是骨感的,在很多安防系统中,视频监控探头的成像质量、分辨率、码流带宽,以及摄像头部署的密度,都会限制ReID技术的准确度可以达到的上限。另一个则是硬件资源消耗上的问题,要在产品上应用、在项目中落地、只提高几个百分点的准确度,而计算量和内存开销、存储开销严重增加,客户是不愿意买单的。天下没有免费的午餐,人工智能也是没有100%的准确度的。在准确度不完美之下,把技术应用到产品上,就要花很多功夫做应用创新,比如计算速度和内存开销。

本文由胜博发-编程发布,转载请注明来源:每一帧图片的注意力特征都是与其他帧相互学习