视频摘要、视频检索和⼈脸识别
成千上万的监控摄像头昼夜不停地录像,制造出海量的视频⽂件。从如
此巨⼤的视频⽂件集中发现重要事件是⾮常困难的,即使是⼀段已知有事件发⽣的视频录像。如今有三种⽅法解决这⼀问题:
1、 ⽣成⼀个简短的视频概要,例如将单个摄像头摄制24 ⼩时的视频压缩成⼏分钟,同时保留活动细节,以⽅便⽤户快速浏览。久凌视觉已经开发出⼀个基于⽬标跟踪技术的视频摘要系统。
“视频摘要”是指从原始视频中提取感兴趣的⽬标的活动信息,和背景视频缝合剪辑⽽成的较短视频⽚断,可以⽤短⼩精悍,信息全⾯来描述它。视频摘要可以采⽤原始视频分辨率,也可以根据存储要求降低分辨率;
2、 通过摄像头⽹络或视频⽂件集进⾏嫌疑⽬标或事件的跟踪查询。此项⽬也是久凌视觉研究范围之⼀;3、 ⼈脸识别技术,进⾏重要场所视频监控⽬标筛查。1 视频摘要
如今,越来越多的监控摄像头安装在我们⾝边。随着电脑速度的提升,磁盘容量的增⼤和因特⽹的⼴泛使⽤,这些设备每天⽣成了成千上万的数据。因此,从这些海量的数据中找到重要事件就变得异常困难。所以,找出⼀种⽅法去压缩视频,甚⾄⾃动地搜索整个⽂件集就尤为紧迫。
由于视频浏览和检索很耗时,⼤多数取得的视频并不会观看和检查。视频摘要就成了⼀种浏览检索视频的有效⼯具。它将⽣成⼀个简短的视频,其中包含了原视频中所有重要的活动。视频通过同时播放多个事件,哪怕是在原视频中不同
时间发⽣的,将整个视频被压缩成⼀个简短的事件摘要。这个摘要同时也是原视频⽂件的⼀个索引,可以找到每⼀个事件发⽣的真实时间。这⼀技术主要通过对视频重排序来摘要和检索,对监控摄像头和⽹络摄像机是很有益处的。
上述视频摘要技术可以⽤于单个摄像头拍摄的视频。对于跨摄像机⽹络,由于存在每⼀个摄像机视⾓的不同,光线变化,⽬标姿态的变化以及可能存在遮挡的情况,对于跨摄像机视频对象的跟踪,查找甚⾄重新确认定位,具有很⼤的挑战。在后⾯的章节,我们将介绍跨摄像机⽬标跟踪的⽅法。以下介绍视频摘要的主要应⽤和⽬前可以达到的技术⽔准:
1. 视频浓缩供快速检索:透过智能视频分析,实现将某个摄像机⼀天的录像压缩到1 ⼩时甚⾄数分钟以内,同时保留⼈/车辆或感兴趣⽬标的活动细节。在视频摘要中,对于⼈或车辆⽬标,显⽰⽬标出现的时间,并且⽀持⽤户通过点击⽬标,播放⽬标出现前后的原始视频。
2. 节省存储硬盘空间,数字摄像机产⽣的压缩视频按100:10:1的⽐例存储:为了节省海量视频的存储空间,同时适度保存历史录像,对于⾼清摄像机产⽣的视频⽂件,按照100:10:1 的⼤致⽐例进⾏浓缩存储,即基本时间长度范围内(如最近⼀个⽉)的视频,按原始分辨率保存原始压缩视频(100),超过基本时间长度(如⼀个⽉到3 个⽉)的视频,只保存浓缩的摘要视频(10),超过最⼤时间长度(如三个⽉以前)的视频,可以考虑保存转码压缩的摘要视频(1)。基本时间长度和最⼤时间长度可以由⽤户指定。这是⼀种全新的智能转码技术,可以⼴泛⽤于3G 媒体⽹关,给⽤户提供短⼩精炼的监控视频摘要,既节省带宽,⼜不会对移动终端的处理能⼒有过⾼的要求。
3. 优化⾼清IP 摄像机的动态码流设计。利⽤背景分析和前景提取技术,可以在
摄像机侧实现分辨率和码率动态调整,对于没有前景活动的帧,可以采⽤⽐较⼩的分辨率,⽐较低的码率,从⽽节省传输带宽。
图1 视频摘要(视频浓缩)处理前后对⽐图2 视频检索2.1检索和查询
在对视频摘要进⾏快速浏览以后,⽤户就可以找到⼀些有⽤的线索。如果在视频中发现了⼀些感兴趣的东西,我们还可以在更多的视频⽂件中搜索和检查。因此,我们需要⼀个视频检索的系统去做这项⼯作。⾸先,它会使⽤⼀种有效的运动分割⽅法提取出运动的物体。⽽后,这些运动物体的基本特征就会被_______
提取出来,并且编⼊数据库。在整个的检索过程中,系统会将请求⽐对数据库中已经索引好的特征,⽽不⽤重新处理视频。最后,拥有⾜够⾼相关度的视频⽚断将被作为结果显⽰出来。⼤致可分为以下两个部分:⼀、 ⼀个通过快速运动⽬标分割所实现的实时⾃动检索⽅法,这样系统就可以实时对视频源进⾏排序;
⼆、 ⼀个基于⽬标的检索系统,包含基础特征⽐对的⽅法。这样就可以使得⽤户通过提供⼀幅样照或素描图指定请求。2.2 请求的模式
通过这种技术,以下的请求模式就可以实现:⼀、 事例查询
具体来说,是⼀些分割出来的图⽚(例如,视频中的⼀个⼈/⼀辆车)。⼆、 基本属性查询
对于⼀个⼈,我们可以查询⾝⾼,⾐服的颜⾊(如果够解析度,甚者可以区分上下⾐的颜⾊),头发颜⾊,发型,是否戴帽⼦或是眼镜。或对⾃于⾏车车,)我,们纹可理以(查例询如⼤,⼩商,标主)⾊。,车型(例如,汽车,吉普车,出租车)路对运径动于进属⼈⾏性或查查者询询车。,我们可以通过速度,运动⽅向,位置,进出时间或者⾏⾛。扛对⾏东为于西查⼈,询,来我进们⾏可查以询通。过以下的⾏为,例如,打架,追逐,跌倒,徘徊或是。⼀事事件物件体查具,询体聚包众括,如等下:。穿越某⼀平⾯,进⼊或离开某⼀区域,留下或拿⾛某。2.3 视频检索的功能
基于内容的检索功能使⽤了下列技术:
a) 移动物体的特征提取,例如⽬标的颜⾊,⼤⼩,速度,位置和轨迹;b) 事件监测后产⽣的事件描述作为检索输⼊;c)从视频摘要获得的线索作为输⼊;d)⼈车⽬标分类;
e)准确的背景和前景切割,以提供清晰的边缘和背景;f)利⽤⽤户的经验和直觉提⾼检索准确率;
g)提取所有有⽤信息存⼊数据库,⽽不是视频⽂件本⾝,这样可以节省很多空间,同时也节约⼈⼒成本。
图2 - 视频检索
图2是检索上⾝穿⽩⾊⾐服,下⾝穿⿊⾊裤⼦的⼈的结果,检测结果按相似度的⾼低由上向下排列。3⼈脸识别和查询
⼈脸识别有两种典型的监控应⽤情况,固定摄像机采集的监控视频中提取⼈脸和移动监控设备拍摄⼈脸。通常来说,固定安装的摄像机可以拍摄视频,从中提取⼈脸,移动设备⽤户可以在现场通过摄像头捕获⽬标的相⽚。移动设备能储存少数⽬标⼈员的相⽚,移动设备⽐较获得的相⽚和储存的相⽚以识别重要嫌疑犯。
固定安装IP 摄像机获取的截图或照⽚通常只有较低的质量,并且由于拍摄场景的不确定,其中的光照以及⼈物的姿势也是不确定的。与此相反,移动终端设备可以应⽤到不同的情境中,照⽚可以在⼀个可控的环境中取得。上述获取的截图或照⽚可回传给服务器端,与数据库中⼤量的相⽚进⾏⽐对。照⽚⽐对的第
⼀步是提取有效的脸部特征。选择什么样的特征作⽐对是关键,由于⼈员姿态表情的变化,拍摄环境光照条件以及帽⼦墨镜遮挡等的影响,选择有效的特征是⼀件挑战性的⼯作。为了解决这些难题,可以使⽤⼀个基于学习的编码⽅法,⽤以提取脸部特征,从⽽进⾏识别。这⼀⽅法使⽤了⾃主学习的⽅法对脸的局部微结构进⾏编码。这⼀学得的码流⽐现有的⼿⼯编码的⽅法具有更好的识别能⼒和稳定性。同时,压缩效果也⾮常好。
此技术的进⼀步作业说明如下:⾸先,使⽤标准的基准点探测器提取出脸部的明显界限。根据这些界限,分别找到⾯部的九个不同部分(例如,⼝,⿐)。这些部分的图⽚将送给⼀个DoG(Difference of Gradient)滤波器去除低频和⾼频信号以避免光
照变换的影响。在每⼀个部分的图⽚⾥,每⼀个像素都视频分析技术将得到⼀个低阶的特征向量,同时⽤⾃学习的编码器对他们进⾏编码。对每⼀个像素,取周边环绕着的象素点组成⼀个低阶的特征向量。具体来说,等间隔地在半径为r的环上取样,得到r x 8个像素点。在这之后,将这些抽样得到的特征
向量规⼀化。整个这⼀过程使得特征向量对局部光学仿射变换具有不变性。
之后,对规⼀化的特征向量进⾏编码。其中,应科院的⽅法不同于很多⼿⼯编码器。在应科院的⽅法中,编码器是⽤⾃主地⽅法对⼀整套脸部图像进⾏特别训练的。跟着研究三种⾃主学习的⽅法:K-means, PCA 树和randomprojection 树。因此,所有量⼦化的编码在向量空间具有相似的频率。编码之后,输⼊的图像将变成⼀幅“编码”图。这个编码图将整个图⽚分成⼀格⼀格的。其中,每⼀格都将计算得到⼀个直⽅图,然后将这些直⽅图联系起来,就可以组成整个⼈脸图像的描述符。为了减少特征的⼤⼩,应科院应⽤了PCA 的⽅法压缩这些直⽅图。
这些压缩后的描述符就是最终的基于学习的描述符。最后的结果就是⼀个由编码
特征构成的直⽅图经过PCA 和归⼀化之后得到的压缩描述符。这⼀由LE 描述符提取出来的特征向量将传给⼀个脸部认证分类器,从⽽做出最后的决策。
因篇幅问题不能全部显示,请点此查看更多更全内容