深圳先进院在多媒体大数据研究方向取得新进展
随着信息数字化的日益推进,数据的规模急剧扩增,大数据正成为一个新兴的技术研究热点。近日,中国科学院深圳先进技术研究院多媒体集成技术研究中心在自身扎实的科研基础上,针对大规模多媒体数据,在人脸识别、大规模媒体检索与编辑以及复杂行为识别三方面取得新进展。
在人脸识别系统的实际应用中,因为不同年龄阶段的人脸差别,导致数据库图片与实际人脸图片往往存在差异,这是人脸识别技术必须面对的一个关键问题,也是近期人脸识别领域的一个难点和热点。先进院多媒体中心研究团队经过近两年的技术攻关,初步研究成果已经在世界上最大的一个具有显著年龄变化的人脸数据库(MORPH)上取得了国际领先的结果。部分相关成果发表于国际期刊IEEE Transactions on Information Forensics and Security (TIFS):Z. Li, U. Park, and A. Jain, “A Discriminative Model for Age Invariant Face Recognition,” vol. 6, no. 3, pp. 1028-1037, 2011。该项目在我国有着广阔的应用前景,例如协助寻找失踪儿童,验证身份证照片真伪,以及网络大规模人脸检索与识别等等。
在大规模媒体检索与编辑方面,多媒体中心团队突破传统互联网图片搜索局限,即多数搜索基于图片相关文字信息建立索引来实现查询功能。研究利用自适应视觉相似性对于文字信息的搜索结果进行重排序,采用不同视觉特征的组合来刻画图像的相似性度量,提出一种基于用户意图的,交互式的图像查询、重排序的解决方案。该项技术能够实时有效地提高图像检索结果,大幅度提高用户体验,使得用户可以方便快捷地从网络图像中检索到所需要图像。同时多媒体中心研究团队开发的基于内容的多媒体处理与编辑技术,能够全自动且快速高效地对图像进行符合人的感知的分割,并且能基于较少的交互信息,精确挖剪出图像或视频中的物体(图1)。
在复杂行为识别研究方面,随着视频监控系统广泛应用,如何实现对海量监控视频数据中的复杂行为进行自动识别,已经成为监控系统智能化道路上必须解决的一个关键问题。多媒体中心研究团队基于模式识别和机器学习理论提出一个基于非参数分层式贝叶斯模型的无监督学习理论框架,对特定的物体活动和交通模式进行识别和预测,突破了以往对特定物体活动识别和异常活动检测的局限。该方法中检测与预测均符合概率和统计理论的解释,不需要人工制定具体规则,在场景方面具有普适性(图2)。
图1精确物体切割技术
图2(a)为街道场景中自动发现的一类经常出现的典型活动的模型
图2(b)为利用习得的模式对监控视频中的行为进行自动检测和识别
附件下载: