童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

人脸识别技术发展及实用方案设计

11月27日 枯心人投稿
  本文试图梳理人脸识别技术发展,并根据作者在相关领域的实践给出一些实用方案设计,期待能对感兴趣的读者有所裨益。
  人脸识别技术不但吸引了Google、Facebook、阿里、腾讯、百度等国内外互联网巨头的大量研发投入,也催生了Face、商汤科技、Linkface、中科云从、依图等一大波明星创业公司,在视频监控、刑事侦破、互联网金融身份核验、自助通关系统等方向创造了诸多成功应用案例。本文试图梳理人脸识别技术发展,并根据作者在相关领域的实践给出一些实用方案设计,期待能对感兴趣的读者有所裨益。
  一、概述
  通俗地讲,任何一个的机器学习问题都可以等价于一个寻找合适变换函数的问题。
  例如语音识别,就是在求取合适的变换函数,将输入的一维时序语音信号变换到语义空间;而近来引发全民关注的围棋人工智能AlphaGo则是将输入的二维布局图像变换到决策空间以决定下一步的最优走法;相应的,人脸识别也是在求取合适的变换函数,将输入的二维人脸图像变换到特征空间,从而唯一确定对应人的身份。
  一直以来,人们都认为围棋的难度要远大于人脸识别,因此,当AlphaGo以绝对优势轻易打败世界冠军李世乭九段和柯洁九段时,人们更惊叹于人工智能的强大。
  实际上,这一结论只是人们的基于“常识”的误解,因为从大多数人的切身体验来讲,即使经过严格训练,打败围棋世界冠军的几率也是微乎其微;相反,绝大多数普通人,即便未经过严格训练,也能轻松完成人脸识别的任务。
  然而,我们不妨仔细分析一下这两者之间的难易程度:在计算机的“眼里”,围棋的棋盘不过是个1919的矩阵,矩阵的每一个元素可能的取值都来自于一个三元组{0,1,2},分别代表无子,白子及黑子,因此输入向量可能的取值数为3361;而对于人脸识别来讲,以一幅512512的输入图像为例,它在计算机的“眼中”是一个512x512x3维的矩阵,矩阵的每一个元素可能的取值范围为0255,因此输入向量可能的取值数为256786432。虽然,围棋AI和人脸识别都是寻求合适的变换函数f,但后者输入空间的复杂度显然远远大于前者。
  对于一个理想的变换函数f而言,为了达到最优的分类效果,在变换后的特征空间上,我们希望同类样本的类内差尽可能小,同时不同类样本的类间差尽可能大。
  但是,理想是丰满的,现实却是骨感的。由于光照、表情、遮挡、姿态等诸多因素(如图1)的影响,往往导致不同人之间的差距比相同人之间差距更小,如图2。人脸识别算法发展的历史就是与这些识别影响因子斗争的历史。
  图1人脸识别的影响因素
  图2姿态导致不同人相似度比同人更高
  二、人脸识别技术发展
  早在20世纪50年代,认知科学家就已着手对人脸识别展开研究。20世纪60年代,人脸识别工程化应用研究正式开启。当时的方法主要利用了人脸的几何结构,通过分析人脸器官特征点及其之间的拓扑关系进行辨识。这种方法简单直观,但是一旦人脸姿态、表情发生变化,则精度严重下降。
  1991年,著名的“特征脸”方法〔1〕第一次将主成分分析和统计特征技术引入人脸识别,在实用效果上取得了长足的进步。这一思路也在后续研究中得到进一步发扬光大,例如,Belhumer成功将Fisher判别准则应用于人脸分类,提出了基于线性判别分析的Fisherface方法〔2〕。
  21世纪的前十年,随着机器学习理论的发展,学者们相继探索出了基于遗传算法、支持向量机(SupportVectorMachine,SVM)、boosting、流形学习以及核方法等进行人脸识别。2009年至2012年,稀疏表达(SparseRepresentation)〔3〕因为其优美的理论和对遮挡因素的鲁棒性成为当时的研究热点。
  与此同时,业界也基本达成共识:基于人工精心设计的局部描述子进行特征提取和子空间方法进行特征选择能够取得最好的识别效果。Gabor〔4〕及LBP〔5〕特征描述子是迄今为止在人脸识别领域最为成功的两种人工设计局部描述子。这期间,对各种人脸识别影响因子的针对性处理也是那一阶段的研究热点,比如人脸光照归一化、人脸姿态校正、人脸超分辨以及遮挡处理等。也是在这一阶段,研究者的关注点开始从受限场景下的人脸识别转移到非受限环境下的人脸识别。LFW人脸识别公开竞赛在此背景下开始流行,当时最好的识别系统尽管在受限的FRGC测试集上能取得99以上的识别精度,但是在LFW上的最高精度仅仅在80左右,距离实用看起来距离颇远。
  2013年,MSRA的研究者首度尝试了10万规模的大训练数据,并基于高维LBP特征和JointBayesian方法〔6〕在LFW上获得了95。17的精度。这一结果表明:大训练数据集对于有效提升非受限环境下的人脸识别很重要。然而,以上所有这些经典方法,都难以处理大规模数据集的训练场景。
  2014年前后,随着大数据和深度学习的发展,神经网络重受瞩目,并在图像分类、手写体识别、语音识别等应用中获得了远超经典方法的结果。
  香港中文大学的SunYi等人提出将卷积神经网络应用到人脸识别上〔7〕,采用20万训练数据,在LFW上第一次得到超过人类水平的识别精度,这是人脸识别发展历史上的一座里程碑。
  自此之后,研究者们不断改进网络结构,同时扩大训练样本规模,将LFW上的识别精度推到99。5以上。如表1所示,我们给出了人脸识别发展过程中一些经典的方法及其在LFW上的精度,一个基本的趋势是:训练数据规模越来越大,识别精度越来越高。如果读者阅读有兴趣了解人脸识别更细节的发展历史,可以参考文献。
  表2较为正常的人脸识别训练集
  表3本文用到的测试集
  表4一种快速可靠的训练数据清洗方法
  图4给出了一套行之有效的人脸识别技术方案,主要包括多patch划分、CNN特征抽取、多任务学习多loss融合,以及特征融合模块。
  图4人脸识别技术方案
  1、多patch划分主要是利用人脸不同patch之间的互补信息增强识别性能。尤其是多个patch之间的融合能有效提升遮挡情况下的识别性能。当前,在LFW评测中超过99。50的结果大多数是由多个patch融合得到。
  2、经过验证较优秀的人脸特征抽取卷积神经网络包括:DeepID系列、VGGNet、ResNet、GoogleInception结构。读者可以根据自己对精度及效率的需求选择合适的网络。本文以19层resnet举例。
  3、多任务学习主要是利用其他相关信息提升人脸识别性能。本文以性别和种族识别为例,这两种属性都是和具体人的身份强相关的,而其他的属性如表情、年龄都没有这个特点。我们在resnet的中间层引出分支进行种族和性别的多任务学习,这样CNN网络的前几层相当于具有了种族、性别鉴别力的高层语义信息,在CNN网络的后几层我们进一步学习了身份的细化鉴别信息。同时,训练集中样本的性别和种族属性可以通过一个baseline分类器进行多数投票得到。
  4、多loss融合主要是利用不同loss之间的互补特性学习出适当的人脸特征向量,使得类内差尽可能小,类间差尽可能大。当前人脸识别领域较为常用的集中loss包括:pairwiseloss、tripletloss、softmaxloss、centerloss等。其中tripletloss直接定义了增大类内类间差gap的优化目标,但是在具体工程实践中,其trick较多,不容易把握。而最近提出的centerloss,结合softmaxloss,能较好地度量特征空间中的类内、类间差,训练配置也较为方便,因此使用较为广泛。
  5、通过多个patch训练得到的模型将产生多个特征向量,如何融合多特征向量进行最终的身份识别也是一个重要的技术问题。较为常用的方案包括:特征向量拼接、分数级加权融合以及决策级融合(如投票)等。
  表5数据清洗前后识别模型性能对比
  表5给出了训练数据清洗前后在测试集上的性能对比结果。据此可以得到以下结论:
  数据的清洗不但能加快模型训练,也能有效提升识别精度;
  在西方人为主的训练集MSCeleb1M上训练得到的模型,在同样以西方人为主的测试集LFW上达到了完美的泛化性能;但是在以东方人为主的业务测试集的泛化性能则有较大的下滑;
  在以东方人为主的业务训练集训练得到的模型,在东方人为主的业务测试集上性能非常好,但是在西方人为主的测试集LFW上相对MSCeleb1M有一定差距;
  将业务训练集和MSCeleb1M进行合并,训练得到的模型在LFW和业务数据上都有近乎完美的性能。其中,基于三个patch融合的模型在LFW上得到了99。58的识别精度。
  由此,我们可以知道,为了达到尽可能高的实用识别性能,我们应该尽可能采用与使用环境相同的训练数据进行训练。同样的结论也出现在论文〔12〕中。
  实际上,一个完整的人脸识别实用系统除了包括上述识别算法以外,还应该包括人脸检测,人脸关键点定位,人脸对齐等模块,在某些安全级别要求较高的应用中,为了防止照片、视频回放、3D打印模型等对识别系统的假冒攻击,还需要引入活体检测模块;为了在视频输入中取得最优的识别效果,还需要引入图像质量评估模块选择最合适的视频帧进行识别,以尽可能排除不均匀光照、大姿态、低分辨和运动模糊等因素对识别的影响。另外,也有不少研究者和公司试图通过主动的方式规避这些因素的影响:引入红外3D摄像头。典型的实用人脸识别方案如图5所示。
  图5实用人脸识别方案流程图
  四、总结
  本文简单总结了人脸识别技术的发展历史,并给出了实用方案设计的参考。虽然人脸识别技术在LFW公开竞赛中取得了99以上的精度,但是在视频监控等实用场景下的1:N识别距离真正实用还有一段路要走,尤其是在N很大的情况下。未来,我们还需要在训练数据扩充、新模型设计及度量学习等方面投入更多的精力,让大规模人脸识别早日走入实用。
  参考文献
  〔1〕TurkandMA,PenglandAP。Eigenfacesforrecognition〔J〕。JournalofCognitveNeuroscience,1991,3(1):7186。
  〔2〕BelhumeurP,HespanhaJ,KriegmanD。Eigenfacesvs。fisherfaces:Recognitionusingclassspecificlinearprojection〔J〕。IEEETransactionsonPatternAnalysisandMachineIntelligence,1997,19(7):711720。
  〔3〕LiuC,Wechsler。Gaborfeaturebasedclassificationusingenhancedfisherlinearmodelforfacerecognition〔J〕。IEEETransactionsonImageProcessing,2002,11(4):467476。
  〔4〕AhonenT,HadidA,PietikinenM。Facedescriptionwithlocalbinarypatterns:Applicationtofacerecognition〔J〕。IEEETransactionsonPatternAnalysisandMachineIntelligence,2006,28(12):20372041。
  〔5〕WrightJ,YangA,GaneshA,SastryS,MaY。Robustfacerecognitionviasparserepresentation〔J〕。IEEETransactionsonPatternAnalysisandMachineIntelligence,2009,31(2):210227。
  〔6〕ChenD,CaoX,WenF,SunJ。Blessingofdimensionality:highdimensionalfeatureanditsefficientcompressionforfaceverification〔C〕。IEEEInternationalConferenceonComputerVisionandPatternRecognition,2013。
  〔7〕SunY,WangX,TangX。DeeplearningfacerepresentationbyjointidentificationVerification〔C〕。
  〔8〕ZhaoW,ChellappaR,RosenfeldA,PhillipsPJ。Facerecognition:Aliteraturesurvey〔J〕。ACMComputingSurveys,2003,35(4):399458。
  〔9〕LiSZ,JainAK。Handbookoffacerecognition(2ndEdition)〔M〕。SpringerVerlag,2011。
  〔10〕WangB,LiW,YangW,LiaoQ。IlluminationnormalizationbasedonWeber’slawwithapplicationtofacerecognition〔J〕。IEEESignalProcessingLetters,2011,18(8):462465。
  〔11〕WangBiao,FengX,GongL,FengH,HwangW,HanJ。RobustPosenormalizationforfacerecognitionundervaryingviews〔C〕。ICIP,2015,
  〔12〕KanM。DomainAdaptationforfacerecognition:Targetizesourcedomainbrigedbycommonsubspace,IJCV,2014。
  
投诉 评论 转载

家居门店新零售,该怎么做?家居门店零售现在不仅仅关注自己门店单打独斗,其实还是需要客户运营和后台数据支撑,通过线上助力线下门店,完成传统门店新零售。2017年互联网行业都谈到的共同话题就是过去躺着……电商后台:实例解读促销系统促销是电商常见拉新留存常见手段,上篇文章讲述的是商品管理系统(电商后台:实例解读商品管理系统)。本文主要介绍促销系统。电商后台系统包括商品管理系统、采购系统、仓储系统、订……小程序接入微信支付避雷指南在以用户体验闻名的腾讯,有一个特殊的产品体验烂的连吐槽的心情都没有,那就是微信支付。接入背景笔者在一年前负责一个违章查缴的H5产品,那时候开始接触微信支付。时隔一年……如何在ROM中优雅地打广告?随着手机ROM的发展,除了创造良好的体验,以辅助手机销售外,各厂商也开始探索ROM商业化的路线。引入广告是现在比较普遍的一种做法,但怎样保证体验不受影响呢?本文从竞品分析入手,……深度使用客服系统6个月后,我的一点总结(二)本文讨论的是如何利用客服系统中的权限设计来帮助客服团队进行科学管理。enjoySaaS产品近两年崛起迅速,动辄亿元级别的融资额,虽不如直播、共享、新零售等风口那样人尽皆知……设计的表达:视觉信息的表现设计在生活中是如何体现的?设计怎么出现在生活中?如何影响着我们?我理解的人机交互是一个“物体出现人察觉物人与物互动人被影响”的过程。因此“物体出现”,也就是视觉信息……人脸识别技术发展及实用方案设计本文试图梳理人脸识别技术发展,并根据作者在相关领域的实践给出一些实用方案设计,期待能对感兴趣的读者有所裨益。人脸识别技术不但吸引了Google、Facebook、阿里、腾……5年迭代,我总结了一套全面的交互设计知识体系文章为作者经过5年多的不断迭代,形成的一套交互设计知识体系,希望对你来说,有所收获。又是近一年没有更新!一年前信誓旦旦的说“用知识管理的方法,跟大家一起建立交互设计……5大维度,拆解在线抓娃娃爆红背后的产品逻辑2017年,线上抓娃娃的app正式出现了,到2017年下半年,抓娃娃的风口正式走热。背景简介行业发展史1980年,娃娃机诞生于日本,并于1990年在中国番禺逐……虚拟按钮设计:真的还要怀疑它的价值吗?逻辑上,虚拟按钮可能并不适合于Web设计;然而对用户来说,可能并不是那么回事。尽管是一个设计细节,但按钮设计确实起着举足轻重的作用。按钮是用户访问的最重要入口,……今日头条算法原理(全文)本文主要分享了今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,……为什么丑陋的UI界面却能创造良好的用户体验?网站界面过于漂亮可能会影响网站的可用性,但本文中提到的5个网站界面可谓是“丑”出了新高度。这样的网站它还有可用性吗?计算器的界面设计算不上漂亮,但当你的指尖在键盘上飞舞时……
职场自我介绍职场自我介绍职场心灵鸡汤语录56条经典职场心灵鸡汤语录摘录80条职场的语录75条职场的语录59条职场正能量的语录职场正能量的语录95条职场心灵鸡汤语录摘录71条和同事相处的职场礼仪职场正能量的语录摘录职场正能量的语录摘录原来如此快乐作文六篇3500元以内的手机哪一款最好?这个地方装上柜子让你家比还好世界上的另一个你经典语录净水机前置滤芯多久换漫谈植物分类学原理3基本概念(一)不要高空坠物的原因是什么母爱作文450字把刊物当事业来办的一群人起源星族诞生,宇宙因何诞生,生命因何诞生,我们太阳系的前传女人应该依靠谁?女人的活法?彭楚粤喝的到底是什么为什么给彭楚粤油漆

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界