上期文章,我们介绍了MediaPipeHolistic的基础知识,了解到MediaPipeHolistic分别利用MediaPipePose,MediaPipeFaceMesh和MediaPipeHands中的姿势,面部和手界标模型来生成总共543个界标(每手33个姿势界标,468个脸部界标和21个手界标)。 对于姿势模型的精度足够低以至于所得到的手的ROI仍然不够准确的情况,但我们运行附加的轻型手重新裁剪模型,该模型起着的作用,并且仅花费了手模型推断时间的10左右。 MediaPipe MediaPipe是一款由GoogleResearch开发并开源的多媒体机器学习模型应用框架。在谷歌,一系列重要产品,如、GoogleLens、ARCore、GoogleHome以及,都已深度整合了MediaPipe。 MediaPipe图片检测 作为一款跨平台框架,MediaPipe不仅可以被部署在服务器端,更可以在多个移动端(安卓和苹果iOS)和嵌入式平台(GoogleCoral和树莓派)中作为设备端机器学习推理(OndeviceMachineLearningInference)框架。 一款多媒体机器学习应用的成败除了依赖于模型本身的好坏,还取决于设备资源的有效调配、多个输入流之间的高效同步、跨平台部署上的便捷程度、以及应用搭建的快速与否。 基于这些需求,谷歌开发并开源了MediaPipe项目。除了上述的特性,MediaPipe还支持TensorFlow和TFLite的推理引擎(InferenceEngine),任何TensorFlow和TFLite的模型都可以在MediaPipe上使用。同时,在移动端和嵌入式平台,MediaPipe也支持设备本身的GPU加速。MediaPipe主要概念 MediaPipe的核心框架由C实现,并提供Java以及ObjectiveC等语言的支持。MediaPipe的主要概念包括数据包(Packet)、数据流(Stream)、计算单元(Calculator)、图(Graph)以及子图(Subgraph)。数据包是最基础的数据单位,一个数据包代表了在某一特定时间节点的数据,例如一帧图像或一小段音频信号;数据流是由按时间顺序升序排列的多个数据包组成,一个数据流的某一特定时间戳(Timestamp)只允许至多一个数据包的存在;而数据流则是在多个计算单元构成的图中流动。MediaPipe的图是有向的数据包从数据源(SourceCalculator或者GraphInputStream)流入图直至在汇聚结点(SinkCalculator或者GraphOutputStream)离开。 MediaPipe的核心框架若我们想使用MediaPipe,首先,在我们的电脑cmd命令框中输入pythonmpipinstallMediaPipe安装第三方模型,然后我们便可以使用代码来进行图片或者视频的检测了,此模型最主要的优点是不需要我们下载预训练模型,只是安装上其mediapipe包即可 MediaPipe图片检测Mediapipe模型的图片代码检测importcv2importmediapipeasmpmpdrawingmp。solutions。drawingutilsmpholisticmp。solutions。holisticfile4。jpgholisticmpholistic。Holistic(staticimagemodeTrue)imagecv2。imread(file)imagehight,imagewidth,image。shapeimagecv2。cvtColor(image,cv2。COLORBGR2RGB)resultsholistic。process(image) 首先,我们导入需要的第三方库,并配置一下需要画图的点的尺寸,线的尺寸以及颜色等,这些信息都可以自行修改,这里我们直接引用官方的配置进行设计( mp。solutions。drawingutils函数) 然后定义一个holistic检测模型函数mpholisticmp。solutions。holisticfile4。jpgholisticmpholistic。Holistic(staticimagemodeTrue) 然后使用我们前期介绍的opencv的相关知识从系统中读取我们需要检测的图片,并获取图片的尺寸imagecv2。imread(file)imagehight,imagewidth,image。shape 由于OpenCV默认的颜色空间是BGR,但是一般我们说的颜色空间为RGB,这里mediapipe便修改了颜色空间 然后使用我们前面建立的holistic检测模型,对图片进行检测即可imagecv2。cvtColor(image,cv2。COLORBGR2RGB)resultsholistic。process(image) 模型检测完成后的结果保存在results里面,我们需要访问此结果,并把检测到的人脸,人手,以及姿态评估的数据点画在原始检测的图片上,以便查看ifresults。poselandmarks:print(fNosecoordinates:(f{results。poselandmarks。landmark〔mpholistic。PoseLandmark。NOSE〕。ximagewidth},f{results。poselandmarks。landmark〔mpholistic。PoseLandmark。NOSE〕。yimagehight}))annotatedimageimage。copy()mpdrawing。drawlandmarks(annotatedimage,results。facelandmarks,mpholistic。FACECONNECTIONS)mpdrawing。drawlandmarks(annotatedimage,results。lefthandlandmarks,mpholistic。HANDCONNECTIONS)mpdrawing。drawlandmarks(annotatedimage,results。righthandlandmarks,mpholistic。HANDCONNECTIONS)mpdrawing。drawlandmarks(annotatedimage,results。poselandmarks,mpholistic。POSECONNECTIONS) 这里我们打印了图片检测的结果,并分别画出人脸检测模型数据,人左右手的检测数据,以及人体姿态检测数据cv2。imshow(annotatedimage,annotatedimage)cv2。imwrite(4。png,annotatedimage)cv2。waitKey(0)holistic。close() 画图完成后,我们可以显示图片方便查看,也可以直接使用OpenCV的imwrite函数进行结果图片的保存,最后只需要closeholistic检测模型,这里在检测多人的时候出现了问题,只是检测了单人,我们后期研究 图片检测Mediapipe模型的视频代码检测 当然,我们也可以直接在视频里面进行Mediapipe的模型检测 importcv2importtimeimportmediapipeasmpmpdrawingmp。solutions。drawingutilsmpholisticmp。solutions。holisticholisticmpholistic。Holistic(mindetectionconfidence0。5,mintrackingconfidence0。5) 首先跟图片检测一致,我们建立一个holistic检测模型,然后便可以打开摄像头进行模型的检测capcv2。VideoCapture(0)time。sleep(2)whilecap。isOpened():success,imagecap。read()ifnotsuccess:print(Ignoringemptycameraframe。)continueimagecv2。cvtColor(cv2。flip(image,1),cv2。COLORBGR2RGB)image。flags。writeableFalseresultsholistic。process(image) 首先我们打开默认摄像头,并从摄像头中获取检测的实时图片capcv2。VideoCapture(0)whilecap。isOpened():success,imagecap。read() 检测到图片后,我们便可以直接使用图片检测的步骤,进行模型的检测imagecv2。cvtColor(cv2。flip(image,1),cv2。COLORBGR2RGB)image。flags。writeableFalseresultsholistic。process(image) 这里我们使用到了cv2。flip(image,1)图片翻转函数来增强数据图片,由于我们摄像头中的影像跟我们是镜像关系 cv2。flip(image,1) 使用此函数便可以镜像我们的图片影像,最后把图片赋值给holistic模型进行检测image。flags。writeableTrueimagecv2。cvtColor(image,cv2。COLORRGB2BGR)mpdrawing。drawlandmarks(image,results。facelandmarks,mpholistic。FACECONNECTIONS)mpdrawing。drawlandmarks(image,results。lefthandlandmarks,mpholistic。HANDCONNECTIONS)mpdrawing。drawlandmarks(image,results。righthandlandmarks,mpholistic。HANDCONNECTIONS)mpdrawing。drawlandmarks(image,results。poselandmarks,mpholistic。POSECONNECTIONS)cv2。imshow(MediaPipeHolistic,image)ifcv2。waitKey(5)0xFFord(q):breakholistic。close()cap。release() 检测完成后,我们便可以把数据实时进行绘制,以便在视频中实时进行结果的查看 视频检测 这里由于默认设置,线条与点的尺寸不太合适,我们后期慢慢优化