软件对边缘AI部署至关重要

　　来源︱The Linley Group
　　文︱Mike Demler
　　人工智能（AI）正在迅速从数据中心转移到边缘计算。开发人员通常使用通用CPU和GPU内核来开发和训练神经网络模型，但这些内核的效率远低于用于推理任务的专用加速器。尽管快速增长的市场导致众多企业家推出边缘AI初创公司，但很少有人能够开发出包括生产系统所需硬件和软件的完整解决方案。算法开发人员已经发布了许多在线免费提供的神经网络模型，亚马逊、谷歌和微软等科技巨头提供了在云端运行这些模型的平台，但边缘AI部署需要对每个细分市场进行更细粒度的优化。
　　边缘AI市场包括许多不同的应用，从嵌入式设备到企业、工业、零售和智能城市管理系统的本地服务器。这些应用涵盖了广泛的性能范围，从嵌入式中每秒不到一万亿次操作(TOPS)开始，到在边缘服务器中达到数十万亿次或数百万亿次（TOPS）操作。为避免为每个细分市场使用不同的平台，设计人员应选择可扩展的加速器和软件堆栈，以满足其所针对的不同的细分市场需求。
　　边缘服务器的趋势是通过在PCIe插卡上添加专用加速器来从CPU上卸载AI。基于FPGA的加速器具有可配置性支持各种应用的优势，而且比定制芯片的上市时间更短。同时还允许用户修改架构以在现场安装新模型以及优化加速器以处理不同的工作负载。另一方面，ASIC更适合具有固定要求的嵌入式系统和大批量的消费电子产品。
　　许多IP供应商为ASIC或FPGA提供了可授权AI加速器，但很少有供应商能够提供两者均适用的AI加速器。AI初创公司EdgeCortix是一个例外。该公司开发了一个名为动态神经加速器（DNA）的高度可配置硬件平台，为FPGA提供1.2到15 TOPS的算力，为ASIC提供高达54 TOPS的算力。对于需要更高吞吐量的系统，设计人员可以安装多个PCIe卡或将多个ASIC内核连接到SoC的AXI总线。
　　但除了这种高度可扩展的架构外，同时为ASIC和FPGA设计提供服务的关键是该公司的多模块高效可重配置加速器(Mera)软件。通过Mera和DNA内核的结合，针对可编程逻辑和定制芯片，设计人员可以使用相同的工具。同时还可以从Mera基于云的平台支持中受益；Xilinx应用商店就是一个例子，其进一步加快了部署速度，并支持对网联设备进行无线(OTA)更新。这家初创公司已经在Alveo和Zynq UltraScale+FPGA上证明了自己的技术，报告了MLPerf测试套件的结果，并且该公司正在开发一种测试芯片来展示DNA在ASIC中的性能。
　　边缘AI对可扩展加速器的需求
　　EdgeCortix DNA-F系列非常适合边缘服务器，而DNA-A系列可满足更广泛的ASIC功率预算和性能要求。然而，两种产品的底层架构特性是相同的，为客户提供了高度可配置和可扩展的推理引擎。
　　如图1所示，DNA架构通过将多个内核连接至可配置互连总线进行扩展。在每个内核中，卷积引擎使用INT8数据执行大多数操作。矢量引擎处理激活函数，以及池化、采样和其他非卷积层。DNA设计中引擎的组成和数量是可配置的。
　　图1：EdgeCortix DNA架构。每个DNA内核包括两个卷积引擎：一个用于逐点操作，另一个用于深度运算。向量单元处理最常见的激活函数，以及池化、采样和其他非卷积层。该架构允许配置各种引擎的数量和类型，以及连接多个内核以扩展性能。
　　内部SRAM的大小和数量也是可配置的。DNA将数据和网络参数存储在三个不同的内存块中，但这些块共享相同的物理资源。AccMem是一个累加器，用于保存激活函数和卷积操作之间的中间结果。顾名思义，DataMem存储激活函数，WeightMem存储神经网络权重和偏差值。
　　EdgeCortix提供了五种针对Xilinx Alveo和Zynq UltraScale+FPGA进行优化的DNA-F模型。DNA-A内核更具可定制性，支持每层或每个推理的运行时配置能力，允许重新分配物理存储以调整三个内存块的容量。计算引擎和内存之间的互连也是运行时可配置的，因此DNA内核可以为通道、内核、模型和磁贴并行性动态分配资源。
　　Mera编译器自动为每一层或模型确定计算块和存储器的最佳排列，DNA核心通过电路交换技术动态配置这些排列。这种运行时可配置性是Mera软件和DNA架构的独特功能，可确保所有神经网络模型都受益于最大的硬件利用率和最小的推理延迟。
　　无缝流程将训练与推理联系起来
　　神经网络开发人员通常在机器学习框架中训练模型，例如Pytorch和TensorFlow等，在CPU和GPU上运行全精度浮点(FP32)计算。所有DLA-IP供应商都提供软件开发工具包(SDK)，用于编译在其推理引擎上运行的预训练模型，但为了保持准确性，许多供应商需要额外的优化或重新训练，从而延迟部署。
　　相比之下，Mera软件堆栈直接编译和运行在Pytorch或TensorFlow Lite中构建的模型，无需额外的训练后优化。EdgeCortix通过扩展Apache软件基金会的TVM深度学习编译器（一种流行的开源软件堆栈）创建了Mera。受益于主要人工智能技术公司的贡献，包括亚马逊、Facebook、谷歌和微软，开发人员使用TVM进行开发工作。
　　图2显示了Mera软件流程及其与机器学习框架集成的高级视图。开发人员使用C++或Python脚本运行Mera。Pytorch和TensorFlow Lite中内置的函数可以将网络参数量化为INT8格式以进行推理。开源ONNX交换格式允许将在其他框架中训练的神经网络模型转换到TensorFlow Lite中。
　　量化后，TVM前端处理初始的高级图分区，独立于目标推理引擎。使用EdgeCortix开发的Mera扩展，编译器将支持的运算符从开源中继中间表示(IR)转换为DNA指令。它还检测不受支持的运算符，并将其转换为LLVM IR，以便在目标硬件的基于Arm或x86主机的CPU上执行。
　　一旦图像分区完成，Mera的代码生成器让开发人员可以使用Mera解释器执行快速功能模拟。功能模拟器提供检查以确保编译模型与原始预训练版本匹配，而不会损失准确性。功能验证后，Mera会针对特定目标执行低级优化和分区。优化包括融合层和运算符以最大化吞吐量以及有效地平铺操作以匹配特征图维度。开发人员可以选择内置的性能模拟器作为目标，可以准确估计网络延迟。他们还可以使用Mera在Verilator或其他开源周期精确模拟器中生成的RTL代码。
　　图2.Mera编译器流程。Mera支持在Pytorch或TensorFlow Lite中训练的模型。这些平台中的量化工具将权重转换为用于推理的INT8格式。Mera针对目标硬件优化模型，包括一个验证准确性的功能模拟器和一个估计延迟的动态模拟器，可以与Ventilator以及其他开源周期精确模拟器一起使用。
　　Mera的调度程序是DNA效率的关键。通过利用网络并行性，该软件根据硬件配置分配工作负载来最大限度地提高利用率。在batch=1时，该软件能够最大限度地减少延迟，这在实时对象识别中很典型。根据目标，开发人员可以选择快速或慢速调度程序。前者缺乏后者的低级优化，但提供了网络编译正确的更快证明；对于某些客户，这足以进行部署。
　　由于Xilinx Alveo系列等FPGA配备了各种数量的DRAM，而且因为有些DRAM内置高带宽存储器(HBM)，所以慢速调度器可以通过执行比快速调度器更细粒度的优化来利用这些细节。与仅针对加速器内核中内置的资源进行优化的编译器相比，此功能具有更大的灵活性。
　　云平台缩短上市时间
　　对于ASIC产品来说，EdgeCortix使用传统的IP许可模式，其中包括预付费用以及基于销售芯片数量的版税。然而，对于基于FPGA的客户，它提供了基于云的SaaS模型，可加速部署。不过，无论目标硬件如何，Mera软件堆栈都是相同的。
　　表1.EdgeCortix DNA-F系列。DNA-F050面向Zynq UltraScale+FPGA，其中包括可用作主机处理器的Arm Cortex-A CPU。设计人员可以编译F100、F200和F400以在Alveo U50 FPGA上运行；F600面向Alveo 250。Alveo卡具有PCIe接口，用于连接到x86或Arm主机。
　　客户可以从针对Xilinx PCIe卡优化的五种DNA-F产品中进行选择，如表1所示。F050与集成Arm CPU的Zynq UltraScale+SoC配合使用。设计人员既可以使用Zynq的可编程逻辑将视频直接流式传输到DNA内核，也可以使用芯片的Cortex-A53 CPU作为主机处理器。F100、F200和F400针对Xilinx U50 PCIe卡进行了优化，可提供2.2至7.5 INT8 TOPS的AI吞吐量。F600针对Alveo U250进行了优化；运行在300MHz，达到15 TOPS。
　　使用FPGA设计一个系统历来需要RTL编程技能，但EdgeCortix通过将DNA-F位流和相应的Mera软件打包在即用型Docker容器中，使这项任务变得更加容易，如图3所示。SaaS模式为客户提供锁定到每个设备的可更新订阅。F100和F200可通过Xilinx应用商店进行云或本地部署，也可用于Nimbix平台上的云部署。到2021年底，EdgeCortix计划在其他云平台上提供DNA-F产品，例如AWS和Microsoft Azure
　　图3.DNA计算机视觉系统。在此示例配置中，主机处理器以高清分辨率将图像流式传输到Alveo PCIe卡。设计人员可以通过下载Docker容器，轻松地在FPGA中安装DNA加速器，该容器包含特定硬件位流以及在主机处理器上运行的Mera编译器。
　　标准基准验证性能
　　边缘AI加速器供应商通常仅将推理吞吐量指定为乘积累加运算(MAC)操作或TOPS的总数，因为这些操作可以代表90%或更多计算机视觉网络计算。但大多数加速器中的硬件利用率通常低于50%，并且因型号而异，产生的吞吐量比数据表显示的要少得多。因此，我们建议客户评估此类设备以测试他们自己的模型，或者至少要求供应商使用标准的公开可用基准提供结果。
　　EdgeCortix通过在各种流行的神经网络（包括来自行业标准MLPerf测试套件的样本）上对DNA-F200设计进行基准测试，展示了其边缘人工智能平台的功能。由于DNA内核针对执行实时对象识别的计算机视觉系统，因此它采用了此类应用中典型的batch=1进行处理。该公司还优化了模型来最大限度地减少延迟，这是汽车和工业系统中的一个关键因素。
　　如图4所示，已发布的EdgeCortix基准测试结果包括各种MobileNet和ResNet配置，以及更复杂的Yolo v3模型。MobileNet v2和ResNet-50是MLPerf Inference v1.0的两个组件，要求供应商展示在ImageNet验证数据库中50,000张图像的准确率为99%。在300MHz和batch=1下运行ResNet-50，DNA-F200满足该标准，仅以6.6ms的延迟提供152fps的吞吐量。
　　图4.DNA-F200 batch=1基准。EdgeCortix已在计算机视觉网络上测试了其DNA加速器，从仅包含3亿次MAC操作的MobileNet v2到执行100倍操作数的其他网络。它发布了符合MLPerf要求的MobileNet v2和ResNet-50的结果，证明了从ImageNet数据库中提取的样本的对象分类准确率至少为99%。（来源：EdgeCortix）
　　MobileNet只需要ResNet-50大约10%的参数，使加速器能够将性能提升至390fps，延迟仅为2.6ms。客户应该记住，这些MLPerf结果来自Mera的早期v0.2版本；生产版本可能会表现得更好。在提交MLPerf之后，该公司使用其编译器的更高版本再次运行了ResNet-50。如图4所示，延迟提高到4.4ms，吞吐量增加了近50%，从152fps增加到225fps。
　　Yolo v3不是MLPerf的一部分，但它是一个比ResNet-50更具挑战性的网络，在106层中包含330亿次MAC操作，以及6200万个参数。它的原始输入图像分辨率为416x416像素，但EdgeCortix展示了DNA-F200通过缩小全高清(1,920x1,080)视频流来准确分类图像的能力，以40ms的延迟提供25fps吞吐量。将输入分辨率降低到Yolo v3的原生帧大小可将吞吐量提高到43fps，将延迟降低到23ms。
　　这些基准测试结果证明了Mera在编译跨越10:1模型大小范围的神经网络方面的多功能性，以及DNA IP有效提高性能的能力。例如，虽然Yolo v3包含的MAC操作数是ResNet-50的8倍以上，但DNA-F200执行更大的网络时延迟仅为7倍，这表明Mera能够最大限度地提高硬件利用率。
　　总结
　　由于边缘AI设备具有广泛的性能和功率要求，因此加速器的选择将面临挑战。该加速器必须能够支持不同的工作负载，并在主流计算机视觉模型上提供所需吞吐量。但边缘AI软件堆栈可能更加棘手，因为若要在不同目标设备中实现硬件最大利用率，就必须包含一个能够优化各种预训练模型的编译器。
　　对于标准训练框架的无缝接口来说，其需求是给定的。软件堆栈还必须包括满足对延迟敏感应用要求的调度程序和运行时引擎。由于算法开发人员不断发布新模型，软件平台应该有一个云组件，用于向已安装的系统提供模型更新。
　　EdgeCortix DNA IP和Mera软件堆栈组合满足所有这些要求。DNA-A系列非常适合具有固定要求的ASIC设计，但与FPGA相比，定制芯片推向市场的时间要长得多。通过将Mera与Xilinx Alveo和Zynq PCIe卡一起使用，客户可以立即将神经网络模型部署到边缘服务器。
　　从MobileNet到ResNet再到Yolo v3，EdgeCortix在众多标准模型上发布基准测试的初创公司中很少见。许多供应商不愿透露他们的结果，而是发布用户从未意识到的理论TOPS数字。相比之下，DNA-F200测试结果表明，在高达HD分辨率的情况下，其处理视频具有出色的延迟和吞吐量，使该设计成为实时计算机视觉的有力候选者。EdgeCortix的硬件+软件平台是一个完整的边缘AI解决方案，适用于工业、零售和智慧城市基础设施系统。

一套简单的登录鉴权工具前言无论是SpringSecruityShiro，对于一些小项目来说都太过复杂，有些情况下我们就想使用简单的登录鉴权功能，本文记录手写一套简单的登录鉴权工具思路1封装工具类，集成查在烤箱和微波炉之间现在只能买一个，你选择什么？为什么？您好，在做这个选择之前，请先问问自己是一个热爱研究美食和烹饪技巧的人，还一个忙于生活，想偷偷懒多睡会，起床洗漱时间都比较仓促的上班族。如果您是前者，建议购买一个烤箱，摸清楚自家烤箱你认为今日头条和微信相比哪个更好？为什么？今日头条比微信好很多，头条面向大众，你不公开身份，任何人不知道你是谁，你可以在里面表达一些不为人知的秘密。但微信只是朋友和亲人之间的联系，他清清楚楚不能有所隐藏。我今天写了那么多没从5299低至2999，144Hz90W，5500mAh旗舰加速退场在5G浪潮的冲击下，今年全球手机厂商都在加速布局5G市场。随着新机的不断发布，市场上充斥着的手机非常多，其中既包括中端机型高端机型，还有主打游戏体验的电竞旗舰。说到电竞旗舰，不得不谈一谈监听耳机和听歌耳机的选择结论写前面音频创作买监听耳机，听歌还是要老老实实买听歌耳机，不要觉得监听就nb，监听说白了是用途。从hifi的角度看实际上听歌耳机在声音的全局上更加高保真。具体区别如下监听耳机1。宅品优选2021年电视盒TOP10国内篇可能太多文章和视频查阅起来不方便，所以临近年底，做一个宅品优选的系列，主要谈谈我心目中外贸盒子国内品牌盒子以及海外品牌盒子的top10，喜欢抄作业的按图索骥就可以了，也希望大家关注读书有感一本书读懂经济学（经济热点）一共享经济共享经济的先驱之一Uber（优步）于2009年在美国纽约成立，它是一款全球即时用车软件。什么是共享经济？侠义上来讲，共享经济是指以获得一定报酬为主要目的，基于陌生人且存在三星GalaxyZFold34大优势，游戏体验带来惊喜备受追捧的三星GalaxyZFold3不仅在风格和设计上都具有优势，时尚的折叠屏也将手机变成了游戏设备，令人印象深刻且出色。三星GalaxyZFold3在很多方面都被评为最佳折叠屏5个手机新功能，谷歌为宠物配百万名画，小米夸人话术惊喜人工智能发展到现在已经非常成熟，在诸多技术层面都有很大突破。但是，人工智能不只是在高深的技术领域有被运中，在日常生活中人工智能也无处不在。例如谷歌和小米这样的大厂都有给人工智能设置明年3月1日起，微信支付宝收款码不能用于经营收款！会有哪些影响在日常消费生活中，微信支付宝扫码支付已是常态。注意了！这样的行为将被纳入监管。近日，2022年3月1日起个人收款码禁用于经营性服务及禁止个人静态收款条码被用于远程非面对面收款的消息请回答1994柳传志向左，任正非向右，注定联想和华为今天的结局1994年，同年出生，同样是大器晚成的柳传志和任正非，相距千里，却同时秣马厉兵，进攻当时国产设备渗透率只有3。2的电信蓝海市场。华为的目标是找机会活下来，联想的目标是一战成名。原因

<<<<<<－>>>>>>

我们为什么偏爱USBC在之前免费换快充的活动中，有小伙伴跟我反馈，说小部分消费者觉得我们动机不纯。被逗乐之余还是会疑惑消费者产生这些想法的理由，询问后得知兑换之前用的是只支持USBA口的充电器，而我们的我也说说联想事件联想事件从司马南11月初开始质疑，到现在已经持续发酵将近二个月了，先是司马南的质疑，接着张捷的证据深挖，到凤凰卫视的辩论，及自媒体的积极跟风，在网上是沸沸扬扬。联想事件的导火索是联中芯能卖给华为吗？序一个人的成功不叫成功，一群人的成功才叫成功。同样一个企业的成功不叫成功，一群企业的成功才叫成功。我们不止有华为，还有几千家芯片设计公司，几百家设备材料公司。我们既要华为，更要为华何小鹏雷军造车是我怂恿的三言财经12月27日消息，日前，小鹏汽车董事长兼CEO何小鹏在出席央视对话挑战者栏目时候表示，手机与汽车相比，汽车会更酷，因此我一直在建议雷军造车。何小鹏表示，当他真正打算去造车的12月28日，西班牙排除部分华为设备立陶宛却因遏华付出巨大代价最近几年间，中国与美国以及部分西方国家的关系逐渐恶化，世界经济格局也因此发生了较大变化。在美国发动对中国的贸易战之前，中国与西方国家的关系虽然也会受到政治事件的影响，但整体仍然是向美克拉以服务型SaaS切入美业生态圈尽管美业作为服务业存在，但因其营销效率低供应链冗长商业模式单一服务质量跟不上等原因，一直影响了美容行业的快速发展。美业SaaS为打破美业发展瓶颈应运而生，通过美业SaaS系统，首先用手机可以拍这种照片吗？该怎么拍？手机拍摄出微距效果的照片，可以采用下面两种方式。1手机的微距功能有一些手机带有微距的功能，选择这个功能直接拍摄即可。这个功能使用很方便，但是效果上不是很精致。毕竟它是结合算法来模拟大厂裁员潮30岁后，请做好5个准备文张涔汐12月24号，据新浪财经报道某度游戏是裁员的重灾区之一，游戏部分300多人几乎全部被裁。今年互联网的整个环境出现了寒冬期，从之前蘑菇街到字节，早就出现一波裁员潮了。有人吐槽我用5G网络可以干什么？有人说有4G就可以了不需要5G，甚至言下之意连4G都不需要，这个说法其实站不住脚。这么说的主要依据不过是3G4G刚出来的时候飞快，却完全不明白3G4G的在初期体验的快是以容量不达上雷军投400万赚1000倍！小鹏涌泉相报一起造车，又酷又好赚近日，在央视的一档节目中，小鹏汽车创始人何小鹏在节目中表示，小米CEO雷军想要造车是他怂恿的。何小鹏的原话是我一直都建议小米造车，因为手机跟汽车相比，汽车更酷一点，所以我是一直在建全球领先！第二家华为诞生，扛起制芯大旗本文原创，请勿抄袭和搬运，违者必究研发芯片不是一件简单的事，国内很多科技巨头都参与了芯片的研发设计，有的已经取得了重要突破，也有的还在前进。而华为已经走在了前头，旗下的海思半导体为