专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

寒武纪官方详解云端AI芯片思元370采用新一代智能处理器架构MLUarch03

  IT之家 11 月 3 日消息,今天,寒武纪发布第三代云端 AI 芯片思元 370、基于思元 370 的两款加速卡 MLU370-S4 和 MLU370-X4、全新升级的 Cambricon Neuware 软件栈。
  ▲ 寒武纪第三代云端 AI 芯片思元 370
  IT之家获悉,基于 7nm 制程工艺,思元 370 是寒武纪首款采用 chiplet(芯粒)技术的 AI 芯片,集成了 390 亿个晶体管,最大算力高达 256TOPS (INT8),是寒武纪第二代产品思元 270 算力的 2 倍。
  凭借寒武纪最新智能芯片架构 MLUarch03,相较于峰值算力的提升,思元 370 实测性能表现更为优秀:以 ResNet-50 为例,MLU370-S4 加速卡(半高半长)实测性能为同尺寸主流 GPU 的 2 倍;MLU370-X4 加速卡(全高全长)实测性能与同尺寸主流 GPU 相当,能效则大幅领先。
  ▲ 寒武纪 MLU370-S4(左)与 MLU370-X4 加速卡
  思元 370 也是国内第一颗支持 LPDDR5 内存的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。
  同时,寒武纪全新升级了 Cambricon Neuware 软件栈,新增推理加速引擎 MagicMind,实现训推一体,显著提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。
  寒武纪发布了新一代智能处理器架构 MLUarch03,拥有新一代张量运算单元,内置 Supercharger 模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代 MLUarch02 的 2 倍、片上共享缓存容量最高是 MLUarch02 的 2.75 倍;推出全新 MLUv03 指令集,更完备,更高效且向前兼容。
  ▲ Supercharger 和多算子硬件融合技术
  有 7nm 先进工艺和全新 MLUarch03 架构的加持,思元 370 芯片算力最高可达 256TOPS (INT8),是上一代产品思元 270 算力的 2 倍。相较于峰值算力的提升,思元 370 在实测性能和能效方面的表现更为优秀:以 ResNet-50 为例,MLU370-S4 加速卡(半高半长)实测性能为同尺寸主流 GPU 的 2 倍;MLU370-X4 加速卡(全高全长)实测性能与同尺寸主流 GPU 相当,能效则大幅领先。
  ▲ 7nm 先进工艺和全新 MLUarch03 架构加持,
  思元 370 实测性能和实测能效超市场主流 GPU 产品
  * 测试环境:
  MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
  MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
  GPU 数据:ResNet-50 来自于相关产品官网,Transformer、VGG16、YOLOv3 均取自实测最大吞吐性能。
  思元 370 全面加强了 FP16、BF16 以及 FP32 的浮点算力,同时支持推理和训练任务。此外,思元 370 还是国内第一颗支持 LPDDR5 的云端 AI 芯片,内存带宽是上一代产品的 3 倍,访存能效达 GDDR6 的 1.5 倍。
  ▲ 寒武纪智能芯片架构演进
  思元 370 采用 chiplet(芯粒)技术,在一颗芯片中封装 2 颗 AI 计算芯粒(MLU-Die),每一个 MLU-Die 具备独立的 AI 计算单元、内存、IO 以及 MLU-Fabric 控制和接口,通过 MLU-Fabric 保证两个 MLU-Die 间的高速通讯,可以通过不同 MLU-Die 组合规格多样化的产品,为用户提供适用不同场景的高性价比 AI 芯片。
  ▲ 思元 370 采用 chiplet 技术,可实现不同算力、内存和编解码器的组合
  MLU-Fabric 是实现芯粒技术的关键所在。它为两个 MLU-Die 提供低功耗、低延时和超高带宽的互联,支持芯片上实现统一的内存获取和地址映射,创建虚拟通路避免进程死锁,支持数据校验错误发生时进行数据重传,保证数据准确性。
  得益于芯粒技术,思元 370 可通过不同的组合为客户提供更多样化的产品选择,此次寒武纪发布了两款加速卡,未来还将推出更多基于思元 370 的产品。
  MagicMind 是寒武纪全新打造的推理加速引擎,也是业界首个基于 MLIR 图编译技术达到商业化部署能力的推理引擎。MagicMind 支持跨框架的模型解析、自动后端代码生成及优化。在 MLU、GPU、CPU 训练好的算法模型上,借助 MagicMind,用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性能。
  MagicMind 的优势不仅在于可以提供极致的性能、可靠的精度以及简洁的编程接口,让用户能够专注于业务本身,无需理解芯片更多底层细节就可实现模型的快速高效部署,MagicMind 插件化的设计还可以满足在性能或功能上追求差异化竞争力的客户需求。
  ▲ 推理加速引擎 MagicMind 是寒武纪软件栈 Cambricon Neuware 全新升级的重要组成部分
  为了加快用户端到端业务落地的速度,减少模型训练研发到模型部署之间的繁琐流程,寒武纪的统一基础软件平台 Cambricon Neuware 整合了训练和推理的全部底层软件栈,包括底层驱动、运行时库、算子库以及工具链等,将 MagicMind 和深度学习框架 Tensorflow,Pytorch 深度融合,实现训推一体。依托于训推一体,在寒武纪全系列计算平台上,从云端到边缘端,用户均可以无缝地完成从模型训练到推理部署的全部流程,进行灵活的训练推理业务混布和潮汐式的业务切换,可快速响应业务变化,提升算力利用率,降低运营成本。
  在通用性方面,Cambricon Neuware 支持 FP32、FP16 混合精度、BF16 和自适应精度训练等多种训练方式并提供灵活高效的训练工具,高性能算子库已完整覆盖视觉、语音、自然语言处理和搜索推荐等典型深度学习应用,可满足用户对于算子覆盖率以及模型精度的需求。
  全新推理加速引擎 MagicMind 和训推一体特性,将为用户带来更为便捷、高效的开发体验,大幅降低学习成本、开发成本和运营成本。
  思元 370 升级了视频图像编解码单元,可提供更高效的视频处理能力和更优的编码质量,支持更复杂、更繁重、低延时要求的计算机视觉任务。
  解码方面,思元 370 集成了强大的媒体性能,可支持 132 路 1080p 视频解码或 10 路 8K 视频解码。编码方面,全新编码器通过灵活的码率优化(RDO)控制、多参考帧、二次编码等特性组合,在相同图像质量(全高清视频 PSNR)的情况下比上一代产品节省 42% 带宽,有效降低带宽成本。
  ▲ 思元 370 视频编码质量显著提升
  * 测试环境:
  MLU270-S4:SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz
  MLU370-S4:NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz
  视频内容:BQTerrace_1920x1080_60.yuv
  寒武纪高在思元 370 芯片内置安全模块,切实保障用户信息安全。思元 370 是寒武纪第一颗支持国内外主流加密标准的云端芯片,支持用户数据、深度学习模型的加解密以及计算结果的加密输出,通过信任根的方式,保障 AI 芯片在启动及运行过程中加载的所有代码的安全性,还支持远程认证,用户可在业务运行过程中远程验证 AI 环境安全性。通过多方面的安全特性,思元 370 系列产品将更好地确保用户 AI 业务安全。
  ▲ 安全启动验证过程
  此次发布中,两款基于思元 370 的加速卡正式亮相:高密度、半高半长、功耗 75W 的 MLU370-S4 智能加速卡和高性能、全高全长、功耗 150W 的 MLU370-X4 智能加速卡。与上一代产品相比,370 系列加速卡在性能、能效方面都有更为卓越的表现。例如,对标准 ResNet-50v1 进行软件定制优化后,MLU370-X4 加速卡性能高达 30204fps。
  ▲ 寒武纪 MLU370-S4 加速卡
  在 Cambricon Neuware SDK 上实测,在常用的 4 个深度学习网络模型上,MLU370-S4 加速卡的性能平均接近市场主流 70W GPU 的 2 倍。而在能效方面,MLU370-S4 优势更为明显,处理相同 AI 任务相较于 70W GPU 用电量减少 50% 以上,将有力地帮助用户实现"双碳"目标。
  ▲ 相比主流同尺寸 GPU 产品,
  MLU370-S4 加速卡性能优势明显
  * 测试环境:
  MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
  GPU 数据来自于相关产品官网。
  MLU370-S4 加速卡在解码方面具有强劲竞争力,相较于同尺寸 GPU,可提供 3 倍的解码能力和 1.5 倍的编码能力。总体而言,MLU370-S4 加速卡的能效出色,体积小巧,可在服务器中实现高密度部署。
  ▲ 寒武纪 MLU370-X4 加速卡
  MLU370-X4 加速卡的优势则表现为高性能,算力可达 256TOPS (INT8),加强了 FP16、FP32 的计算性能,新增 BF16 计算类型。
  在 Cambricon Neuware SDK 上实测,常用的 4 个深度学习网络模型中,MLU370-X4 加速卡与市场主流 150W GPU 相比,性能表现 2 项持平 2 项更优,实测能效则为 GPU 的 2 倍。比如 YOLOv3 网络中,MLU370-X4 的性能是 150W GPU 性能的 1.5 倍,能效为 GPU 的 2.5 倍。
  ▲ 相比主流 GPU 产品,MLU370-X4 性能领先
  * 测试环境:
  MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
  GPU 数据:ResNet-50 来自于相关产品官网,Transformer、VGG16、YOLOv3 均取自实测最大吞吐性能。
  ▲ MLU370-S4、MLU370-X4 加速卡规格

360全千兆路由V5S正式开卖129元造型别致9月17日,360推出路由器新品,隶属于安盾系列,名为360家庭防火墙路由器V5S,主打立式设计防入侵双频全千兆等。今天,这款路由器正式开卖,零售价149元,首发价129元。360富士揭开XPro3神秘面纱隐藏式LCD屏混合电子取景器在刚刚结束的东京XSummit体验峰会上,富士揭开了复古新机XPro3的神秘面纱。乍一看,你会以为该机仅配备了很小的一块后置LCD屏。但实际上,打开后还有一块更大的LCD屏。除了独8BitDo推出六键版M302。4GGenesisMini无线手柄游戏配件公司8BitDo刚刚推出了又一款第三方游戏手柄,能够为视频主机消费者弥补官方版手柄未能提供某些功能的遗憾。这一次,该公司将目光瞄向了世嘉新推出的现代复刻版GenesisMi11种华为Band4Pro表盘设计专利曝光今天晚上即将在德国慕尼黑召开的新品发布会上,除了重磅登场的Mate30系列之外还有华为WatchGT2智能手表和华为Band4运动腕表等诸多产品。根据近期获批的外观技术专利,荷兰科华为Mate30发布时间今晚举行,华为WatchGT2将一同亮相PConline资讯据消息称,华为即将在柏林举行新品发布会,此次发布会除了会发布万众瞩目的华为Mate30系列的新机以外,还会发布一款全新的华为WatchGT2。在发布之前,关于这Rollogo推出EscapeS自发电行李箱且支持蓝牙智能功能尽管市面上已经有不少自带移动电源和电动轮的智能行李箱,但很少有厂家推出可自发电的型号。好消息是,Rollogo新推出的EscapeS,就是这样一款实用的产品。据悉,EscapeS行全新iPadPro样机曝光后置浴霸三摄9月10日的苹果新品发布会上,10。2寸新iPad登场。不同于iPhone11系列,传说中的浴霸摄像头并未在平板上出现。不过,号称对应2019款iPadPro的机模在网上曝光,且机Blue推USB麦克风YetiX主打vlog游戏和播客应用罗技旗下Blue公司,刚刚推出了一款面向业余爱好者的专业级USB麦克风新品,它就是主打音乐创作vlog游戏和播客等应用的YetiX。该公司称,YetiX经过了定制调教,可为装业绩游谷歌发NestWifi两个子路由可当Assistant智能音箱GoogleWifi是一款已经上市三年的mesh无线路由器,不过下月15日召开的硬件发布会上谷歌可能会带来全新的继任者。援引外媒9to5Google报道,谷歌内部正在准备ldquo新款LARQ便携式除菌水壶上线售价118美元LARQ是一款便携式ldquo自洁水瓶兼水净化系统rdquo,宣称能够凭借内置的UVCLED灯消除高达99。9999的生物污染物。用户只需按下瓶盖上的按钮,即可在60秒内消除有害和FlirteyEagle有望推动无人机交付的广泛使用虽然许多公司已经加入了无人机交付的行列,但澳大利亚的Flirtey是最早的公司之一,并且仍然是最有可能实际开发大型住宅无人机交付服务的公司之一。为此,该公司现已推出其新款Flirt
OPPO追踪器曝光基于UWB,支持TypeC充电感谢IT之家网友肖战割割的线索投递!IT之家4月22日消息苹果刚刚发布了AirTag追踪器,这是一种类似Tile的蓝牙追踪设备,旨在附在钥匙和钱包等物品上进行追踪,你可以在查找我的229元,诺基亚Nokia新150正式上市VGA相机,内置贪吃蛇IT之家6月5日消息今日上午,除Nokia125外,诺基亚还正式上市了Nokia新150移动联通2G手机,售价229元,将于6月9日正式开售。与Nokia125一致,Nokia新1诺基亚Nokia125正式上市可拆卸电池2G手机,189元IT之家6月5日消息今日上午,诺基亚宣布,Nokia125功能机正式上市,预售价189元。Nokia125机身尺寸为13250。515mm,重91。4克,采用2。4英寸TFT屏幕,外媒5G光学滤波器供应紧张,因需求大幅增加6月9日消息,据国外媒体报道,在去年4月份韩国率先开始推出5G商用服务之后,越来越多的国家加入了5G商用的行列,5G商用网络的覆盖范围也越来越大。而在越来越多的国家加入5G商用行列OPPO虚拟SIM卡专利获授权,无需卡托或卡座即可实现SIM卡功能IT之家9月1日消息昨日,OPPO广东移动通信有限公司虚拟SIM卡的实现方法装置系统及移动终端专利获授权,公开号为CN109921814B。IT之家了解到,该发明属于通信技术领域。爆料AMDRX6500有望明年第一季度发布,基于Navi24RDNA2架构IT之家10月22日消息,外媒Wccftech今日报道,根据YouTube用户MooresLawisDead的最新信息,AMD有望在2022年第一季度为其RadeonRX6000系微星推出宙斯盾Z5准系统主机5600XRX6600XT,水冷散热IT之家8月26日消息AMD联合微星今日推出了全新的宙斯盾Z5电脑主机,同时提供无显卡无内存硬盘的准系统机型开售。宙斯盾Z5主机全系标配锐龙R55600X6核处理器,B550M主板外星人2021款x15x17游戏本开售四风扇散热H45处理器,16999起IT之家7月24日消息近日外星人ALIENWARE正式发布了2021款x15x17游戏本。该系列产品采用类似银黑配色外观设计,搭载英特尔酷睿H45处理器英伟达RTX30系显卡,可以英特尔NUC11野兽峡谷主机海外开售11代定制CPU,8240元起IT之家7月22日消息英特尔于5月31日正式发布了NUC11Extreme野兽峡谷主机,首次支持全长显卡,机箱容量达到了8升。该主机搭载英特第11代酷睿H45标压处理器,内置两个内消息称苹果M1XMacBookPro将搭载刘海屏类似iPhone12Pro版,支持FaceID和TouchID感谢IT之家网友普莱是袋熊的线索投递!IT之家10月16日消息,苹果已经宣布将在10月19日凌晨1点举行新品发布会活动,活动主题是Unleashed(来炸场),预计将发布M1XMa苹果M1XMacBookPro1416新品更多爆料100搭载miniLED屏幕,还将支持120Hz高刷新率IT之家10月14日消息,苹果已经宣布将在10月19日凌晨1点举行新品发布会活动,活动主题是Unleashed(来炸场),预计将发布M1XMacBookPro新品AirPods3等
友情链接:快好知快生活快百科快传网中准网文好找聚热点快软件