范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

深度学习编译器(halide)是怎么优化的?

  最近关注了深度学习编译器领域,梳理了一些知识
  其中 halide (论文是2013年)算是比较早的编译器,tvm 的设计灵感也是参考了 halide 的
  halide 是怎么优化的?
  主要有三个点:  并发(parallelism) 、重复工作(Redundant work) 、局部性(Locality)
  并发(parallelism):
  可以拆分成多个向量,并行计算
  重复工作(Redundant work)
  *  Loading a value  from memory somtimes slower than re-computing it .
  如上图: 每次计算的窗长为4,到最后剩下 2 个「正方形」, 方法1 是使用单个向量指令计算,最后会有2个「正方形」重复计算;方法2 是将剩下2个「正方形」切换到不同的代码路径执行,需要重新 Loading value,一般方法2会比较慢
  局部性(Locality)
  * If you just wrote a value to memory, you should try to use it quickly,  while it"s still in cache .
  CPU 缓存是有限的,也是相对比较小的。如果某个值在 CPU 缓存,尽量将这个值有关的计算都计算好,提高 CPU 缓存的命中率
  如上图,虽然step2 依赖于 step1 的值(通过3黄色的得到1个棕色的),但是不用等到 step1 都计算完之后,再计算 step2;类似上图,可以在 step1 计算一部分之后,再计算 step2,再回到 step1 这样交替计算,可以提高内存的命中率
  编译器优化的例子
  循环重排(loop recorder) alloc arr[256][1024] for each y in 0..1024:   for each i in 0..256:     do(arr[i][y])
  编译器会调整顺序, 因为按照「行」读取,内存地址是连续的,可以提高 CPU 缓存的命中率: alloc arr[1024][1024] // 上下循环交换 for each i in 0..256:   for each y in 0..1024:     do(arr[i][y])
  向量化(vectorize)和 平铺(tiling) alloc arr[1024][1024] for each i in 0..1024 / 4:   for each y in 0..1024 / 4:     for each subi in 0..4:       for each suby in 0..4:         arr[i * 4 + subi][y * 4 + suby]         arr[i * 4 + subi + 1][y * 4 + suby]         arr[i * 4 + subi][y * 4 + suby + 1]         arr[i * 4 + subi + 1][y * 4 + suby + 1]
  很多「算子」操作都是基于卷积的,所以根据上文的局部性(Locality),可以使用这种向量化的方式提高 CPU 缓存的命中率
  这个「窗长」也不一定为4,不同卡的策略是不同的。tvm 通过 autoschedule 找到较优的策略。
  当然,现实的优化还是很复杂的,tvm 是先编译成 RelayIR,然后编译成 TE 子图,对这些子图重排优化,autoschedule 找到较优的子图路径和参数(窗长等),再做推理的
  体验
  我用 tvm 跑 Resnet(小模型 26M) 模型简单地测试下,比用 onxx cuda 跑快 1000+ 倍(相同环境,只统计推理时间,编译时间不算),前者是 0.00249s, 后者是 3.488s,这比我预期的还要快很多,还是在没有做 tune 的结果
  参考
  https://halide-lang.org/
  http://people.csail.mit.edu/jrk/halide-pldi13.pdf
  https://zhuanlan.zhihu.com/p/358837301

到饭店吃饭,你有没有必点的菜?有的话是什么菜?什么菜是到饭店必点的?其实到饭店吃饭,并不存在必点的菜。我国地大物博,人口众多,造成了饮食习惯差异之大,令人侧目。当北方人来到南方,会发现豆腐脑居然是加糖水,粽子里面有咸肉,会觉得买助听器一定要检查听力吗?你好!是的,目前助听器都是需要专业验配,首先要了解自己的听损情况,试听助听器是否达到自己想要的效果,这些都跟助听器档次相关,建议一定要专业验配哦。正常听力的人可以听到从202000苹果AppleCare体验不错,小米11是否可以媲美呢?买了AppleCare的话真的就是随便用了。两年内加点钱就可以换全新。说个实例,我18年初买了台17款iPadpro,因为屏幕漏光一年换一台,连续换了3年,使用一定时间就漏光,然后iOS16。3准正式版今日更新今日凌晨,苹果正式向广大苹果开发者用户推送了iOS16。3的准正式版RC版本。已经升级到iOS16的用户可以通过安装描述文件获取更新。根据苹果以往的系统更新经验,16。3正式版本将两年前的旗舰被遗忘,小米11ultra升级MIUI14,性价比更高不知道从什么时候开始大家买手机不再是买新不买旧,反倒是越旧越香,很多人都开始做起了等等党,喜欢买以前的旧旗舰。其实不难猜测为什么,现在的手机更新换代速度越来越快,手机的升级也慢慢变计算机嵌入式软件开发流程是什么?嵌入式系统组成如图所示,其利用微处理器通过各项操作能够提高计算机软件系统速率,进而设计出高质量并可靠的软件系统。为确保嵌入式软件系统功能的实现,在设计过程中需要采用规模化设计方案,谁说三星E4屏不行?小米11Ultra升级后,居然又变香了最近一段时间,三星E4屏被推上了风口浪尖。即便是2K,即便是LTPO3。0,即便是显示效果不差,依旧被很多人吐槽,这块屏幕不行。同样是三星E4屏,上市快2年的小米11Ultra却成小米11售后问题得到解决,米粉还会考虑小米吗?烧主板烧WiFi,这些问题频发之后,让小米11系列在用户口碑心中下降了不少,一直到现在还是有不少网友吐槽。但是,真正体验过小米11问题售后的用户,到底心里是什么心态的呢?我来分享一多彩中国佳节好物文化和旅游贸易促进活动举行意向合作金额达8千万元多彩中国佳节好物文化和旅游贸易促进活动在京举行。主办方供图封面新闻记者粟裕1月19日,封面新闻记者从文化和旅游部获悉,由文化和旅游部产业发展司指导并组织实施的多彩中国佳节好物文化和新门将佐默首秀,拜仁战平莱比锡文羊城晚报全媒体记者徐扬扬在经历长达68天的冬歇期之后,德甲战火重燃。在1月21日打响的第16轮首战中,拜仁慕尼黑做客以1比1战平莱比锡。此战果未改变双方的排名,拜仁积35分,莱比女排天才少女难成材,到底毁在谁的手上?小朱婷小加比小林莉不论是世少赛世青赛亚少赛世青赛后,还是国内全运会女排联赛后,总有一批女排天才少女在惊呼声中走进大家的视野,现在就有吴梦洁王逸凡庄宇珊细数以前的天才少女,我们却异常
梦游红崖台地久闻红崖台,草原一奇观。常思不得见,遥远在边关。今逢客相邀,共游大草原。高客宴豪饮,醉卧牧民间。冬夜漫又长,梦游红崖台。红崖奇变幻,红色是亮点。远观座座山,如同火苗燃。近看条条岭,携汝逛潮州(1)有文友欲来潮州游,作为全国文化旅游古城,是有值得一游之处,但是如果不了解潮州,你会留下许多遗憾。正如民谣传唱到广不到潮,枉费走一遭到潮不到桥,白白走一场。到潮州不到广济桥,无疑是一还记得2019年之前吗?秋日生活打卡季我在头条搞创作第二期如果明天疫情结束,你最想去哪里?疫情发生这三年,经历了太多太多的事情,每次出差都在上演新速度与激情,新,人在囧途,用核酸阴性充电续航太多太多的无奈栃木县日光的红叶红了今天一早640乘坐常磐线在南栗桥转车,803继续乘坐东武日光线于918到达东武日光站。随后买了二天内任意自由乘车的票,945乘坐汤元温泉方向的巴士,于1115到达汤元温泉附近的汤龙周末轻松小游,穿梭于龙门县的山水之中龙门县,广东省惠州市北部的一个山区县。说起龙门,人们都会想到南昆山,泡温泉等。但实际上龙门的山水也不止于南昆山。周末时分,沿着计划的路线来上一次穿梭,不需要出名的旅游景点,只需要与武汉的江湖真是大,16个区有一半区名都被江湖占有(上图从武汉市的武昌区长江畔花地拍摄了长江对岸汉口方向的长江岸边江岸区与江汉区)武汉是个非常有气质有魅力的江湖城市,应该也是国内最江湖的城市。武汉竟然有165条江与河,166个湖泊晴空万里,爽风拂面,带孩子秋游的时候到啦!AUTUMN这几日的日照,晴空万里,爽风拂面。随着树叶慢慢飘落,小朋友就知道秋游的时候到啦!赶紧背上满满一包零食,在户外走一走,去儿童乐园玩一玩,到海洋馆看一看万平口儿童运动乐园作天山天池国际滑雪场加速提升改造石榴云新疆日报讯(记者任江报道)清晨8时,群峰环抱的天山天池国际滑雪场提升改造项目工地上就热闹起来,隆隆机器轰鸣声打破了山间宁静。我们正在抓紧时间赶工期,力争滑雪场早日完工,接待各盘点双十一OPPO最好的三款手机,高性能长续航,用三年无压力对于现在的手机,如果想要日常用得省心且能够用得久,性能和续航是两大决定性因素,强悍的性能配合系统的优化,能够让日常使用体验更流畅,还能实现三四年不卡顿,持久的续航则能有效减少日常电7G智盒智慧共享杆能带来哪些社会经济效益目前7G智盒已经在深圳华强北深圳坪山海南临高北京亦庄新疆等地取得应用。随着万物智联的时代来临,7G智慧共享杆所带来的成功合作模式及经济社会效益将吸引更多政府单位设计院行业精英企业的走得快活得久,研究发现走路快的人能多活1520岁大家应该都听过饭后走一走,活到九十九这句俗话。但是应该还没听说过,走路走得快的人,也能活得比较久吧?这走路快慢真的可以影响人类的寿命吗?2021年的一项研究证明,这居然不是在胡说八