范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

go语言最全优化技巧总结,值得收藏

  导语 | 本文总结了在维护go基础库过程中,用到或者见到的一些性能优化技巧,现将一些理解梳理撰写成文,和大家探讨。
  一、常规手段
  (一)sync.Pool
  临时对象池应该是对可读性影响最小且优化效果显著的手段。基本上,业内以高性能著称的开源库,都会使用到。
  最典型的就是fasthttp(网址:https://github.com/valyala/fasthttp/)了,它几乎把所有的对象都用sync.Pool维护。
  但这样的复用不一定全是合理的。比如在fasthttp中,传递上下文相关信息的RequestCtx就是用sync.Pool维护的,这就导致了你不能把它传递给其他的goroutine。
  如果要在fasthttp中实现类似接受请求->异步处理的逻辑,必须得拷贝一份RequestCtx再传递。这对不熟悉fasthttp原理的使用者来讲,很容易就踩坑了。
  还有一种利用sync.Pool特性,来减少锁竞争的优化手段,也非常巧妙。另外,在优化前要善用go逃逸检查分析对象是否逃逸到堆上,防止负优化。
  (二)string2bytes & bytes2string
  这也是两个比较常规的优化手段,核心还是复用对象,减少内存分配。
  在go标准库中也有类似的用法gostringnocopy。
  要注意string2bytes后,不能对其修改。
  unsafe.Pointer经常出现在各种优化方案中,使用时要非常小心。这类操作引发的异常,通常是不能recover的。
  (三)协程池
  绝大部分应用场景,go是不需要协程池的。当然,协程池还是有一些自己的优势:
  可以限制goroutine数量,避免无限制的增长。
  减少栈扩容的次数。
  频繁创建goroutine的场景下,资源复用,节省内存。(需要一定规模。一般场景下,效果不太明显。)
  go对goroutine有一定的复用能力。所以要根据场景选择是否使用协程池,不恰当的场景不仅得不到收益,反而增加系统复杂性。
  (四)反射
  go里面的反射代码可读性本来就差,常见的优化手段进一步牺牲可读性。而且后续马上就有泛型的支持,所以若非必要,建议不要优化反射部分的代码。
  比较常见的优化手段有:缓存反射结果,减少不必要的反射次数。例如json-iterator
  (网址:https://github.com/json-iterator/go)。
  直接使用unsafe.Pointer根据各个字段偏移赋值。消除一般的struct反射内存消耗go-reflect。
  (网址:https://github.com/goccy/go-reflect)
  避免一些类型转换,如interface->byte。
  (五)减小锁消耗
  并发场景下,对临界区加锁比较常见。带来的性能隐患也必须重视。常见的优化手段有:减小锁粒度:
  go标准库当中,math.rand就有这么一处隐患。当我们直接使用rand库生成随机数时,实际上由全局的globalRand对象负责生成。globalRand加锁后生成随机数,会导致我们在高频使用随机数的场景下效率低下。atomic:
  适当场景下,用原子操作代替互斥锁也是一种经典的lock-free技巧。标准库中sync.map针对读操作的优化消除了rwlock,是一个标准的案例。对它的介绍文章也比较多,不在赘述。
  prometheus里的组件histograms直方图也是一个非常巧妙的设计。一般的开源库,比如go-metrics(网址:https://github.com/rcrowley/go-metrics)是直接在这里使用了互斥锁。指标上报作为一个高频操作,在这里加锁,对系统性能影响可想而知。
  参考sync.map里冗余map的做法,prometheus把原来histograms的计数器也分为两个:cold和hot,还有一个hotIdx用来表示哪个计数器是hot。prometheus里的组件histograms直方图也是一个非常巧妙的设计。一般的开源库,比如go-metrics(网址:https://github.com/rcrowley/go-metrics)是直接在这里使用了互斥锁。指标上报作为一个高频操作,在这里加锁,对系统性能影响可想而知。
  业务代码上报指标时,用atomic原子操作对hot计数器累加向prometheus服务上报数据时,更改hotIdx,把原来的热数据变为冷数据,作为上报的数据。然后把现在冷数据里的值,累加到热数据里,完成一次冷热数据的更新替换。
  还有一些状态等待,结构体内存布局的介绍,不再赘述。
  二、另类手段
  (一)golink
  golink(网址:https://golang.org/cmd/compile/)在官方的文档里有介绍,使用格式://go:linkname FastRand runtime.fastrandfunc FastRand uint32
  主要功能就是让编译器编译的时候,把当前符号指向到目标符号。上面的函数FastRand被指向到runtime.fastrand,runtime包生成的也是伪随机数,和math包不同的是,它的随机数生成使用的上下文是来自当前goroutine的,所以它不用加锁。正因如此,一些开源库选择直接使用runtime的随机数生成函数。性能对比如下:Benchmark_MathRand-12 84419976 13.98 ns/opBenchmark_Runtime-12 505765551 2.158 ns/op
  还有很多这样的例子,比如我们要拿时间戳的话,可以标准库中的time.Now,这个库在会有两次系统调用runtime.walltime1和runtime.nanotime,分别获取时间戳和程序运行时间。大部分场景下,我们只需要时间戳,这时候就可以直接使用runtime.walltime1。性能对比如下:Benchmark_Time-12 16323418 73.30 ns/opBenchmark_Runtime-12 29912856 38.10 ns/op
  同理,如果我们需要统计某个函数的耗时,也可以直接调用两次runtime.nanotime然后相减,不用再调用两次time.Now。//go:linkname nanotime1 runtime.nanotime1func nanotime1 int64func main { defer func( begin int64) { cost := (nanotime1 - begin)/1000/1000 fmt.Printf("cost = %dms  " ,cost) }(nanotime1) time.Sleep(time.Second)}
  运行结果:cost = 1000ms
  系统调用在go里面相对来讲是比较重的。runtime会切换到g0栈中去执行这部分代码,time.Now方法在go<=1.16中有两次连续的系统调用。
  不过,go官方团队的lan大佬已经发现并提交优化pr。
  优化后,这两次系统调将会合并在一起,减少一次g0栈的切换。
  linkname为我们提供了一种方法,可以直接调用go标准库里的未导出方法,可以读取未导出变量。使用时要注意go版本更新后,是否有兼容问题,毕竟go团队并没有保证这些未导出的方法变量后续不会变更。
  还有一些其他奇奇怪怪的用法:
  reflect2包,创建reflect.typelinks的引用,用来读取所有包中struct的定义。
  创建panic的引用后,用一些hook函数重定向panic,这样你的程序panic后会走到你的自定义逻辑里。
  runtime.main_inittask保存了程序初始化时,init函数的执行顺序,之前版本没有init过程debug功能时,可以用它来打印程序init调用链。最新版本已经有官方的调试方案:GODEBUG=inittracing=1开启init。
  runtime.asmcgocall是cgo代码的实际调用入口。有时候我们可以直接用它来调用cgo代码,避免goroutine切换,具体会在cgo优化部分展开。
  (二) log-函数名称行号的获取
  虽然很多高性能的日志库,默认都不开启记录行号。但实际业务场景中,我们还是觉得能打印最好。
  在runtime中,函数行号和函数名称的获取分为两步:
  runtime回溯goroutine栈,获取上层调用方函数的的程序计数器(pc)。
  根据pc,找到对应的funcInfo,然后返回行号名称。
  经过pprof分析。第二步性能占比最大,约60%。针对第一步,我们经过多次尝试,并没有找到有效的办法。但是第二步很明显,我们不需要每次都调用runtime函数去查找pc和函数信息的,我们可以把第一次的结果缓存起来,后面直接使用。这样,第二步约60%的消耗就可以去掉。var( m sync.Map)func Caller(skip int)(pc uintptr, file string, line int, ok bool){ rpc := [1]uintptr{} n := runtime.Callers(skip+1, rpc[:]) if n < 1 { return } var ( frame runtime.Frame ) pc = rpc[0] if item,ok:=m.Load(pc);ok{ frame = item.(runtime.Frame) }else{ tmprpc := uintptr{ pc, } frame, _ = runtime.CallersFrames(tmprpc).Next m.Store(pc,frame) } return frame.PC,frame.File,frame.Line,frame.PC!=0}
  压测数据如下,优化后稍微减轻这部分的负担,同时消除掉不必要的内存分配。BenchmarkCaller-8 2765967 431.7 ns/op 0 B/op 0 allocs/opBenchmarkRuntime-8 1000000 1085 ns/op 216 B/op 2 allocs/op
  (三)cgo
  cgo的支持让我们可以在go中调用c++和c的代码,但cgo的代码在运行期间不受go调度器的管理,为了防止cgo调用引起调度阻塞,cgo调用会切换到g0栈执行,并独占m。由于runtime设计时没有考虑m的回收,所以运行时间久了之后,会发现有cgo代码的程序,线程数都比较多。
  用go的编译器转换包含cgo的代码:go tool cgo main.go
  转换后看代码,cgo调用实际上是由runtime.cgocall发起,而runtime.cgocall调用过程主要分为以下几步:
  entersyscall: 保存上下文,标记当前mincgo独占m,跳过垃圾回收。
  osPreemptExtEnter:标记异步抢占,使异步抢占逻辑失效。
  asmcgocall:真正的cgo call入口,切换到g0执行c代码。
  恢复之前的上下文,清理标记。
  对于一些简单的c函数,我们可以直接用asmcgocall调用,避免来回切换:package main
  /*#include #include #include struct args{ int p1,p2; int r;};int add(struct args* arg) { arg->r= arg->p1 + arg->p2; return 100;}*/import "C"import ( "fmt" "unsafe")//go:linkname asmcgocall runtime.asmcgocallfunc asmcgocall(unsafe.Pointer, uintptr) int32
  func main { arg := C.struct_args{} arg.p1 = 100 arg.p2 = 200 //C.add(&arg) asmcgocall(C.add,uintptr(unsafe.Pointer(&arg))) fmt.Println(arg.r)}
  压测数据如下:BenchmarkCgo-12 16143393 73.01 ns/op 16 B/op 1 allocs/op
  BenchmarkAsmCgoCall-12 119081407 9.505 ns/op 0 B/op 0 allocs/op
  (四)epoll
  runtime对网络io,以及定时器的管理,会放到自己维护的一个epoll里,具体可以参考runtime/netpool。在一些高并发的网络io中,有以下几个问题:
  需要维护大量的协程去处理读写事件。
  对连接的状态无感知,必须要等待read或者write返回错误才能知道对端状态,其余时间只能等待。
  原生的netpool只维护一个epoll,没有充分发挥多核优势。
  基于此,有很多项目用x/unix扩展包实现了自己的基于epoll的网络库,比如潘神的gnet(网址:https://github.com/panjf2000/gnet),还有字节跳动的netpoll。
  在我们的项目中,也有尝试过使用。最终我们还是觉得基于标准库的实现已经足够。理由如下:
  用户态的goroutine优先级没有gonetpool的调度优先级高。带来的问题就是毛刺多了。近期字节跳动也开源了自己的netpool,并且通过优化扩展包内epoll的使用方式来优化这个问题,具体效果未知。
  效果不明显,我们绝大部分业务的QPS主要受限于其他的RPC调用,或者CPU计算。收发包的优化效果很难体现。
  增加了系统复杂性,虽然标准库慢一点点,但是足够稳定和简单。
  (五)包大小优化
  我们CI是用蓝盾流水线实现的,有一次业务反馈说蓝盾编译的二进制会比自己开发机编译的体积大50%左右。对比了操作系统和go版本都是一样的,tlinux2.2 golang1.15。我们在用linux命令size—A对两个文件各个section做对比时,发现了debug相关的section size明显不一致,而且section的名称也不一样:size -A test-30MBsection size addr.interp 28 4194928.note.ABI-tag 32 4194956... ... ... ....zdebug_aranges 1565 0.zdebug_pubnames 56185 0.zdebug_info 2506085 0.zdebug_abbrev 13448 0.zdebug_line 1250753 0.zdebug_frame 298110 0.zdebug_str 40806 0.zdebug_loc 1199790 0.zdebug_pubtypes 151567 0.zdebug_ranges 371590 0.debug_gdb_scripts 42 0Total 93653020
  size -A test-50MBsection size addr.interp 28 4194928.note.ABI-tag 32 4194956.note.go.buildid 100 4194988... ... ....debug_aranges 6272 0.debug_pubnames 289151 0.debug_info 8527395 0.debug_abbrev 73457 0.debug_line 4329334 0.debug_frame 1235304 0.debug_str 336499 0.debug_loc 8018952 0.debug_pubtypes 1072157 0.debug_ranges 2256576 0.debug_gdb_scripts 62 0Total 113920274
  通过查找debug和zdebug的区别了解到,zdebug是对debug段做了zip压缩,所以压缩后包体积会更小。查看go的源码(网址:https://github.com/golang/go/blob/master/src/cmd/link/internal/ld/dwarf.go#L2210),发现链接器默认已经对debug段做了zip压缩。
  看来,未压缩的debug段不是go自己干的。我们很容易就猜到,由于代码中引入了cgo,可能是c++的链接器没有压缩导致的。代码引入cgo后,go代码由go编译器编译,c代码由g++编译。后续由ld链接成可执行文件所以包含cgo的代码在跨平台编译时,需要更改对应平台的c代码编译器,链接器。具体过程可以翻阅go编译过程相关资料,不再赘述
  再次寻找原因,我们猜测可能跟tlinux2.2支持go 1.16有关,之前我们发现升级go版本之后,在开发机上无法编译。最后发现是因为go1.16优化了一部分编译指令,导致我们的ld版本太低不支持。所以我们用yum install -y binutils升级了ld的版本。果然,在翻阅了ld的文档之后,我们确认了tlinux2.2自带的ld不支持--compress-debug-sections=zlib-gnu这个指令,升级后ld才支持。
  总结:在包含cgo的代码编译时,将ld升级到2.27版本,编译后的体积可以减少约50%。
  (六)simd
  首先,go链接器支持simd指令,但go编译器不支持simd指令的生成。
  所以在go中使用simd一般来说有三种方式:
  手写汇编。
  llvm。
  cgo(如果用cgo的方式来调用,会受限于cgo的性能,达不到加速的目的)。
  目前比较流行的做法是llvm:
  用c来写simd相关的函数,然后用llvm编译成c汇编。
  用工具把c汇编转换成go的汇编格式,保存为.s文件。
  在go中调用.s里的方法,最后用go编译器编译。
  以下开源库用到了simd,可以参考:simdjson-go
  (网址:https://github.com/minio/simdjson-go)soni
  (网址:https://github.com/bytedance/sonic)sha256-simd
  (网址:https://github.com/minio/sha256-simd)
  合理的使用simd可以充分发挥cpu特性,但是存在以下弊端:
  难以维护,要么需要懂汇编的大神,要么需要引入第三方语言。
  跨平台支持不够,需要对不同平台汇编指令做适配。
  汇编代码很难调试,作为使用方来讲,完全黑盒。
  (七)jit
  go中使用jit的方式可以参考Writing a JIT compiler in Golang,
  目前只有在字节跳动刚开源的json解析库中发现了使用场景sonic。
  (网址:https://github.com/bytedance/sonic)
  这种使用方式个人感觉在go中意义不大,仅供参考。
  三、总结
  过早的优化是万恶之源,千万不要为了优化而优化:
  pprof分析,竞态分析,逃逸分析,这些基础的手段是必须要学会的。
  常规的优化技巧是比较实用的,他们往往能解决大部分的性能问题并且足够安全。
  在一些着重性能的基础库中,使用一些非常规的优化手段也是可以的,但必须要权衡利弊,不要过早放弃可读性,兼容性和稳定性。
  作者简介
  赵柯
  腾讯音乐后台开发工程师
  腾讯音乐后台开发工程师,Go Contributor。
  技术原创及架构实践文章,欢迎通过公众号菜单「联系我们」进行投稿。
  高可用架构
  改变互联网的构建方式

处理数据要有全流程合规意识近日,一科技公司利用爬虫技术窃取2。1亿条简历数据,被告人被追究刑事责任的新闻引发了社会的广泛关注。据媒体报道,该科技公司主要经营招聘工具软件和大数据分析等业务,组建有专门的爬虫技脉脉点评,难入招聘文新摘商业评论,作者葡萄职场点评,是脉脉商业化转型的蜜糖还是砒霜?近期,脉脉在2022春招季公布了新的商业路线做职场的大众点评。简单理解,就是以点评内容榜单聚合职位的方式,帮助求职QQ音乐免费听歌怎么弄?你知道吗也许以后在QQ音乐听歌再也不用花钱开会员了,前不久,QQ音乐内测了一个新功能叫免费听歌模式,简单来说就是不用开会员不用买付费包,只要看15秒广告就能免费听歌30分钟,对很多马斯克指控SEC泄露联邦调查信息来源盖世汽车谭璇据外媒报道,特斯拉首席执行官埃隆马斯克通过他的律师指控美国证券交易委员会(SEC)泄露联邦调查的信息,称这是报复他公开批评SEC的行为。2月21日,马斯克的律师Al一边裁员一边招新,2022年春招到底是不是薛定谔?图片来源视觉中国文丨数科社,作者丨柠溪互联网行业引力场逐渐失效下,还有哪些赛道值得被期待?又是一年春招季。金三银四本该是各家企业围猎应届生的最佳之际,然而从目前市场中的整体情况来看趋势观察第五代精简指令集RISC架构芯片研究进展中国网中国发展门户网讯RISCV,即第五代精简指令集,是一种基于精简指令集计算机(RISC)原理的开源指令集架构(ISA),由美国加州大学伯克利分校研究团队于2010年设计。相对于时隔多年,iPhone6S在不玩游戏的情况下,用起来还是那么流畅首先来简单了解一下,这台iPhone6S它本身就拥有一块能感知压力的3DTouch屏幕,搭载着A9处理器,前置摄像头是500万像素,后置摄像头是1200万像素。系统已刷到ios15乌克兰占全球氖气产量七成!美光CEO目前库存充足有多个供应源财联社(上海,编辑潇湘)讯,美国最大的电脑存储芯片制造商美光科技公司周二表示,眼下日益严峻的乌克兰危机正进一步凸显出半导体供应链的复杂性和脆弱性。在芯片生产过程中,有一部分看似不起美国损失一员大将,微软首位华人副总裁回国,加入清华为国育才听说沈向洋老师要在清华任职双聘教授了,一位清华计算机系学生激动地说道。真的吗?那可真是太好了同学们都高兴地欢呼起来。说到沈向洋很多不熟悉计算机的人并不是很了解他,实际上沈向洋算得上奇安信电幕行动后门已侵害全球45个国家和地区2月23日,北京奇安盘古实验室科技有限公司发布报告,披露了后门电幕行动(Bvp47)的完整技术细节和攻击组织关联。这是由超一流黑客组织方程式所制造的顶级后门,用于入侵后窥视并控制受苹果3月8日,即将召开春季发布会,3款产品出现成定局苹果官方已经宣布,自己将会在今年的3月8号举办春季发布会,很多果粉相比也非常的期待。就从之前多方面曝光出来的信息去看,iPhoneSE3以及iPadAir5将会是全场的焦点,至于这
聪明进化的石头扫地机器人T7体验前言智能扫地机器人早已走入了人们生活,成为家电中重要成员之一。它的发展也非常快速,更新换代不断地聪明进化。近日,我有幸从从ZKER搞机团得到一款由石头科技roborock最新推出的高清宽幅打印的喵喵机MAX打印机体验高清宽幅打印的喵喵机MAX打印机体验前言在我们日常学习工作和娱乐中,很多时候离不开打印机。不过,传统的打印机体积较大,不可能随身携带,不能随心打印。而市面上出现热敏打印机虽然体积小即拖即净的Shark鲨客蒸汽除菌拖把P3即拖即净的Shark鲨客蒸汽除菌拖把P3前言拖地是每个家庭的家务活之一,使用传统的拖地工具拖地清洁,不但辛苦累,而且清洁也不干净,往往拖地后会余留水渍等。即使再用干拖把把余留水渍拖干燥污染一并解决的airxA9H加湿净化一体机干燥污染一并解决的airxA9H加湿净化一体机前言随着人们对居住环境的空气质量的关注度越来越高,能快速高效净化室内空气,改善家居空气质量的空气净化器也受到众多的人们关注和热捧。近日存储制胜之道的ORICO潮酷双协议硬盘盒套装体验存储制胜之道的ORICO潮酷双协议硬盘盒套装体验前言随着硬盘盒和不同容量的硬盘出现,当人们在需要随身携带电子数据,或者需要把数据从一个数码设备移到另一个数码设备时,除了可以选择u盘红白机小游戏网页在线畅玩(网站篇)这个网站叫做中文家用游戏博物馆,提到博物馆可能就非常的古老,网站里面有很多红白游戏世嘉机游戏等等点开之后就可以在线玩耍,非常的可以,不管怎样,把这份美好记忆留住,就是最大的美好,喜年轻人第一款蓝牙耳机,漫步者FunBuds耳机,给我诸多惊喜年轻人的第一款蓝牙耳机,漫步者FunBuds耳机,给我诸多惊喜现在越来越多的手机取消了3。5毫米耳机插口,平时喜欢用手机听音乐,玩游戏的用户肯定非常不习惯,虽然厂商提供了耳机转化线极乐音乐app下载(软件篇)我们要学会理解,宽以待人,别人也会友善的对待你。凡事斤斤计较,贪便捡巧,别人会把你看的低贱矮小。其实人们只要能学会换位思考,理解每一个都有他的难处,都有他的不易,这样抱怨的就会越来Foobar2000(无损音乐播放器下载)(软件篇)花开雪落终有时,人生起伏平常事。有些话,劝得了别人,却劝不了自己有些事,只是不再提及,却永久封存在了心底。(美文美句)大家好,今天我给小伙伴推荐一款简约无广告的音乐播放器,foobMSDN我告诉你,下载镜像的网站作为一个极客,安装系统通常都是必备技能。但想找到官方原版的镜像文件,并不容易。最近发现了一个下载镜像的网站,可以使用直链下载微软官方的全部镜像。MSDN,我告诉你镜像站的趋势,对喜任务栏改色StartIsBack绿化中文版(软件篇)软件简介StartIsBack中文版下载(win10开始菜单)是一款非常不错的开始菜单设置工具。它能够支持用户的修改设计,更改开始菜单及开始按钮的外观以及样式和风格,更加可以自定义