范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

一次JVMGC长暂停的排查过程

  作者:京东科技 徐传乐背景
  在高并发下,Java程序的GC问题属于很典型的一类问题,带来的影响往往会被进一步放大。不管是「GC频率过快」还是「GC耗时太长」,由于GC期间都存在Stop The World问题,因此很容易导致服务超时,引发性能问题。
  事情最初是线上某应用垃圾收集出现Full GC异常的现象,应用中个别实例Full GC时间特别长,持续时间约为 15~30秒, 平均每2周左右触发一次;
  JVM参数配置"-Xms2048M –Xmx2048M –Xmn1024M –XX:MaxPermSize=512M"
  排查过程
  Ø  分析GC 日志
  GC 日志它记录了每一次的 GC 的执行时间和执行结果,通过分析 GC 日志可以调优堆设置和 GC 设置,或者改进应用程序的对象分配模式。
  这里Full GC的reason是Ergonomics,是因为开启了UseAdaptiveSizePolicy,jvm自己进行自适应调整引发的Full GC。
  这份日志主要体现GC前后的变化,目前为止看不出个所以然来。
  开启GC日志,需要添加如下 JVM 启动参数:
  -XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:/export/log/risk_pillar/gc.log
  常见的 Young GC、Full GC 日志含义如下:
  Ø  进一步查看服务器性能指标
  获取到了GC耗时的时间后,通过监控平台获取到各个监控项,开始排查这个时点有异常的指标,最终分析发现,在5.06分左右(GC的时点),CPU占用显著提升,而SWAP出现了释放资源、memory资源增长出现拐点的情况(详见下图红色框,橙色框中的变化是因修改配置导致,后面会介绍,暂且可忽略)
  JVM用到了 swap ?是因为GC导致的CPU突然飙升,并且释放了swap交换区这部分内存到memory?
  为了验证JVM是否用到swap,我们通过检查proc下的进程内存资源占用情况
  for i in $( cd /proc;ls |grep "^[0-9]"|awk " $0 >100") ;do awk "/Swap:/{a=a+$2}END{print ""$i"",a/1024"M"}" /proc/$i/smaps 2>/dev/null ; done | sort -k2nr | head -10 # head -10 表示 取出 前10个内存占用高的进程 # 取出的第一列为进程的id 第二列进程占用swap大小
  看到确实有用到305MB的swap
  这里简单介绍下什么是 swap ?
  swap指的是一个交换分区或文件,主要是在内存使用存在压力时,触发内存回收,这时可能会将部分内存的数据交换到swap空间,以便让系统不会因为内存不够用而导致oom或者更致命的情况出现。
  当某进程向OS请求内存发现不足时,OS会把内存中暂时不用的数据交换出去,放在swap分区中,这个过程称为swap out。
  当某进程又需要这些数据且OS发现还有空闲物理内存时,又会把swap分区中的数据交换回物理内存中,这个过程称为swap in。
  为了验证GC耗时与swap操作有必然关系,我抽查了十几台机器,重点关注耗时长的GC日志,通过时间点确认到GC耗时的时间点与swap操作的时间点确实是一致的。
  进一步查看虚拟机各实例 swappiness 参数,一个普遍现象是,凡是发生较长Full GC的实例都配置了参数 vm.swappiness = 30(值越大表示越倾向于使用swap);而GC时间相对正常的实例配置参数 vm.swappiness = 0(最大限度地降低使用swap)。
  swappiness 可以设置为 0 到 100 之间的值,它是Linux的一个内核参数,控制系统在进 行swap时,内存使用的相对权重。
  Ø swappiness=0: 表示最大限度使用物理内存,然后才是 swap空间
  Ø swappiness=100: 表示积极的使用swap分区,并且把内存上的数据及时的交换到swap空间里面
  对应的物理内存使用率和swap使用情况如下
  至此,矛头似乎都指向了swap。
  Ø  问题分析
  当内存使用率达到水位线(vm.swappiness)时,linux会把一部分暂时不使用的内存数据放到磁盘swap去,以便腾出更多可用内存空间;
  当需要使用位于swap区的数据时,再将其换回内存中,当JVM进行GC时,需要对相应堆分区的已用内存进行遍历;
  假如GC的时候,有堆的一部分内容被交换到swap空间中,遍历到这部分的时候就需要将其交换回内存,由于需要访问磁盘,所以相比物理内存,它的速度肯定慢的令人发指,GC停顿的时间一定会非常非常恐怖;
  进而导致Linux对swap分区的回收滞后(内存到磁盘换入换出操作十分占用CPU与系统IO),在高并发/QPS服务中,这种滞后带来的结果是致命的(STW)。
  Ø  问题解决
  至此,答案似乎很清晰,我们只需尝试把swap关闭或释放掉,看看能否解决问题?
  如何释放swap?
  1. 设置vm.swappiness=0(重启应用释放swap后生效),表示尽可能不使用交换内存
  a、 临时设置方案,重启后不生效
  # 设置vm.swappiness为0
  sysctl vm.swappiness=0
  # 查看swappiness值
  cat /proc/sys/vm/swappiness
  b、 永久设置方案,重启后仍然生效
  vi /etc/sysctl.conf
  # 添加
  vm.swappiness=0
  2. 关闭交换分区swapoff –a
  前提:首先要保证内存剩余要大于等于swap使用量,否则会报Cannot allocate memory!swap分区一旦释放,所有存放在swap分区的文件都会转存到物理内存上,可能会引发系统IO或者其他问题。
  a、 查看当前swap分区挂载在哪?
  b、 关停分区
  关闭swap交换区后的内存变化见下图橙色框,此时swap分区的文件都转存到了物理内存上
  关闭Swap交换区后,于2.23再次发生Full GC,耗时190ms,问题得到解决。
  Ø  疑惑
  1、 是不是只要开启了swap交换区的JVM,在GC的时候都会耗时较长呢?
  2、 既然JVM对swap如此不待见,为何JVM不明令禁止使用呢?
  3、 swap工作机制是怎样的?这台物理内存为8g的server,使用了交换区内存(swap),说明物理内存不够使用了,但是通过free命令查看内存使用情况,实际物理内存似乎并没有占用那么多,反而Swap已占近1G?
  free:除了buff/cache剩余了多少内存
  shared:共享内存
  buff/cache:缓冲、缓存区内存数(使用过高通常是程序频繁存取文件)
  available:真实剩余的可用内存数
  大家可以想想,关闭交换磁盘缓存意味着什么?
  其实大可不必如此激进,要知道这个世界永远不是非0即1的,大家都会或多或少选择走在中间,不过有些偏向0,有些偏向1而已。
  很显然,在swap这个问题上,JVM可以选择偏向尽量少用,从而降低swap影响,要降低swap影响有必要弄清楚Linux内存回收是怎么工作的,这样才能不遗漏任何可能的疑点。
  先来看看swap是如何触发的?
  Linux会在两种场景下触发内存回收,一种是在内存分配时发现没有足够空闲内存时会立刻触发内存回收;另一种是开启了一个守护进程(kswapd进程)周期性对系统内存进行检查,在可用内存降低到特定阈值之后主动触发内存回收。
  通过如下图示可以很容易理解,详细信息参见:http://hbasefly.com/2017/05/24/hbase-linux/
  解答是不是只要开启了swap交换区的JVM,在GC的时候都会耗时较长
  笔者去查了一下另外的一个应用,相关指标信息请见下图。
  实名服务的QPS是非常高的,同样能看到应用了swap,GC平均耗时 576ms,这是为什么呢?
  通过把时间范围聚焦到发生GC的某一时间段,从监控指标图可以看到swapUsed没有任何变化,也就是说没有swap活动,进而没有影响到垃级回收的总耗时。
  通过如下命令列举出各进程swap空间占用情况,很清楚的看到实名这个服务swap空间占用的较少(仅54.2MB)
  另一个显著的现象是实名服务Full GC间隔较短(几个小时一次),而我的服务平均间隔2周一次Full GC
  基于以上推测
  1、 实名服务由于 GC 间隔较短,内存中的东西根本没有机会置换到swap中就被回收了,GC的时候不需要将swap分区中的数据交换回物理内存中,完全基于内存计算,所以要快很多
  2、 将哪些内存数据置换进swap交换区的筛选策略应该是类似于LRU算法(最近最少使用原则)
  为了证实上述猜测,我们只需跟踪swap变更日志,监控数据变化即可得到答案,这里采用一段shell 脚本实现 #!/bin/bash  echo -e `date +%y%m%d%H%M%S`  echo -e "PID		Swap		Proc_Name"   #拿出/proc目录下所有以数字为名的目录(进程名是数字才是进程,其他如sys,net等存放的是其他信息)  for pid in `ls -l /proc | grep ^d | awk "{ print $9 }"| grep -v [^0-9]`  do      if [ $pid -eq 1 ];then continue;fi      grep -q "Swap" /proc/$pid/smaps 2>/dev/null      if [ $? -eq 0 ];then          swap=$(gawk "/Swap/{ sum+=$2;} END{ print sum }" /proc/$pid/smaps) #统计占用的swap分区的 大小 单位是KB          proc_name=$(ps aux | grep -w "$pid" | awk "!/grep/{ for(i=11;i<=NF;i++){ printf("%s ",$i); }}") #取出进程的名字          if [ $swap -gt 0 ];then #判断是否占用swap 只有占用才会输出              echo -e "${pid}	${swap}	${proc_name:0:100}"      fi     fi done | sort -k2nr | head -10 | gawk -F"	" "{ #排序取前 10      pid[NR]=$1;      size[NR]=$2;      name[NR]=$3;  }  END{      for(id=1;id<=length(pid);id++)      {      if(size[id]<1024)          printf("%-10s	%15sKB	%s ",pid[id],size[id],name[id]);      else if(size[id]<1048576)          printf("%-10s	%15.2fMB	%s ",pid[id],size[id]/1024,name[id]);     else      printf("%-10s	%15.2fGB	%s ",pid[id],size[id]/1048576,name[id]);      }  }"
  由于上面图中 2022.3.2 19:57:00 至 2022.3.2 19:58:00 发生了一次Full GC,我们重点关注下这一分钟内swap交换区的变化即可,我这里每10s做一次信息采集,可以看到在GC时点前后,swap确实没有变化
  通过上述分析,回归本文核心问题上,现在看来我的处理方式过于激进了,其实也可以不用关闭swap,通过适当降低堆大小,也是能够解决问题的。
  这也侧面的说明,部署Java服务的Linux系统,在内存分配上并不是无脑大而全,需要综合考虑不同场景下JVM对Java永久代 、Java堆(新生代和老年代)、线程栈、Java NIO所使用内存的需求。
  总结
  综上,我们得出结论,swap和GC同一时候发生会导致GC时间非常长,JVM严重卡顿,极端的情况下会导致服务崩溃。
  主要原因是:JVM进行GC时,需要对对应堆分区的已用内存进行遍历,假如GC的时候,有堆的一部分内容被交换到swap中,遍历到这部分的时候就须要将其交换回内存;更极端情况同一时刻因为内存空间不足,就需要把内存中堆的另外一部分换到SWAP中去,于是在遍历堆分区的过程中,会把整个堆分区轮流往SWAP写一遍,导致GC时间超长。线上应该限制swap区的大小,如果swap占用比例较高应该进行排查和解决,适当的时候可以通过降低堆大小,或者添加物理内存。
  因此,部署Java服务的Linux系统,在内存分配上要慎重。
  以上内容希望可以起到抛转引玉的作用,如有理解不到位的地方烦请指出。

孙东期待港深合作研发智慧交通和车联网技术中新社香港9月27日电(戴小橦)香港特区政府创新科技及工业局局长孙东27日表示,香港和深圳都是粤港澳大湾区的中心城市,他期待港深能合作研发智慧交通和车联网技术,携手为两地居民提供更云南元谋发现目前最早的长臂猿祖先化石9月13日,国际人类学领域经典刊物JournalofHumanEvolution刊发论文,确定云南元谋新发现的元谋小猿是迄今最早的长臂猿祖先化石。这一发现将长臂猿化石记录向前推至距支付宝背后的客服是怎样一群人?81是女性残疾人占比超4您好,我的工号是191068,很高兴为您服务,请问有什么可以帮到您的?每当我们在使用APP时遇到难题,问客服是最直接的解决路径。那么,这些藏在网线背后,为我们答疑解惑的又是怎样一群雷军自爆18岁就想靠科技造富,人到中年不谈危机时间倒回35年前,当人们普遍认为科技属于研究单位和国企的事,下海创业意味着放弃铁饭碗的时候,有一个18岁的男孩子在看过硅谷之火这本书后,居然想自己创办一家技术公司,而且还是影响全世特斯拉用高薪揭露了工厂真相,用工荒背后是不人性化的待遇用工荒这个词大家并不陌生,其实,早在前十年就已经出现,只不过那个时候不太明显。2012年,身边一起进工厂的朋友开始陆续离开工厂,那个时候我就知道工厂要招到一个员工,或者说想招到一个新能源汽车购置税免征政策再延期一年,12万多元的新车可以免缴1万多元的税今天,财政部税务总局工业和信息化部发布关于延续新能源汽车免征车辆购置税政策的公告,对购置日期在2023年1月1日至2023年12月31日期间内的新能源汽车,免征车辆购置税。据悉,免激光雷达自动驾驶的利器近几年来,自动驾驶的概念越来越被频繁的提及,而自动辅助驾驶技术也在快速的发展。随着自动驾驶辅助系统在量产车型上的需求与日俱增,相关的感知硬件也得以快速发展。平时开车需要用眼睛观察路中芯国际赌对了,台积电也没料到,制裁来得这么快台积电和中芯国际相向而行,一个在高端芯片不断投资建厂,另一个在成熟芯片领域押注产能。很多人希望中芯国际也能像台积电一样,掌握一致的对标工艺。但是在没有得到EUV光刻机供货的情况下,离开美国,中国几年内能造出高端芯片?离开美国,中国几年内能造出高端芯片?华为芯片事件发生后,国内有不少网友在网上提出这样的疑问,期盼中国芯的崛起。这几年来,老美不断利用其在芯片领域的技术优势,向华为等中企撒钉子,企图一周综述中国新能源汽车保有量已占全球50左右一周综述宏观经济与政策一工信部中国牵头的自动驾驶测试场景评价国际标准正式立项工信部消息,中国牵头在国际标准化组织(ISO)框架下提出的道路车辆自动驾驶系统测试场景场景评价与测试用例云南18月房价大跌13,成交额跌36,楼市滑坡何时能结束?随着疫情稍稍缓和,云南的旅游业也在渐渐复苏。今年截止8月,云南的游客人数达到5。34亿,同比增长15。1,恢复至2019年同期的97。1。旅游总收入6067亿元,同比增长16。6,
老年人常吃核桃宜健康核桃富含保护心脏的3,3属于一种多不饱和脂肪酸,可以防止血液凝聚血管收缩,对心脏和血管健康有益。要想获得3脂肪酸,除了吃深海鱼类,还可以吃几个核桃。核桃可以生吃,也可以炒菜炖粥吃。中医专家提醒晨起黄金10分钟,常做这6件小事,助您健康长寿俗话说一日之计在于晨,尤其是起床后这段时间,即使一个很小的动作,都可能给一天的生活带来影响。对此,专家总结早晨起床多做六个小动作,更健康长寿。一揉肚子早起做做揉肚子的运动,可以有效小阳人吃什么好得快?现在走街串巷的碰到熟人,不再是问你吃了吗而是阳了吗朋友圈都是阳人的聚集地了。全面开放,让群众用自身的免疫力去抵抗病毒,症状的轻重与身体的免疫力有很大的关系。专家建议,多摄入蛋白质提如果没有退烧药,这些物理降温方法你得知道经过无数人的亲身实践,新冠病毒带给人体伤害最大的就是发烧,一般高烧39度到40度。如果长时间高烧没有及时缓解,有可能会造成身体脱水,影响酸碱平衡和消化功能下降,甚至惊厥,而高烧41感染了奥密克戎,怎样快速从阳转阴?做好这5点,加速病毒排出最近感染奥密克戎的朋友逐渐增多,感染病毒以后,身体会出现各种不适,怎么才能快速从阳转阴呢?做好以下5点,加速病毒的排出1多喝水发烧时需要多喝水,可以及时补充体内水分,防止虚脱,帮助送瘟神,加时赛开始了有序放开,既不是防疫结束了,也不是抗疫刚刚开始。与疫情搏斗三年,我们已经在上半场的突击抗疫下半场的常态化防控中全力以赴,取得优异成绩,现在算是进入了加时赛。加时赛往往是紧张刺激,甚科尔你不光得能接受追梦带来的激情ampampamp竞争力也得接受他被驱逐直播吧12月16日讯在昨天勇士对阵步行者的比赛中,追梦格林因两次技术犯规被罚出场。今天,勇士主帅科尔在参加DamonAndRatto的播客节目时谈到了此事。他说道这令人沮丧,但我能教师工作总结(大班)作者梁子馨晨原创一学期又过去了。大班是幼小衔接最关键的一年。幼儿即将离开幼儿园,进入一个全新的环境学习生活了。如何使幼儿更好地适应小学的学习和生活是我们的工作重点,因此,加强幼儿的加拿大搜救协会称苹果iPhone的车祸检测功能已影响工作IT之家12月16日消息,苹果为iPhone和AppleWatch新增了车祸检测功能,系统在检测到疑似车祸碰撞之后就会向当地政府发出求救。不过该功能目前仍不完善,在过山车滑雪的时候为应对低温天气久事公交做好车辆保障工作图说为做好冬季低温下的车辆保障工作,久事公交执行了一系列保障措施采访对象供图新民晚报讯(记者任天宝)记者今天从久事公交巴士五公司了解到,为做好冬季低温下的车辆保障工作,公交公司执行履职耕耘结硕果团结奋进新征程民建十一大以来工作回眸编者按凝心聚力启征程,继往开来续华章。回望过去,民建不忘合作初心,集全会之智,聚全会之力,为夺取新时代中国特色社会主义伟大胜利贡献了智慧和力量展望未来,民建同心携手奋进,矢志履职尽