Mysql悬挂事务问题
背景
最近业务系统生产环境的IDB在执行事务的过程中出现了ERROR1205(HY000):Lockwaittimeoutexceeded;tryrestartingtransaction异常。通过相关资料的查询和了解,发现出现这个问题的原因是产生了悬挂事务。整个排查的过程也比较困难,因此和大家分享下排查问题的经过。如果文中有错漏的地方,欢迎大家指正。
原理篇
什么是事务
首先介绍下事务的相关知识。什么是事务?事务就是用户定义的一系列数据库操作,这些操作可以视为一个完成的逻辑处理工作单元,要么全部执行,要么全部不执行,是不可分割的工作单元。
事务的的四大特性:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。
mysqlinnodb引擎是如何实现上面四个特性的?事务的隔离性由锁机制MVCC实现。事务的原子性、一致性和持久性由事务的redo日志和undo日志来保证。
mysql的锁主要分为共享锁(SLock)、排它锁(XLock)共享锁(SLock):共享锁又称为读锁,简称S锁,共享锁就是多个事务对于同一数据可以共享一把锁,都能访问到最新数据。但是不能执行Update、Delete操作。排它锁(XLock):排它锁又称为写锁,简称X锁,排它锁不能与其它锁并存,而且只有一个事务能拿到某一数据行的排它锁,其余事务不能再获取该数据行的所有锁。一旦有一个事务获取了该数据的排它锁之后,其余事务对于该数据的操作将会被阻塞,直至锁释放。常见的排他锁:行锁、间隙锁等等。
mysql的重要日志:redolog、undolog和binlogredolog:重做日志,记录的是事务提交时数据页的物理修改,是用来实现事务的持久性。该日志文件由两部分组成:重做日志缓冲(redologbuffer)以及重做日志文件(redologfile),前者是在内存中,后者在磁盘中。当事务提交之后会把所有修改信息都存到该日志文件中,用于在刷新脏页到磁盘,发生错误时,进行数据恢复使用。mysql在进行修改操作的时候并不是直接进行磁盘IO,因为那样效率太低。而是将修改操作写到缓存区(redologbuffer)中,再在适合的时机进行刷页。为了防止缓存区中的数据因为意外错误丢失,所以会将缓冲区的数据写入到redo日志。undolog:主要记录的是数据的逻辑变化,为了在发生错误时回滚之前的操作,需要将之前的操作都记录下来,然后在发生错误时才可以回滚。undolog和redolog记录物理日志不一样,它是逻辑日志。可以认为当delete一条记录时,undolog中会记录一条对应的insert记录,反之亦然,当update一条记录时,它记录一条对应相反的update记录。当执行rollback时,就可以从undolog中的逻辑记录读取到相应的内容并进行回滚。binlog:归档日志,属于逻辑日志,是以二进制的形式记录的,用于记录数据库执行的写入性操作(不包括查询)信息。binlog不仅会记录insert操作,还会记录对应的反向操作delete,binlog提供基于时间点的数据恢复能力。binlog的主要使用场景:主从复制和数据恢复。对于数据恢复场景,我们可以通过使用mysqlbinlog工具来恢复数据。集团内的IDB的数据追踪功能也是利用binlog实现的,可用于找回被误操作的数据。
一次事务的执行过程大致如下:
如上图所示,事务执行流程步骤(更新操作):查询数据若BufferPool存在,则输出,不存在则读取磁盘中的数据并放入BufferPool;更新操作,会先将数据的旧值写入undolog,以便回滚。(保证原子性);更新BufferPool(内存)数据;将更新数据写入到RedoLogBuffer(内存中);准备提交事务,会调用fsync将RedoLogBuffer的值刷入到redolog日志文件中,状态为prepare;准备提交事务,binlog日志写入磁盘;binlog写入成功后,将redolog的状态变更为commit;在合适的时间,将BufferPool的数据刷盘;
什么是悬挂事务
正常的事务流程(人为控制事务提交):begin,rollback,commit。正常情况下的流程如下:beginTransaction();一顿操作if(操作成功){commit();}else{rollback();}
试想一下,如果我们开启一个事务,但不rollback也不commit这个事务,会发生什么现象。答案是:事务将一直挂起,事务中获得的锁也不会被释放,其他事务也无法操作被锁定的数据,此时就产生了悬挂事务。伴随着悬挂事务的产生,通常会出现ERROR1205(HY000):Lockwaittimeoutexceeded;tryrestartingtransaction这个错误。下面举个简单的例子:事务1setautocommit0;BEGIN;UPDATEstudentSETage11WHEREid2;事务2setautocommit0;BEGIN;UPDATEstudentSETage11WHEREid2;
事务1会获得id2的行锁,然后一直不释放,事务1的会话将一直存在。事务2也要获得id2的行锁,这时,事务2开始等待id2的行锁释放,到了默认的超时时间50s(mysql的默认超时时间参数:innodblockwaittimeout50),事务2抛出异常:ERROR1205(HY000):Lockwaittimeoutexceeded;tryrestartingtransaction。事务1除了人为commit或者杀死该进程,否则事务1的进程永远处于挂起状态(即sleep状态)。
悬挂事务产生的问题
如果一个数据库连接中开启事务且未显式提交或回滚,在不考虑其他因素的前提下,只有在连接断开的时候才会回滚或者将该事务的进程杀死,该事务才会被回滚。这样一来,悬挂事务将会带来两个非常严重的问题。悬挂事务不回滚,随着用户操作越来越多,悬挂事务也会不断堆积,整张表被锁的数据行也会越来越多。最终会导致这个表被完全锁住。所有的后续事务都无法获取锁而导致获取锁超时,整个系统彻底崩溃。悬挂事务回滚,当前这段时间内,用户提交的数据是无法找回的。参考上面的事务执行过程,这个事务其实是被认为失败了,被rollback掉了,也无法通过binlog找回丢失的数据。
实践篇
在前半部分,我分享了有关悬挂事物的相关知识。下面我将分享一例生产环境中的关于悬挂事务的案例。
起因
某日中午,钉钉报警群里面开始零星出现Lockwaittimeoutexceeded;tryrestartingtransaction异常(如下图所示)。立即开始排查问题,到了下午的时候,钉钉报警群开始大量出现无法获得数据库链接和获取锁超时异常,系统开始出现用户无法提交数据的情况。我立即和团队内的小伙伴的开始紧急处理这个问题。
排查经过一开始的时候,通过查阅相关资料,已经定位到产生问题的原因是产生了悬挂事务。那么悬挂事务怎么产生的呢?Spring提供了两种实现事务的方式,Transactional注解和调用事务管理器的getTransaction方法。值得注意的是getTransaction需要自己控制commit和rollback逻辑。而Transactional注解则不需要。我们立即排查了最近上线的几个需求是否使用了getTransaction这种人工控制事务的方式,因为手动控制事务的方式,极有可能会出现事务不commit的情况。通过排查,最近上线的需求没有使用getTransaction这种人工控制事务,初步排除是最近上线的需求导致的。我们再次开始排查系统中使用了getTransaction这种人工控制事务的方式的代码,系统中大概有78处使用了这种方式,这些代码最后一次提交日期大概是2020年,大致走查下来,也没发现什么问题。其实很难通过这种方式排查出原因。随着时间的流逝,由于悬挂事务的存在导致其他正常的事务也无法执行,数据库中的活跃会话越来越多,越来越多的用户无法提交数据。我们可以从活跃会话得到当前正在执行的sql,导致这些sql无法提交的原因是前面的悬挂事务导致的,无法从当前众多的活跃会话中提取到更多的有效信息。我们立即联系DBA,协助解决问题。DBA确认了悬挂事务的存在(部分事务执行了3个多小时一直未提交),由于这些进程处于sleep状态,DBA也无法找出关联的sql。事后,查阅了相关资料,发现下面的方法可以找出可能的悬挂事务。我们请求DBA将这些悬挂事务的进程全部杀掉(即使不杀掉,这些事务也无法被commit)。
查询mysql当前的所有进程
SHOWPROCESSLIST;
查询出执行时间超过10s未提交的事务
SELECTt。trxmysqlthreadid
,t。trxstate
,t。trxtablesinuse
,t。trxtableslocked
,t。trxquery
,t。trxrowslocked
,t。trxrowsmodified
,t。trxlockstructs
,t。trxstarted
,t。trxisolationlevel
,p。time
,p。user
,p。host
,p。db
,p。command
FROMinformationschema。innodbtrxt
INNERJOINinformationschema。processlistp
ONt。trxmysqlthreadidp。id
WHEREt。trxstateRUNNING
ANDp。time10
ANDp。commandSleep随着悬挂事务的进程被清理掉之后,数据库活跃会话开始逐渐减少,系统开始正常工作。然而,好景不长,因为一直没找到产生悬挂事务的根源,大约10分钟后又开始出现了Lockwaittimeoutexceeded;tryrestartingtransaction异常。我尝试从SLS日志(我们系统的所有日志均会被采集到SLS日志系统中)出发,看看能否找到错误日志从而定位到问题。我重点查看了系统恢复到再次发生问题的这段时间的所有日志,终于发现下图这个异常。其实这段时间内系统的乱七八糟异常信息很多。能重点注意到这个异常的主要的原因主要是在第2步的时候,我对这段代码(AddServiceToCart)有点印象,记得这段代码好像使用的是手动事务控制事务的。
重点查看AddServiceToCart这段代码,立即发现问题。这段代码大致下面这样的方式实现的。参数校验
DefaultTransactionDefinitiondefinitionnewDefaultTransactionDefinition();
TransactionStatusstatustransactionManager。getTransaction(definition);
LongquotajsonObject。getLong(quota);
transactionManager。commit(status);
在jsonObject。getLong(quota)时,quota不是Long型,jsonObject。getLong抛出RuntimeException,由于异常没有被捕获,事务的rollback和commit都没被执行,这样这个事务就会一直存在。除了应用重启和人工杀掉该事务的进程,让这个事务回滚,没有其他办法。而这样做带来的后果是这段时间内用户提交的数据都会丢失。如果想要找回,可能只能自己通过应用日志,自己将丢失的数据找回,然后人工将数据重新录入。通过mysql的binlog是无法直接找回的。
复盘
从前面的实践篇章节中,我们很容易知道两个事务要操作相同行的数据会产生锁等待的情况。那么是不是意味着上面的代码只会影响到自己事务里面的表呢?现在假设上面的代码只会用到A表,那么是不是同一数据库中的其他的B、C、D表是不是不受影响呢。先揭晓答案:会受到影响,B、C、D表的数据行也会被锁。这是为啥?
首先介绍一下Spring的事务的实现机制。
Spring事务是如何保证iBatis执行sql时,这些sql用的是相同的Connection?答案是:ThreadLocal。在执行完doBegin方法后,其实是通过bindResouce方法将从DruidDataSource连接池中获得的链接放入当前线程的TheadLocal,这里的TheadLocal中存放的是一个Map,key是dataSouce,value是connectionHolder(connectionHolder中持有Connection的引用。近似认为connectionHolder和Connection是一回事)。
IBatis在执行sql时,通过DataSourceUtils。getConnection获取数据库链接。这里会优先从当前线程的ThreadLocal中获取,如果获取不到,从数据源中获取。
ThreadLocal中的变量什么时候会被清除呢?当commit和rollback的时候,ThreadLocal中的变量会被清理掉。
从上面的分析过程中,可以看出,当事务没有被commit和rollback的时候,当前线程可能会有上次残留的ThreadLocal的。因为当前线程是从线程池中获取的,线程是会被复用的。如果当前线程之前执行的事务没有被正确commit或者rollback的话,现在继续要获取链接并执行sql,由于上次是开启了事务且未提交,这次的sql也会被认为进入事务,这些sql也会锁住相应的数据行,这样就造成数据库中大面积的表被锁。
总结尽量不使用getTransaction这种人工控制事务(这种方式比较容易埋坑,推荐使用Transactional),如果要使用,请务必要trycatch。一定注意提前return的问题(由于提前return导致rollback和commit都没被执行,这种case也很常见)。否则万一出问题,可能真的很头大;
mycat2实现单数据库年月分表功能简介随着业务数据量的增加查询速度已无法忍受的程度。是你的网络问题吧这样牵强的解释无法敷衍过去的时候。在不修改原来程序代码的基础上最好的办法1)说服客户清理什么时候之前的数据,完
他汀的正确使用方法今天跟大家谈一谈他汀类药物,相信许多高血脂患者对这类药物都不会陌生,因为它具有很好的降血脂作用。那么他汀是如何降血脂的呢?其实,它的作用机制主要是抑制血脂中胆固醇以及甘油三酯的合成
艾灸的方法和分类艾注灸是将艾灸放在腧穴上施灸的方法。可分为直接灸和间接灸。(1)直接灸是将大小适宜的艾炷,直接放在皮肤上施灸。若施灸时需将皮肤烧伤化脓,愈后留有瘢痕者,称为瘢痕灸。著不使皮肤烧伤化
詹姆斯数据更新11月3日湖人惊险战胜鹈鹕!莱恩三分绝平助湖人打进加时赛,够刺激!詹姆斯全场得到20分10板8助2帽。此战过后,詹姆斯总得分37237,排名历史第2,距离第1差1150。总篮板10
电视机的分辨率越大越好吗?松下自研技术让画面更好看作为显示用产品,电视机以及桌面显示器的分辨率往往是用户首先考虑的需求。目前市场上相关产品的分辨率大多处于720P,1080P,2K和4K之间,高端的电视机会达到8K分辨率。于是对于
时速160公里的铁路客车技术首次国际输出!中国铁路你了解多少?11月2日,据央视新闻报道,我国时速160公里客车技术将实现首次国际输出,首批客车已经启运巴基斯坦。日前,46辆国产宽轨铁路客车在天津港装船,即将搭乘货轮驶往巴基斯坦。后续还将有1
二十大代表在基层丨李杰鼓足钻劲干劲闯劲做好新时代技术工人新华社太原11月3日电题李杰鼓足钻劲干劲闯劲做好新时代技术工人新华社记者梁晓飞李师傅回来了!10月29日,山西华阳集团党校华阳大学的教室里,党的二十大代表山西华阳集团新能股份有限公
惯用Python的5个技巧(循环)在这篇文章中,你将看到5种方法可以使你的python循环更习惯,运行得更快,内存效率更高。在我看来,Python是计算机科学中最简单最通用的语言之一。如果你正确地编写python代
我校举办三项改革科技成果转化项目集中路演活动来源延安大学延大要闻作者白宗文核稿王延峰本网讯11月1日下午,由陕西省科技厅教育厅等单位主办,延安大学和安康学院联合承办的全省高校院所三项改革科技成果转化项目集中路演(延安大学安康
金融行业在未来的变天针对于未来行业的金融变天金融行业的凛冽寒冬要到了。最近大会明确提出建设现代化的产业体系,坚持把发展经济的着力点放在实体经济上。这就意味着那种通过资金空转,牟取暴利的行为将成为政策接
加拿大以国家安全为由,要求三家中国公司退出,剥离在加锂矿业务作者北风雪林就在刚刚,加拿大政府的官网发布声明,政府要求我国三家企业,剥离在加拿大矿产公司的投资。从公司名称,就能判断这三家企业,是国内中矿资源盛新锂能以及藏格矿业这三家锂矿上司集
夜读丨一代一代的春天主播读经典陪您说晚安,大家好!这里是闪电夜读,我是禹城融媒主播庞伟伟,今晚与您分享丁立梅的散文一代一代的春天。一代一代的春天文丁立梅春天的冷,到底有限得很,几番风雨后,气温回升。沉
春天多给孩子吃这10道家常菜,好吃好做,孩子最爱吃,身体长得快春耕进行时大家好,欢迎大家来到我的美食自媒体,我是美食领域创作者锦绣V山东专注美食,让生活更有味。今天为大家带来了几道家常美食的做法,这几道美食也是深受大家的喜欢,而且是很常见的几
清朝的辫子有多脏?英国的一位贵妇回忆令人作呕,吃饭难以下咽在阅读此文前,诚邀您点击一下关注,既方便您进行讨论与分享,又给您带来不一样的参与感,感谢您的支持。引言在当今这个时尚文化高度发达的社会里,人们对于美的追求也越发地精益求精了。无论是
杭州为何常被人戏称为豫杭河南的第二省会?前言杭州是浙江的省会,而豫则是河南的简称,且河南的省会是郑州,这些都是基本的地理常识。然而每每与旁人聊起杭州这座城市时,总有人将杭州称之为豫杭,让人听着有些不明所以,如果再接着问个
杭州西湖最新游玩攻略来啦!我们到杭州可以选择住在武陵门这个片区,因为这里是杭州的市中心嘛,它离西湖的景点也比较近,吃住也很方便,吃饱喝足之后呢,我们就来到西湖的第一景断桥残雪断桥为什么叫断桥呢?到了冬天雪后
赛金花国家是人人的国家国家是人人得国家,救国是人人得本分,说这话的,是赛金花。赛金花是清末民初得名妓,一个风尘女子,说出这等义正词严的话,着实让无数汉奸走狗汗颜。赛金花被历史铭记,盖因两个公案。一是随使
登上新闻联播的白玉兰,到底有多美?三月阳春,又到了一年游园踏青赏春季。在晴空暖阳下,上海植物园正门广场上的一株白玉兰吸引了不少游客驻足拍照。一朵朵洁白的花朵在暖阳中绽放,满树清香,沁人心脾。这就是近日登上新闻联播的
济南吞并莱芜超合肥西安,合并淄博将超天津青岛郑州成北方第二城山东省是中国经济和人口大省,位于东部沿海地区,经济总量全国第三,仅次于广东和江苏,人口总量与广东河南并称中国人口三大省。山东省原本有17个地级市,2019年地级莱芜市被省会济南市吞
3月14日,农历二月二十三,一起来看今天重点新闻李强总理谈中美关系,中美两国脱钩的论调有时候还比较热,但不知到底有多少人在这种炒作中真正受益。中美经济你中有我我中有你,彼此都从对方的发展当中受益。中美可以合作,中美应该合作,中美
梁山县十里杏花烂漫春意浓大众网海报新闻见习记者崔丽丽通讯员王新宇济宁报道3月上旬,济宁市梁山县东麓十里杏花村满山飘香,十里杏花次第开放,一派生机盎然的景象。梁山县十里杏花与莲台寺据了解,十里杏花村历史悠久
联网新闻头条抢先看最强AI再次进化!ChatGPT下周升级GPT4支持视频了ChatGPT表现出来的能力在这两三个月中已经震撼了全球,几乎所有行业都在考虑接入AI,更可怕的是ChatGPT