利用倾向得分开展分层与回归分析控制混杂偏倚
1月25日 辞凤阙投稿 倾向得分10讲
1。从入门到精通,真实世界研究“倾向得分方法”10讲开启。
2。倾向得分的基本计算方法
倾向得分十讲(3):利用倾向得分开展分层与回归分析控制混杂偏倚
在之前第二讲中,我应用ogistic回归计算了倾向得分,并结合金字塔图分析组间均衡性。本讲在此基础上,谈一谈如何利用分层分析和回归分析发挥倾向得分的作用。
1。本讲案例
某研究团队基于队列研究研究美国初生婴儿中,造成低出生体重结局的影响因素,结局变量为是否娩出低出生体重儿,重点探讨饮酒对出生体重的影响,其它的变量还有产妇妊娠前体重、产妇年龄、种族、早产次数、是否患高血压等。
案例解析:
此案例暴露因素为饮酒(暴露组为饮酒1,对照组为不饮酒0),结局是出生体重(是1,否0),此外还有一系列的协变量,这些变量可能是混杂因素。在上一讲中,我利用了logistic回归将众多协变量综合形成计倾向得分,并绘制了倾向得分的金字塔图。
人口金字塔X轴是人数,Y轴是不同的倾向得分(01),可以看出不饮酒(蓝色)的倾向得分主要分布在0。5以下,而饮酒(红色)主要分布在0。40。6之间,两组人群倾向得分分布特征不一致(人口金字塔分布图不对称)。
这意味着暴露组人群倾向得分方法比较高,对照人群倾向得分比较低。在上一讲,我提到,倾向得分不一致,那就意味着分组不均衡。
2。如何利用倾向得分进行控制混杂因素
针对本案例,在绘制倾向得分金字塔图同时,也可以计算出两组的倾向得分均数,并进行t检验。t检验结果显示,饮酒组(均数0。49)和对照组(均数0。32)倾向得分存在着统计学差异(P0。001),意味着分组不均衡,倾向得分很可能是一个混杂变量。
如何控制混杂偏倚呢?存在混杂变量,且整个研究就只有一个混杂变量的情况下,常见处理偏倚的有三种方法:第一种,分层分析;第二种,两因素回归分析(倾向得分变量饮酒变量);第三种,倾向得分匹配方法进行统计分析。可能很多人一听到倾向得分,就联系到倾向得分匹配。但实则不然,前两种方法结果同样可靠。本系列是长系列推文,所以我想不妨先介绍前两种方法,而倾向得分匹配,我将在下讲进行介绍。
3。利用分层卡方检验分析进行定性结局的统计分析
分层卡方检验,也称为CochranMantelHaenszel检验(CMH检验),它主要用于定性结局的研究案例中,也就是在研究暴露处理因素和结局事件关联性的基础上,考虑了分层因素的混杂作用。
CMH检验通过对分层因素进行控制,从而考察调整之后暴露处理因素与结局事件之间的关联性。实际上CMH检验,已经不再是单纯的单因素分析,而是已经开始融入了多因素分析的思维模式,应该算作为一种最为简单的多因素分析方法。
CMH的优点是信息量比两因素回归分析多,因此CMH分析方法在倾向得分法起到的作用是探索性分析、尽量发掘更多的有用的信息。
在本例中,研究结局是是否低出生体重,暴露因素饮酒,分层变量是倾向得分。分析之前有个问题需要解决,CMH分析要求分层变量是分类变量,因此我们需要把倾向得分分类化。此处我取四分位数和中位数作为分类界值,将倾向得分分为四分类变量(0。185,0。1850。406,0。4060。523,0。523)
接着,开展卡方检验(分析描述统计交叉表),倾向得分四分组变量作为分层变量
在右侧“统计”选项中,选中卡方和CochranMantelHaenszel检验(CMH检验,中文翻译很别扭)。
执行分析后,得到了多张结果表。在本例中,主要涉及一下两张表。第一章是卡方检验结果,分别列出分层卡方和原始卡方的分析结果。从下表中可看出,在四组不同倾向得分组中,P值均大于0。05;但最后“总计”一栏,它是22四格表卡方检验的结果,是没有控制偏倚时的结果,P0。045,却有统计学意义。分层卡方和原始卡方检验结果不一致,这很可能意味着倾向得分是一个混杂着因素。因为如果不是,分组卡方和不分组卡方结果应该相似。
SPSSCMH检验得到最后一张表是给出OR值、可信区间和P值。P0。137,是分层卡方检验调整混杂因素后的结果;比值比即为OR。
因此本例结果显示,在控制了倾向得分这一变量的影响后,合并OR1。711,95CI为0。8433。473,OR值的假设检验计算的P值为0。137,饮酒因素对于该低出生体重的发生的影响没有统计学差异(之前未控制倾向得分的P值为0。045,具有统计学意义),此处进一步证实倾向得分导致了偏倚的产生。
4。利用回归进行混杂偏倚的控制统计分析
常见回归方法包括线性回归、logistic回归、COX回归,均可用于控制混杂偏倚。本例结局为二分类变量,因此选择logistic方法
首先,不妨开展单因素的logistic回归分析
单因素logistic显示,OR1。889,P0。047,差异有统计学意义。提示饮酒与低出生体重发生有关系。
接着,纳入倾向得分进行多因素的logistic回归分析
多因素logistic显示,OR1。697,P0。133,差异没有统计学意义。这提示饮酒与低出生体重发生没有关系,饮酒不是低出生体重的独立危险因素。
结束语:大家可以看出,分层卡方分析和logistic分析结果大同小异,相对来说CMH分析方法相对细致,但操作相对繁琐。logistic回归分析相对简单,在统计分析上更常见。但我认为统计分析不是一蹴而就的事情,应该多种方法加以验证比较,这样才能让你深入了解数据,发现数据背后的奥秘。
预告:下一讲将介绍倾向得分匹配的方法。
本号致力于医学科研方法分享,欢迎点击学习!
meta分析
R语言
真实世界研究
统计技巧
初中语文教师停课不停学心得体会2今天结束了。早上7点起床,通知孩子们阅读课文,布置预习作业,开始在线同步学习,布置离线作业,完成课后辅导、作业批改等工作。看来正常班之间没有区别,因为这些都是日常教学工作,但他……
历史教学创新历史教学促进校园文化的发展柳河县第十中学李秀娟中华民族有五千年历史、灿烂的文化。中华民族的传统美德在五千年的历史长河中形成发展,他是我们民族……
师之友,更强大便捷的题卡阅卷工具考试季又快到了,又到了阅卷的时间了。前些时候我们介绍了一款手机用的阅卷软件,(点击查看:阅卷好工具:题博士题卡扫描阅卷王)使用相当方便。不过也存在一些局限,目前来说只适合少量阅……
学生大会讲话稿模板十四老师们、同学们:大家早上好!在2013年2月27日,中国职业技术教育学会在北京发布了《2012中国中等职业学校学生发展与就业报告》。这份报告作为第一份聚焦于中职学生发展和……
送课本到村发放给学生3月16日(周一)下午5:38,教育局刘局长布置任务把课本发给学生,提出了具体要求:要高度重视、周密布置、全程督导,保证人员不聚集、社会反响好和课本发放快等。经校委会电话……
XX中学预防各类传染病班主任晨检注意事项学校预防各类传染病及晨检班主任需知一,根据教育局的有关要求,班主任(带课老师)每天早上到班后,要及时了解,询问,观察学生的身体状况及患病情况。随时掌握患各种疾病学生的动态……
优秀学生代表发言模板十五尊敬的各位领导、老师,亲爱的同学们:大家好!我是来自级班的。很荣幸能代表受表彰的所有同学在此发言。nbs……
优秀学生代表发言模板十六尊敬的各位领导、老师、亲爱的同学们:大家好!我是级班的学生。这是我最后一次参加学校的优秀学生表彰大会,心情格外激动。首先请允许我代表全体级毕业生向辛勤培育我们的领导、老师……
优秀学生代表发言模板十七尊敬的老师、亲爱的同学们:大家好!我是级班的学生。在这次表彰活动中我被授予学业优秀奖,感到非常光荣。nb……
军训学生代表发言模板尊敬的学校领导,军训教官,老师们,同学们:大家好!我是级班的学生,首先很荣幸能够代表全体新同学发言。我们热血沸腾的站在这里,今天是我们每一个级新生感到自豪的日子,因为我们……
优秀学生代表发言模板十二尊敬的各位领导、老师,亲爱的同学们:大家好!我是来自级班的。首先,请允许我代表级全体学生对学校的辛勤培养,对教导、帮助我……
优秀学生代表发言模板八尊敬的各位老师、亲爱的同学们:大家好,我是来自级班的,很荣幸可以代表级获奖同学发言。请先允……