专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

如何在因果推断中更好地利用数据?

  数据智能知识地图已发布~
  DataFun诚邀各位小伙伴们观看5周年直播,免费抽取纸质版数据智能知识地图!
  〔心〕点击链接预约:重磅!业界首个数据智能知识地图发布
  导读:本次分享题目为《如何在因果推断中更好地利用数据?》,主要介绍团队近期在因果上已发表论文的相关工作。本报告从两个方面来介绍我们如何利用更多的数据来做好因果推断,一个是利用历史对照数据来显式缓解混淆偏差,另一个是多源数据融合下的因果推断。
  全文目录:因果推断背景纠偏因果树GBCT因果数据融合在蚂蚁的业务应用
  分享嘉宾崔卿博士蚂蚁集团高级算法专家
  编辑整理Yooki华科
  出品社区DataFun
  01hr因果推断背景
  常见的机器学习预测问题一般设置在同样的系统里面,如通常会假设独立同分布,比如预测吸烟的人中得肺癌的概率、图片分类等预测问题。而因果的问题则关心的是数据背后的机制,常见的问题如吸烟是否导致肺癌,类似的问题则为因果的问题。
  在因果效应估计问题里有两类很重要的数据:一类是观测数据,另一类则为随机对照实验产生的实验数据。观测数据是我们实际生活或产品积累下来的数据。比如抽烟的数据,有的人喜欢抽烟,观察数据则是抽烟者的相关数据,最终抽烟者中的一部分人得癌症。机器学习预测问题就是估计条件概率P(得肺癌吸烟),即给定吸烟的条件下,观察吸烟者得肺癌的概率。在上述的观测数据中,抽烟的分配实际上并不是随机的:每个人抽烟的偏好不同,同时也会受环境的影响。回答因果问题最好的方式是进行随机对照实验。实验数据是通过随机对照的实验得到的。在随机对照实验中,treatment的分配是随机的。假设需要通过做实验的方式得到吸烟是否会导致肺癌的结论,首先需要找到足够多的人,强制其中一半人抽烟,同时强制另一半人不抽烟,并观察两组人得肺癌的概率。虽然随机对照试验在部分场景下受制于道德、政策等因素而不可实现,在部分领域中随机对照实验仍可进行,比如在搜推广中的ABtest等。
  因果估计问题E(Ydo(X))问题和传统的预测或分类问题E(YX)之间的主要区别在于:给定的条件中出现了JudyPearl提出的干预表示符号do。通过干预,强制将X变量设置为某个值。本次报告分享中的因果效应估计主要指的是从观测数据中估计因果效应。
  在因果推断中如何更好地利用数据?本次报告将以两个团队近期已发表论文为例子去介绍这样一个话题。第一个工作是如何更好地利用历史对照数据。比如在某个时间点举行了一个营销大促的活动,在这个时间点之前的时间称为干预前,在这个时间点之后的时间称为干预后。我们希望在干预前就知道采取干预将带来多少实际的效果,进而辅助我们做下一步决策。在这次营销活动开始之前,我们拥有用户的历史表现数据,第一个工作主要就是介绍如何利用好干预前的数据,辅助数据纠偏工作以更好地评估干预的效果。第二个工作主要是介绍如何更好地利用多源异构数据。机器学习中也经常会涉及此类问题,常见的问题如domainadaptation、transferlearning等。在今天的报告中,将从因果的视角去考虑多源异构数据的利用问题,即假设在有多个数据源的情况下,如何更好地估计因果效应。
  02hr纠偏因果树GBCT
  1。传统的因果树
  树算法主要由两个模块组成:分裂准则:根据分裂准则将一个节点分裂成两个子节点参数估计:分裂完成后,比如最终停止分裂,根据参数估计的方法在叶子节点上预测新样本或群体的因果效应
  一些传统因果树算法是根据因果效应的异质性进行分裂的,基本思想是希望分裂之后的左子节点和右子节点的因果效应差异较大,通过分裂捕捉到不同数据分布的因果效应异质性。
  传统因果树的分裂准则,比如:uplifttree的分裂准则为最大化左右子节点的因果效应差异,差异的度量使用欧氏距离、KL散度等距离度量;causaltree分裂准则可直观地解释为最大化因果效应的平方。可通过数学证明,该分裂准则等价于最大化叶子节点因果效应方差。
  常见的参数估计做法是直接在分裂后的叶子节点上将实验组的平均outcome减去对照组的平均outcome,以此作为因果效应的估计值。如果是随机对照实验,则treatment的分配机制是随机的,由此计算得到的平均差值即为因果效应。随机分配机制保证实验组和对照组的数据分布是相同的,即称之为同质。
  因果树中分裂得到子节点,可以保证分裂得到的左子节点和右子节点的分布是同质的吗?
  2。纠偏因果树GBCT
  传统的causaltree、uplifttree并不能保证分裂后的左子节点和右子节点的分布是同质的。因此上一节提到的传统估计
  是有偏的。
  我们的工作关注于去估计实验组(treatment组)上的平均因果效应CATT。CATT的定义为:
  进一步,可将传统的因果效应估计拆分成两部分:
  选择偏倚(selectionbiasconfoundingbias)可定义为:
  其直观含义为在实验组中treatment0时的估计值,减去在对照组中treatment0时的估计值。在传统的因果树中上述的bias是没有被刻画的,选择偏倚可能会影响我们的估计,从而导致最终的估计是有偏的。
  我们的思路是利用产品或平台上积累的历史对照数据,从而显式地减少选择偏倚。具体操作是基于两个假设:假设1:可观测到干预之前实验组和对照组在treatment0的状态下的outcome的表现。以金融信贷产品中信用卡产品提额操作为例,在提额之前,我们可观察到用户平时的使用表现,即实验组和对照组在不提额状态下(treatment0)的outcome的表现是可获得的;假设2:假设outcome的y在干预前后满足一定的连续性。直观理解为一个用户或群体行为的变化在干预前后不会太剧烈。
  具体的做法:
  分裂准则分裂准则的第一部分与传统因果树类似,通过拟合历史数据的outcome,从而降低经验损失。比如在不提额状态下通过函数拟合用户行为。分裂准则的第二部分是使用混淆熵。混淆熵相对于均方误差而言,可以捕捉高阶信息。公式:
  的直观含义是:在实验组中,使用对照组的模型进行估计;在对照组中,使用实验组的模型进行估计;使这两部分的估计尽量接近,从而使得实验组和对照组的分布尽量接近一致。混淆熵的使用是我们这个工作的主要贡献之一。最终损失为以上两部分的加权和。注意到损失中主要使用的是干预前的数据(经验损失部分仍会使用干预后的数据来拟合),即用干预前的数据进行辅助纠偏。
  参数估计参数估计使用的是干预后(t)的数据进行因果效应的估计。主要使用干预前的数据纠偏学习得到一个树结构,在叶子节点中使用干预后的数据进行因果效应的估计,由于使用干预前的数据进行了显式地纠偏,因此在使用干预后的数据计算得到的估计会更加准确。(PPT的右侧)由右图所示,黄色的线代表实验组,蓝色的组代表对照组。业务中的一些策略可能会导致实验组和对照组的分配不是随机的,两者的分布存在明显的差异。经过GBCT纠偏后,叶子节点上干预前的实验组和对照组的数据分布基本是对齐的,从某种意义上达到了类似模拟随机对照实验的效果,因此使用干预后的数据估计因果效应(黄线下的面积减去蓝线下的面积)会更加准确。
  传统的树模型的集成包括bagging、boost等方法。upliftforest或causalforest使用的集成方法为bagging法,upliftforest的集成为直接求和,而causalforest的集成需要求解一个损失函数。
  由于在GBCT中设计了显式纠偏的模块,从而GBCT支持使用boosting方法进行集成。基本思想与boosting类似:在第一棵树纠偏完之后,第二棵树进行纠偏,第三棵树进行纠偏
  实验方面做了两部分实验:
  仿真实验。在含有groundtruth的仿真实验下,检验GBCT的方法是否能够达到预期的效果。仿真实验的数据生成分为两部分(表格中的第一列表示选择偏倚,值越大,对应的选择偏倚就越强;表格中的数值为MAE,MAE值越小表明方法越好):第一部分是混淆变量已观测。在混淆变量都已观测的情况下,检验GBCT的方法相对于传统方法是否更加鲁棒。由表中数据可得出结论,选择偏倚越大,传统方法(metalearner、causalforest等)表现越差。第二部分是存在未观测的混淆变量。此时很多传统方法的效果会显著地变差。对GBCT而言,在存在未观测混淆变量时表现比较稳定,同时稳定地比其他方法表现得好。表格中最后两列(GBCTND,GBCTB)是消融实验,即去掉一些模块的GBCT的弱化版本,进而说明我们提出的每个模块都是有用的。
  真实信用卡提额数据。进行随机对照的实验,同时根据随机对照实验构造了有偏数据。在不同的设置下,GBCT方法比传统的方法稳定地好,尤其是在有偏的数据上,显著比传统的方法表现得好。
  03hr因果数据融合
  第二个工作是因果数据融合,即在拥有多个数据源的情况下,如何更好地估计因果效应。
  一些传统的方法,比如metalearner等都是假设数据是同源的,即分布是一致的。一些传统的数据融合方法可以处理在跨域之间人群的异质性,但是无法显式地捕捉到干预结果跨域的异质性以及因果作用跨域的异质性。我们的工作主要是处理更复杂的跨域间的异质性,包括干预结果跨域之间的异质性以及因果作用跨域之间的异质性。
  WMDL算法的框架图如上图所示。主要的模块为:propensityscoresoutcomemodelscausalinformationawareweightingmodule
  三个模块综合起来就得到了最终的估计。WMDL算法的三个亮点为:如何刻画不同程度的跨域之间的异质性如何设计weighting的模块以用上更多的信息如何得到一个doublyrobust的估计
  在本次工作中不是通过估计实验组的outcome和对照组的outcome,然后作差得到因果效应的估计,而是直接估计因果效应,即DirectLearning。DirectLearning的好处是可以避免实验组和对照组中较高频的噪声信号。
  左边部分假设了多个域之间因果效应是一样的,但其outcome可能存在异质性;右边部分假设每个域之间的因果效应不一样,即在不同的域之间,即使它的协变量一样,其因果效应也不同。
  公式是根据拆解式推导得到的,outcomeY减去maineffect除以treatment,估计的是I(X),得到的最优解即为(X)。
  中的分子是后面将要提到的causalinformationawareweightingmodule,是我们本次工作的一个主要贡献点;分母则类似于doublyrobust方法中的倾向性得分,只不过本次工作中同时考虑了域的信息。如果不同域之间的因果效应不一样,会同时考虑域的indicator信息。
  本次工作三方面的优势:
  通过不同的设计,不仅能处理干预结果的异质性,同时可以处理因果作用之间的异质性;
  具有doublyrobustness性质。在论文中给出了证明,只要域的倾向性评分模型或主效应模型两者之一的估计是无偏的,最终得到的估计就是无偏的(实际情况略复杂一点,细节见论文);
  本次工作主要设计了半参模型框架。其中模型的每一个模块都可以用任何机器学习的模型,甚至可以将整个模型设计进神经网络中,实现端到端的学习。
  Weighting的模块是从统计学中的efficiencyboundtheory推导得到的。主要包含两方面信息:
  是域之间分布差异平衡转换的模块;
  是因果相关的信息量模块。可通过左边三幅图来辅助理解:如果源域(sourcedomain)和目标域(targetdomain)之间分布的差异较大,则优先给与目标域(targetdomain)较接近的样本以较大的权重;
  通过分母上的倾向性评分函数的设计,给实验组和对照组中存在重叠(overlap)的这部分样本以较大的权重;
  通过V刻画数据中的噪声。由于噪声在分母上,噪声小的样本将得到较大的权重。
  通过巧妙地将上述三部分结合在一起,可以将不同域之间的分布差异以及不同因果信息的表现映射到统一的域中。
  不管在同质的因果效应还是异质的因果效应下,WMDL(WeightedMultidomainDirectLearning)方法都有较好的效果。右图则是对weighting模块进行了消融实验,实验表明了weighting模块的有效性。综上所述,WMDL方法稳定地比其他方法效果好,估计的方差比较小。
  04hr在蚂蚁的业务应用
  在金融信贷风控场景中,干预的手段如提额、降价等,希望得到预期的效果如余额或风险的变化量。在一些实际的场景中,GBCT的纠偏工作会利用提额前一段时间内的历史表现(实验组和对照组在不提额下的状态可获得),通过历史的信息进行显式纠偏,使得干预后的估计会更加准确。GBCT分裂到一个子节点,使得干预前行为对齐,则干预后的因果效应就比较容易估计了。(纠偏后得到的)图中红色为提额组,蓝色为不提额组,中间的灰色区域即为估计的因果效应。GBCT帮助我们更好地做出智能决策,控制信贷产品的余额及风险。
  插播一条广告,蚂蚁机器智能团队有少量社招hc,有意者请联系cuiqing。cqantgroup。com。
  05hr问答环节
  Q1:请问GBCT纠偏和双重差分方法(DID)有何异同?
  A1:GBCT纠偏主要思想是利用历史对照信息显式地降低选择偏倚,GBCT的方法和DID双重差分的方法有相似也有不同之处:相似的地方是二者都利用了历史信息;不同的地方在于两者对于历史信息的处理方式。DID假设历史数据中的实验组和对照组之间存在固定常值的间隔(gap),在预测时减去间隔(gap)。由于选择偏倚,实验组和对照组的分配不是随机的,GBCT通过纠偏的方式,将历史的实验组和对照组进行对齐。
  Q2:GBCT在未观测混淆变量上会表现得更好,有什么比较直观的解释?
  A2:如果所有的混淆变量已观测的话,满足可忽略性(Ignorability)假设,某种程度上,虽然没有显式地降低选择偏倚,实验组和对照组也有可能通过传统的方法实现对齐,实验表明GBCT的表现要略胜一筹,通过显式纠偏使得结果更稳定一些。
  假设存在一些未观测到的混淆变量,此类场景在实际中是非常常见的,历史的对照数据中也存在未观测的混淆变量,比如在提额前,家庭情况、收入的变化等可能观测不到,但是用户的金融行为已经通过历史数据体现出来了。我们希望通过历史的表现信息,以混淆熵等方式显式降低选择偏倚,使得在树分裂时,将混淆变量之间的异质性刻画到分裂的子节点中。在子节点中,使得未观测的混淆变量有更大的概率是比较相近的,因此估计的因果效应相对更准确。
  Q3:有将GBCT和DoubleMachineLearning(DML)做过比较吗?
  A3:做过比较。DoubleMachineLearning是一个半参的方法。我们这篇工作更关注于treebased方法,所以选用的baselearner都是一些tree或forest等相关的方法。表格中的DMLRF是DoubleMachineLearning版的RandomForest。
  相比于DML,GBCT主要是在考虑如何利用历史的对照数据。在对比方法中,会把历史的outcome直接作为协变量处理,但这种处理方法显然没有把信息用得很好。
  Q4:业务中可能会遇到的比较相似的问题是,离线可能会有选择偏倚。但是线上的偏倚可能会和离线的偏倚存在一些偏差。此时在离线做效果评估时,可能没有办法非常准确地对离线效果进行估计。
  A4:这个问题在金融场景是一个非常本质的问题。在搜推广中可以通过在线学习或者ABtest部分克服离线与在线之间的差异。在金融场景,受政策影响不能轻易地在线上做实验;另外表现的观测周期通常较长,如信贷产品观察到用户的反馈需要至少1个月的观测时间。因此实际上很难完美地解决这个问题。
  我们一般采取如下方式:在离线评估时使用不同时期(OOT)的测试数据去做验证,观察其表现的鲁棒性。如果测试表现比较稳定的,那么相对来说更有理由相信其在线上的表现也是不错的。
  参考文献
  〔1〕Tang,C。Z。,Wang,H。,Li,X。,Cui,Q。,Zhang,Y。L。,Zhu,F。,Li,L。,Zhou,J。(2022)。DebiasedCausalTree:HeterogeneousTreatmentEffectsEstimationwithUnmeasuredConfounding。AdvancesinNeuralInformationProcessingSystems36,16。https:openreview。netforum?idB26CPuYw9VA
  〔2〕Li,X。,Li,Y。,Cui,Q。,Li,L。,Zhou,J。(2022)。RobustDirectLearningforCausalDataFusion。ACML2022LongOral。https:arxiv。orgabs2211。00249
  今天的分享就到这里,谢谢大家。
  分享嘉宾
  崔卿博士蚂蚁集团高级算法专家
  崔卿于2015年从清华大学数学系博士毕业,2015年加入阿里巴巴,2015年至2018年在阿里云从事大规模机器学习平台和强化学习平台的研发,2018年加入蚂蚁集团后,主要负责可解释平台和因果推断平台的业务应用和技术研发工作。
  DataFun新媒体矩阵
  关于DataFun
  专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100线下和100线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号DataFunTalk累计生产原创文章800,百万阅读,15万精准粉丝。

一场持续22年的谎言,是谁制造了天才指挥家舟舟?本文作者谢必安责任编辑柳叶叨叨策划蓝橙相信很多人知道一本书,叫做天才在左,疯子在右。在现实世界里,天才和疯子总给人一种重合感。他们有着一样的癫狂和偏执,有着一样的自我和痴狂他们同时在卢森堡感受春晚卢森堡青年合唱团在演出。刘军摄光明图片1月30日晚,卢森堡南部城市蒙多夫莱班莎比托剧场灯火通明,鼓乐喧天由中国卢森堡文化交流中心主办的卢森堡中国春节晚会正在这里举行。这场晚会得到卢不甘心只卖面包,烘焙界老baby巴黎贝甜要抢餐馆生意了?随着防疫政策对生活限制的减少,人们逐渐回归线下消费,一些跨国餐饮企业再次重启对中国市场的布局。近日,商业那点事儿小编注意到,巴黎贝甜在上海开出了中国首家PARISBAGUETTEB折叠屏iPhone设计曝光,iPhone14为新机让路跌至白菜价据报道,苹果最早将于明年推出其首款可折叠屏幕iPhoneFlip,根据iPhoneFlip的最新渲染图,这款手机采用6。8英寸RetinaXDR显示屏。外面的一个小子屏幕显示时间和新白娘子传奇未解之谜水漫金山,到底是谁的错?水漫金山之前,都发生了什么?许仙刚刚度过人生的第二次牢狱之灾,在镇江与白素贞重逢。小青在清风洞养伤尚未归来,而许仙认识的新朋友徐乾,对画中的小青起了色心。徐乾,镇江人士,经营南北药油烟机是选顶吸还是侧吸的好?很多人都错了,看完这些再选,就不会选错了在现代家居生活中,油烟机基本已经是家家户户厨房必装的电器之一了。市面上的油烟机种类非常多,大体又分为两种常见的类型,第一种就是顶吸式油烟机另一种就是侧吸式油烟机。对于这两种油烟机,9。1分守不住了!狂飙反派强行降智,它本可以是一部神剧的电视剧狂飙终于结局了,和挖片君当初推断的一样。大老虎是何黎明,而黄瑶则是扳倒高启强的最有力一击。然而,最后两集还是很仓促很赶,总体来说,有点虎头蛇尾的感觉,配不上前35集编剧的水准去年我国送出超4。2万亿元税费政策红包新华社北京1月31日电国家税务总局副局长王道树31日介绍,2022年全年,我国新增减税降费及退税缓税缓费超过4。2万亿元,为助力稳住宏观经济大盘发挥了重要作用。在国家税务总局当天举1082亿元!西咸新区招商引资迎来开门红!1月31日西咸新区秦创原总窗口2023招商引资项目集中签约仪式举行167个项目成功签约总投资1082。49亿元新年伊始,西咸新区就开始运筹帷幄,抢机遇抓招商攻项目促发展,为提振全区胡鑫宇事件的恐怖思考胡鑫宇事件始末的冷静思考胡鑫宇事件的大瓜快吃完了,离新闻发布会召开已经不到十二个小时的时间了。我自始至终关注了事件的整个发酵过程,明天官媒的新闻发布会定会出来一个让很多人不满意的结嘉定再添两家全国休闲农业与乡村旅游四星级企业!近日,中国休闲农业与乡村旅游协会公布了2022年全国第二批休闲农业与乡村旅游星级企业名单上海嘉朱生态桂花园发展有限公司上海绿洲嘉北农业发展有限公司入围四星级企业!这两处景点有什么好
微软延长WindowsServer2012和R2上的Edge浏览器支持IT之家1月24日消息,本月早些时候,微软结束了对Windows7和8。1的支持。此外,微软还停止在过时的平台上支持Edge浏览器。然而几天前,微软对该计划稍作了修改,使用Wind买新还是买旧?聊聊该怎么买RTX40系新游戏本在3C数码圈里有一句老古话叫买新不买旧,可能是因为数码产品迭代速度都很快,所以为了追逐新潮的技术,老一辈消费者都在劝你买最新产品。但是在2023年,笔记本电脑行业不适用这套理论,因钻石镶牙上?!她这是准备绝食还是有钱烧的慌啊咱就是说,这个世界上恐怕没有比卡戴珊更爱钻石的人了吧大人冲浪的时候,看到了卡戴珊的新装备钻石牙套。可真是有钱任性啊!没有别的意思,就是单纯的好奇,这不刮嘴吗?(也不知道有没有富婆能纳达尔这台网球机器,难道真的快要散架了吗?生于1986年6月的拉斐尔纳达尔,自2001年转入职业网坛以来,至今已历22载。在漫长的22年职业生涯中,纳达尔宛如一台网球机器,从一开始的西班牙追风少年,筚路蓝缕,披荆斩棘,直到国乒教练组官宣!王楚钦受照顾,王曼昱奥运前景堪忧,孙颖莎占优国乒教练组官宣!王楚钦受照顾,王曼昱奥运前景堪忧,孙颖莎占优。国乒公布了最新的教练分管情况,除了孙颖莎,林高远,梁靖崑外,另外7位国乒主力都更换了主管教练,其中王楚钦明显是受到了照新研究可能将复杂生命的进化与基因的ampampquot暗物质ampampquotmicroRNA联系起来新的研究表明,microRNA在大脑的高级发展中起着关键作用,包括在人类中。章鱼以其非凡的智慧吸引了科学家和公众,从使用工具到参与创造性游戏解决问题,甚至从水族馆逃出。现在,它们的光子拓扑孤子形状像烟圈的光表现得像粒子研究人员报告了一个新的非常不寻常的由三维拓扑孤子组成的结构化光家族光子拓扑孤子,其中的拓扑纹理和拓扑数字可以自由和独立地进行调整。我们在日常生活中经常可以发现一个局部的波结构,在传单局限时赛签表更新!霍尔特顶替傅家俊!丁俊晖时隔10年再冲首胜2022到2023赛季的斯诺克职业联赛进入到下半程的对决。在北京时间的2023年1月25日全新的斯诺克职业联赛的分站赛单局限时赛将一触即发。中国军团也再次向冠军发起挑战!就在单局限绑定北约,欧盟与防务自主目标渐行渐远据路透社报道,欧盟与北约近日签署欧盟北约合作联合宣言,承认北约是盟国集体防御和安全的基础,提出将双方的伙伴关系提高到新的水平。专家分析指出,在安全挑战加剧的背景下,联合宣言凸显欧洲明日正月初四,初四3要做,不做一场空,3要做分别指啥?头条创作挑战赛文茶人小谈01hr正月初四,三羊开泰,据传,这一天是灶王爷查户口的日子,人们要恭迎灶神回民间。在我们当地,流传的习俗颇多,主要是围绕两个方面来展开,一个是添财,另外一正月初三,一起贴赤口天南地北大拜年春节,一个拥有多种习俗的节日。今天是正月初三,是贴赤口的日子。赤口,在中国民间传说中是一种恶神,主斗讼之事。根据传统习俗,农历正月初三这天,容易与人发生口角争执,而为
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网