范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

通俗易懂05梯度提升决策树GBDT

  视频详解:通俗易懂-三哥讲机器学习-05-机器学习-梯度提升决策树-GBDT1.GBDT算法
  GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,是一种迭代的决策树算法,又叫 MART(Multiple Additive Regression Tree),它通过构造一组弱的学习器(树),并把多颗决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。
  GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。
  1.1 应用场景1、用于自动挖掘有效特征、特征组合 2、作为LR模型中的特征,提高CTR预估 3、GBDT应用于淘宝的搜索及预测业务 1.2 Boosting核心思想
  Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。
  Bagging 与 Boosting 的串行训练方式不同,Bagging 方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。
  2、GBDT详解GBDT的原理所有弱分类器的结果相加等于预测值。 每次都以当前预测为基准,下一个弱分类器去拟合误差函数对预测值的残差(预测值与真实值之间的误差)。 GBDT的弱分类器使用的是树模型(cart)。
  如图是一个非常简单的帮助理解的示例,我们用 GBDT 去预测年龄: 第一个弱分类器(第一棵树)预测一个年龄(如20岁),计算发现误差有10岁; 第二棵树预测拟合残差,预测值 6,计算发现差距还有 4 岁; 第三棵树继续预测拟合残差,预测值 3,发现差距只有 1 岁了; 第四课树用 1 岁拟合剩下的残差,完成。
  最终,四棵树的结论加起来,得到30岁这个标注答案(实际工程实现里,GBDT 是计算负梯度,用负梯度近似残差) GBDT计算流程
  1、GBDT与负梯度近似残差
  回归任务下,GBDT在每一轮的迭代时对每个样本都会有一个预测值,此时的损失函数为均方差损失函数:
  损失函数的负梯度计算如下:
  可以看出,当损失函数选用「均方误差损失」时,每一次拟合的值就是(真实值-预测值),即残差。 2、GBDT训练过程
  我们来借助1个简单的例子理解一下 GBDT 的训练过程。假定训练集只有4个人(A、B、C、D),他们的年龄分别是(14,16,24,26)。其中,A、B分别是高一和高三学生;C、D分别是应届毕业生和工作两年的员工。
  我们先看看用回归树来训练,得到的结果如下图所示:
  接下来改用 GBDT 来训练。由于样本数据少,我们限定叶子节点最多为2(即每棵树都只有一个分枝),并且限定树的棵树为2。 最终训练得到的结果如下图所示:
  上图中的树很好理解:A、B年龄较为相近,C、D年龄较为相近,被分为左右两支,每支用平均年龄作为预测值。 我们计算残差(即「实际值」-「预测值」),所以 A 的残差 14-15=-1 。 这里 A的「预测值」是指前面所有树预测结果累加的和,在当前情形下前序只有一棵树,所以直接是15 ,其他多树的复杂场景下需要累加计算作为 A 的预测值。
  上图中的树就是残差学习的过程了: 把 A、B、C、D 的值换作残差 -1、1、-1、1,再构建一棵树学习,这棵树只有两个值 1 和 -1,直接分成两个节点:A、C 在左边,B、D在右边。 这棵树学习残差,在我们当前这个简单的场景下,已经能保证预测值和实际值(上一轮残差)相等了。 我们把这棵树的预测值累加到第一棵树上的预测结果上,就能得到真实年龄,这个简单例子中每个人都完美匹配,得到了真实的预测值。
  最终的预测过程是这样的: A:高一学生,购物较少,经常问学长问题,真实年龄 14 岁,预测年龄A=15-1=14 B:高三学生,购物较少,经常被学弟提问,真实年龄 16 岁,预测年龄B=15+1=16 C:应届毕业生,购物较多,经常问学长问题,真实年龄 24 岁,预测年龄C=25-1=24 D:工作两年员工,购物较多,经常被学弟提问,真实年龄 26 岁,预测年龄D=25+1=26
  综上,GBDT 需要将多棵树的得分累加得到最终的预测得分,且每轮迭代,都是在现有树的基础上,增加一棵新的树去拟合前面树的预测值与真实值之间的残差。 3.梯度提升 vs 梯度下降
  下面我们来对比一下「梯度提升」与「梯度下降」。这两种迭代优化算法,都是在每1轮迭代中,利用损失函数负梯度方向的信息,更新当前模型,只不过: 梯度下降 中,模型是以参数化形式表示,从而模型的更新等价于参数的更新。
  梯度提升 中,模型并不需要进行参数化表示,而是直接定义在函数空间中,从而大大扩展了可以使用的模型种类。
  3.GBDT优缺点1)优点预测阶段,因为每棵树的结构都已确定,计算速度快。 适用稠密数据,泛化能力和表达能力都不错,数据科学竞赛榜首常见模型。 可解释性不错,鲁棒性亦可,能够自动发现特征间的高阶关系。 2)缺点GBDT 在高维稀疏的数据集上,效率较差,且效果表现不如 SVM 或神经网络。 适合数值型特征,在 NLP 或文本特征上表现弱。 训练过程无法并行,工程加速只能体现在单颗树构建过程中。 4.随机森林 vs GBDT1)相同点都是集成模型,由多棵树组构成,最终的结果都是由多棵树一起决定。 RF  和  GBDT  在使用  CART  树时,可以是分类树或者回归树。 2)不同点训练过程中,随机森林的树可以并行生成,而  GBDT  只能串行生成。 随机森林的结果是多数表决表决的,而  GBDT  则是多棵树累加之。 随机森林对异常值不敏感,而  GBDT  对异常值比较敏感。 随机森林降低模型的方差,而  GBDT  是降低模型的偏差。 代码演示-GBDT数据集 随机生成 sklearn 可视化决策树插件 Download:https://graphviz.org/download/ 决策树插件安装文档:https://blog.csdn.net/u012744245/article/details/103360769

皇马为19岁天才拼了报价1亿年薪1200万,佛爷亲自谈判皇马的引援头号目标,不是姆巴佩,而是贝林厄姆。12月27日,塞尔电台科贝电台等媒体纷纷爆料,皇马将开启对贝林厄姆的攻势,1亿欧元转会费,1200万欧元的年薪,10亿欧元的违约金,志费利佩2分钟2球,成都蓉城收获凤凰山主场两连胜,锁定联赛前五!今日(12月27日)下午3时,中超联赛第33轮,成都蓉城队坐镇凤凰山体育公园专业足球场迎战武汉长江队。90分钟战罢,成都蓉城队凭借罗慕洛的进球和费利佩的梅开二度,3比1逆转击败对手超2亿股权冻结董事长被开除,失去恒大集团的广州队何去何从?记者张熹珑编辑暴雷的地产商带不动江河日下的足球队。据天眼查信息,广州足球俱乐部因大股东恒大地产集团有限公司被执行案,超2。24亿元股权目前处于冻结状态。广州足球俱乐部股份有限公司成中国品牌型卖家的销售额同比实现双位数强劲增长12月26日,同心笃行,共创长赢2022年亚马逊全球开店跨境峰会隆重开幕,这是亚马逊全球开店连续第八年举办这一中国出口跨境电商行业的年度盛会。峰会上,亚马逊全球开店回顾了2022年(体育)引领中国滑雪火下去专访中国滑雪协会副主席郑良程新华社北京12月27日电题引领中国滑雪火下去专访中国滑雪协会副主席郑良程新华社记者卢星吉以2022年北京冬奥会为契机,滑雪运动火遍了大江南北。眼下正值冬奥后首个雪季,中国滑雪协会和中国葡萄酒庄园宁夏贺兰山银色高地银色高地的先锋已毋需多言宁夏贺兰山东麓,第一个用橡木桶陈酿第一个走星级酒店高端路线第一个出口波尔多(目前占宁夏葡萄酒出口总值的50以上)第一批被世界葡萄酒地图收录,以及中国第一个车CBA名将曾令旭正式离开新疆男篮!投奔阿的江,加盟宁波富邦CBA将在第二个窗口期开放球员注册通道根据CBA相关负责人表示,CBA将在第二个窗口期开放球员注册通道,届时CBA各支球队都可以进行球员的交易注册,这也意味着CBA自由市场再次开放全世界的朋友们,中国游客又要重新回来啦!你们开不开心?这里是刘小顺的旅行和生活研究所。国家卫健委近日正式发布通告,将新冠病毒更名为新冠感染,而且将在2023年1月8日起,对新冠实施乙类乙管,并取消入境全员核酸检测和集中隔离。这个重磅消写给高二外甥的短信琦,你妈妈不舒服,你在家多注意防护,也要多照顾妈妈和妹妹。你现在长大了,有很多话舅舅想跟你说说,总希望自己的经历能让你少走一些弯路。纵观历史长河,咱们是多幸福的一代人,远离战乱,吃高质量的语录被讨厌的勇气是一本很不错的书,我看过2遍,很受益。这本书会教你如何接纳自己的不完美,拥有这份被讨厌的勇气,人生能自由轻松很多,所以分享几点我的感悟,希望也你会喜欢。第一点书中提到重你还记得那让你难以忘怀的邂逅吗?记得很久很久以前,很流行一句话想要最浪漫的邂逅就去云南吧可对于我来说,最难忘的是那次在火车上的遇见。那还是我刚参加工作不久,在一次年休假再加上五一长假,我一个人出门旅游,目的地是深
二胎给女性带来了什么?这是我听过的最真实的回答1最近看到一条微博热搜妇联督促将生第5胎女子的丈夫回家25岁怀第5胎女子称被评论气得吃不下并无带货目的,遭非议倍感委屈一名女子在网上发布视频称自己生了四个女儿后又意外怀孕,丈夫担心宝宝满月头是不是必须剃,看看这篇就知道了一直以来,给宝宝剃满月头也就是剃胎毛几乎是大部分家庭都会做的事情。老一辈认为,剃了满月头后,宝宝新长出来的头发会更浓密乌黑,那么,事情真的是这样吗?一给宝宝剃了满月头宝宝的头发就能张庭夫妇涉嫌传销彻底凉了,谁最开心张庭也算是国内最早入驻微商行业的明星,她接连在自己的微博上转发并评论了多条感谢自己赠送护肤品的微博,常在河边走,哪有不湿鞋,去年12月29日就有报道称张庭夫妇公司涉嫌传销被查处,经让人忍不住弃剧的8位女星,长得都很漂亮,但观众就是不想看文娱情故纵编辑娱情故纵前言长得美丽身材好的女星在内娱可以说并不少,但是真正有演技能够将影视剧撑起来的女演员却并不多,而很多时候美丽和演技真的是难以并存。尤其是不少长得貌美如花的女演李少莉调查结果公布前,风波过后又再次出现风波李少莉她可能怎么样也没有想到,一场疫情发布会,既然让自己在一夜之间就爆红网络,并冲上热搜排行榜单,并且会受到广大网友的持续关注。李少莉她本是呼和浩特副局长,因为在疫情防控发布会上精著名演员张馨予嫁何捷当军嫂,婚后生一女,日子红红火火有滋味关注我,每天带来名人感动的故事!2018年,张馨予与何捷牵手步入婚姻的殿堂。对于张馨予,铁汉柔情地说我不管她是不是女明星,在我心中,她只是一个善良的好女孩,我只想要用我的一生去呵护李晓峰疑似承认与刘恺威恋情!两人牵手做核酸,关系十分亲密近日,有关刘恺威与李晓峰的绯闻消息越来越多,许多媒体纷纷爆料,也有网友在是交平台上晒出偶遇两人牵手散步同游径山寺的照片,不过由于两人打扮得十分严实,看的不是很清楚,但是细心地网友也这4位不上综艺,不接广告的男明星,打了多少明星的脸,活得清醒娱乐圈是一个神奇的圈子,有人拼命上各种综艺,接各种广告,却不好好搞作品。而有人完全没有上各种综艺和接广告的意思,只想当一名靠实力说话的演员。今天我们就来盘点一下娱乐圈里不上综艺,不出身普通家庭,37岁嫁百亿富豪,47岁手握半个娱乐圈,她凭什么?文贵圈毒姐娱乐圈很多女星都塑造过苏妲己的形象,其中最让人记忆犹新的应该是傅艺伟和温碧霞两个版本。但如果说到最妖娆的苏妲己,那么非罗海琼莫属。在罗海琼的演艺生涯中,为大家奉献了很多精52岁钟丽缇疑似怀四胎!在医院下跪对老公表白,素颜出镜脸色苍白近日,知名性感女星钟丽缇在社交平台上晒出一则去医院的视频,瞬间便引发了网友们的热议,纷纷都在议论她是否已经怀上了四胎,毕竟目前钟丽缇已经是52岁的年龄了,这对于女性来说已经算的上是12年前,宁坐宝马车哭,不坐单车笑的马诺,如今34岁仍然单身在阅读此文之前,麻烦您点击一下关注,既方便您进行讨论与分享,又给您带来不一样的参与感,感谢您的支持!前言2010年,非诚勿扰节目的舞台上,面对一个月薪只有3000元,喜爱骑单车的小