童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

机器学习决策树的生成过程是怎样?(一)

4月12日 辞凤阙投稿
  本文笔者将用具体例子讲述决策树的构建过程,分析:决策树生成过程中有什么样的问题?
  一、基本概念
  决策树的定义:
  首先,决策树是一种有监督的分类算法即给定X,Y值,构建X,Y的映射关系。
  不同于线性回归等是多项式,决策树是一种树形的结构,一般由根节点、父节点、子节点、叶子节点构成如图所示。
  父节点和子节点是相对的,子节点可以由父节点分裂而来,而子节点还能作为新的父节点继续分裂;根节点是没有父节点,即初始分裂节点,叶子节点是没有子节点的节点,为终节点。
  每一个分支代表着一个判断,每个叶子节点代表一种结果。
  这是在已知各种情况的发生的概率的基础上,通过构建决策树来进行分析的一种方式。
  预测方式:
  根据输入的样本X的特征属性和决策树的取值,将输入的X样本分配到某一个叶子节点中。
  将叶子节点中出现最多的Y值,作为输入的X样本的预测类别。
  目的:
  最优的模型应该是:叶子节点中只包含一个类别的数据。
  但是,事实是不可能将数据分的那么的纯,因此,需要“贪心”策略,力争在每次分割时都比上一次好一些,分的更纯一些。
  二、决策树构建过程
  步骤一:将所有的特征看成一个一个的节点,eg(拥有房产、婚姻状态、年收入这些特征,我们可以看成一个一个的节点。)
  步骤二:遍历当前特征的每一种分割方式,找到最好的分割点eg(婚姻状态这个特征,我们可以按照单身、已婚、离婚进行划分;也可以按照结过婚、没有结过婚进行划分);将数据划分为不同的子节点,eg:N1、N2。Nm;计算划分之后所有子节点的“纯度”信息
  步骤三:使用第二步遍历所有特征,选择出最优的特征,以及该特征的最优的划分方式,得出最终的子节点N1、N2。Nm
  步骤四:对子节点N1、N2。Nm分别继续执行23步,直到每个最终的子节点都足够“纯”。
  从上述步骤可以看出,决策生成过程中有两个重要的问题:
  对数据进行分割。
  选择分裂特征。
  什么时候停止分裂。
  1。对数据进行分割
  根据属性值的类型进行划分:
  如果值为离散型,且不生成二叉决策树,则此时一个属性就是可以一个分支,比如:上图数据显示,婚姻状态为一个属性,而下面有三个值,单身、已婚、离婚,则这三个值都可以作为一个分类。
  如果值为离散型,且生成二叉决策树,可以按照“属于此子集”和“不属于此子集”分成两个分支。还是像上面的婚姻状态,这可以按照已婚,和非婚,形成两个分支。
  如果值为连续性,可以确定一个值作为分裂点,按照大于分割点,小于或等于分割点生成两个分支,如上图数据,我可以按照6千元的点划分成:大于6千元和小于6千元。
  2。找到最好的分裂特征
  决策树算法是一种“贪心”算法策略只考虑在当前数据特征情况下的最好分割方式。
  在某种意义上的局部最优解,也就是说我只保证在当分裂的时候,能够保证数据最纯就好。
  对于整体的数据集而言:按照所有的特征属性进行划分操作,对所有划分操作的结果集的“纯度”进行比较,选择“纯度”越高的特征属性作为当前需要分割的数据集进行分割操作。
  决策树使用信息增益作为选择特征的依据,公式如下:
  H(D)为:分割前的纯度。
  H(DA)为:在给定条件A下的纯度,两者之差为信息增益度。如果信息增益度越大,则H(DA)越小,则代表结果集的数据越纯。
  计算纯度的度量方式:Gini、信息熵、错误率。
  一般情况下,选择信息熵和Gini系数,这三者的值越大,表示越“不纯”。
  Gini:
  信息熵:
  错误率:
  3。什么时候停止分裂
  一般情况有两种停止条件:
  当每个子节点只有一种类型的时候停止构建。
  当前节点中记录数小于某个阈值,同时迭代次数达到给定值时,停止构建过程。此时,使用max(p(i))作为节点的对应类型。
  方式一可能会使树的节点过多,导致过拟合(Overfiting)等问题。所以,比较常用的方式是使用方式二作为停止条件。
  三、举例
  数据集如下:
  1。对数据特征进行分割
  拥有房产(是、否)
  婚姻状态(单身、已婚、离婚)
  年收入(80、97。5)
  2。通过信息增益找到分割特征
  首先,计算按照拥有房产这个特征进行划分的信息增益,使用错误率进行纯度的计算:
  计算原始数据的纯度:
  计算按拥有房产划分后的结果集数据纯度H(DA):
  H(DX有房产)的计算方式:
  H(DX无房产)的计算方式:
  计算信息增益度Gain(房产):
  同理,可以计算:婚姻状态年收入97。5
  Gain(婚姻)0。205
  Gain(婚姻)0。395
  按照Gain越大,分割后的纯度越高,因此第一个分割属性为收入,并按照97。5进行划分。
  左子树的结果集够纯,因此不需要继续划分。
  接下来,对右子树年收入大于97。5的数据,继续选择特征进行划分,且不再考虑收入这个特征,方法如上,可以得到如图:
  四、常见算法
  ID3:
  优点:决策树构建速度快;实现简单
  缺点:
  计算依赖于特征数目较多的特征,而属性值最多的属性并不一定最优。
  ID3算法不是递增算法,ID3算法是单变量决策树,对于特征属性之间的关系不会考虑。
  抗噪性差。
  只适合小规模数据集,需要将数据放到内存中。
  C4。5:
  在ID3算法的基础上,进行算法优化提出的一种算法(C4。5),使用信息增益率来取代ID3中的信息增益。
  CART(ClassificationAndRegressionTree):
  五、总结
  ID3和5算法均只适合在小规模数据集上使用。
  ID3和5算法都是单变量决策树当属性值取值比较多的时候,最好考虑C4。5算法,ID3得出的效果会比较差决策树分类一般情况只适合小数据量的情况(数据可以放内存)CART算法是三种算法中最常用的一种决策树构建算法(sklearn中仅支持CART)。
  三种算法的区别仅仅只是对于当前树的评价标准不同而已,ID3使用信息增益、5使用信息增益率、CART使用基尼系数。
  CART算法构建的一定是二叉树,ID3和5构建的不一定是二叉树。
投诉 评论

预测技术智能化,机器学习是第一功臣历史上,预测的主流分析方法是使用数据挖掘的一系列技术,而这其中被经常使用的是一种被称为“回归”的统计技术。但是回归分析对于历史数据的无偏差预测的渴求,并不能保证未来预测数据的准……应用层下的人脸识别(四):人脸研判作者根据多年人脸识别项目经验,总结了人脸识别技术在安防、商业领域应用及产品设计细节,汇总成应用层下的人脸识别系列文章。本文为系列文章的第四篇,从什么是人脸研判及人脸研判类型和应……亚洲十大最恐怖灵异事件:件件骇人听闻重庆红衣男孩事件是怎么回1、泰国拉达村灵异事件拉达村原是泰国清迈的旅游胜地,30年前发生一起灭门惨案,凶手至今不知下落。灭门惨案发生后村民和游客开始纷纷遭遇匪夷所思的灵异事件,鬼地方之名不胫而走……AI合成人脸你能分辨出哪个小姐姐是真的吗?AI合成真假难辨的人脸,在没看攻略之前,你还能正确地做出分辨吗?自2018年12月英伟达推出StyleGAN以来,合成人脸已经让人难以轻易分辨。特别是……售后智能客服:店小蜜用户体验地图智能客服店小蜜就是聊天机器人中的一种,今天主讲应用于电商领域的店小蜜中NLP纯文本人机协助售后服务部分的用户研究。enjoy一、背景图灵在1950年提出“机器能思考……AI产品经理数据模型设计文档(简版)目前数据、算法、AI产品经理岗位十分热门,本文写给想要入行这方面的新人们,带大家一起了解一下什么是数据模型设计文档。有一些产品童鞋不惜花很大的力量想要看看数据模型设计文档……你们把AI吹上了天,但它却依然没4岁的小孩聪明四岁的孩子能快速识别出猫和理解单词的意思,他们也能做出创造性的、令人惊讶的新推断,这些推断也远远超出他们的经验范畴,而AI的学习能力和他们比相去甚远。有研究表明,人工智能……想靠AI精准抄底,结果恐怕会让你怀疑人生开年后的股市,似乎迎来了一个春天,各路“股神”纷纷出面,声称用AI技术预测趋势教大家炒股。利用人工智能模型预测股市,真的会让散户们跑赢大盘赚到怀疑人生?经历了漫长熊市的A……强化学习中,如何从稀疏和不明确的反馈中学习泛化?强化学习(RL)为优化面向目标的行为提供了一个统一而灵活的框架,在解决诸如玩电子游戏、连续控制和机器人学习等具有挑战性的任务方面取得了显著的成功。在这些应用领域中,RL算法的成……MetaNMT:来自MAML与NLP的温柔救赎新神经机器翻译方法MetaNMT一经提出,就凭借其在低资源神经机器翻译上的优越性能表现而备受学界褒奖。MetaNMT的优异表现还要归功于MAML与模型无关的元学习,使得Meta……巨头加持,AI养猪是不是一门好生意?阿里AI养猪、京东猪脸识别、网易猪场,一时间国内的的互联网巨头纷纷下乡改造,每家都声称自己投入了上亿。巨头加持会不会正改变养殖业的商业模式?其中又运用了哪些技术和方法?本文笔者……机器学习决策树的生成过程是怎样?(一)本文笔者将用具体例子讲述决策树的构建过程,分析:决策树生成过程中有什么样的问题?一、基本概念决策树的定义:首先,决策树是一种有监督的分类算法即给定X,Y值,构……
TikTok在多地启动HTML5小游戏试点Netflix也在经过数月报道,以短视频服务而为大家所熟知的TikTok,终于在多个市场区域推出了基于HTML5的小游戏。作为一个试点项目,包括美国在内的许多地区用户,现都能够在其上传的视频中附……微信:二季度8家小游戏主体被纳入“非诚信”名单永久取消激励政站长之家(ChinaZ。com)8月4日消息:日前,微信团队公布了违反“小游戏用户运营规范”处罚公示,第二季度,共有8个主体,被纳入平台“非诚信经营主体”名单。微信团队表……快手电商公私域循环双轮驱动商家增长覆盖50万冷启商家8月4日消息,在杭州举办的以“新需求,新供给,新流量”为主题的“2022造风者:快手电商服务商大会”上,快手电商负责人笑古对快手电商的新流量策略和新经营逻辑做了解读。他表示,“……单场GMV破百万,场观超50万,新“私域三件套”好用!2020年5月,见实曾在《私域新组合白皮书》中提出“社群私域直播小程序”的私域运营四件套,曾一度成为行业运用最多的打法,并几乎成为零售行业的标配。彼时,视频号刚刚推出,疫……波奇宠物怎么用社媒开启全域布局第一步?一个立体且完整的品牌,如何在当下即维护好存量,也可以持续地寻找新的增长。线上公私域与线下的一体化发展,称为全域,这个角度并不新。平台之间流量拉锯战背后,推到大家面前的现象……你要做视频号的先驱还是先烈?视频号相较于其它短视频直播平台最大的区别在于“微信生态离用户更近,而其他平台离信息更近”;视频号是一项功能而不是一个独立的平台,不能只是为了做视频号而做视频号;视频号做得早了会……餐饮行业老板们的私域自救指南疫情之下餐饮行业有多难?最近一有时间,就跑去调研。出了公司,沿着马路往前走,园区对面的廉价小超市、烘焙店味多美、川菜馆小三峡的门上,耷拉着重重的锁,就像8月份闷热的……你这背景太假了,但一周涨粉360万是真的新榜专访文章目录“你这背景太假了”成鬼畜新顶流,全网播放20亿曾经的“带货天花板”,如今的“第一特效师”阿力木难以复制“阿力木”互联网之大,无奇不有。有人……你这背景太假了主播火出了圈,涨粉200万!最近,你这背景太假了的梗火得一塌糊涂,究竟是怎么一回事,一起来看。01:你这背景太假了火出了圈,引发了网友的二次创作其起因是抖音卖蜂蜜的三农主播疆域阿力……直播带货乱象丛生主播为追求流量让鸡蛋长树上8月6日消息,据央视财经频道报道,根据中消协最新发布的消费维权报告,部分主播在带货农产品时违反常识。比如,有的主播为带货竟然可以让鸡蛋、草莓等长到树上,视频中出现了鸡蛋树……放弃亿万家产,就要做网红,圈粉百万的社恐搞笑男,原来是富豪二最近,花式炫富翻车的瓜一个接一个:周公子的朋友圈、王澄澄的直升机、中金员工老婆显摆老公工月入8万资单不过我们今天故事的主人公却是个“正面例子”。他靠炫富炫出了……20天B站涨粉80万,“疆域阿力木”凭什么?疆域阿力木属实是火了,只不过他走红的方式有些独特,不是靠出奇制胜的内容,而是靠着看起来非常像假的真背景吸引了众多网友的关注。疆域阿力木本名刘元杰,在他的抖音主页上他是这样……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界