AI产品经理必懂算法:决策树
2月6日 渡缘祠投稿 决策树(DecisionTree)是一种以树形数据结构来展示决策规则和分类结果的模型,它是将看似无序、杂乱的已知实例,通过某种技术手段将它们转化成可以预测未知实例的树状模型。
时隔半月,已近年关。AI产品经理必懂算法的第三篇终于来了,今天想和大家聊的是决策树,闲言少叙,切入正题。
先上定义,决策树(DecisionTree),又称判断树,它是一种以树形数据结构来展示决策规则和分类结果的模型,作为一种归纳学习算法,其重点是将看似无序、杂乱的已知实例,通过某种技术手段将它们转化成可以预测未知实例的树状模型,每一条从根结点(对最终分类结果贡献最大的属性)到叶子结点(最终分类结果)的路径都代表一条决策的规则。
说完了拗口的定义,老规矩,我们还是用比较通俗易懂的例子,来讲述决策树算法的原理。
决策树也是一种监督学习的分类算法,要求输入标注好类别的训练样本集,每个训练样本由若干个用于分类的特征来表示。决策树算法的训练目的在于构建决策树,希望能够得到一颗可以将训练样本按其类别进行划分的决策树。
案例:假设现在我们想预测的是,女性到底想要嫁什么样的人?我们现在手里拥有一些未婚男性的数据,其中包括了收入、房产、样貌、学历等字段。
提示:在构建决策树时,每次都要选择区分度最高的特征,使用其特征值对数据进行划分,每次消耗一个特征,不断迭代,直到所有特征均被使用为止。
如果还未使用全部特征,剩下的训练样本就已经具有相同类别了,则决策树的构建可以提前完成。
如果使用全部特征后,剩下的训练样本中仍然包含一个以上的类别,则选择剩下的训练样本中占比最大的类别作为这批训练样本的类别。
利用决策树的思想,首先我们要考虑的是,上述哪些条件在女性选择男友时最重要的考量指标?好了,假设我就比较在意收入、比较在意物质好了,那么我构建的决策树应该是什么样的呢?来张图大家就明白了。
释义:这张图想表达的意思就是说,我们从如下几个方面去判断,是否要嫁?首先,看其收入是否达到1w元,未达标的不嫁,从已经合格的人群中继续挑选,是否有房产,没有的不行,以此类推,我们将所有的重要指标都过滤一遍以后,就构建出一个完整的决策树了,在此之后,有任何男青年放在这儿,我们都能通过决策树,轻松预测出,此人是否可嫁?
我们来出个题试试,某男,风流倜傥、风度翩翩,但是没有独立房产,收入不固定、学历本科,那么到底要不要嫁呢?
图中的收入、房产、学历等都属于特征,每一个特征都是一个判断的节点,那些不可再向下延伸的就是叶子节点。可再分的称之为分支节点。
接下来了解下决策树算法的演进历史,这其中就包含了主流的几种决策树算法,顺便我们也可以了解一下这几种决策树的差别。
1。ID3(IterativeDichotomiser3)
J。R。Quinlan在20世纪80年代提出了ID3算法,该算法奠定了日后决策树算法发展的基础。ID3采用香浓的信息熵来计算特征的区分度。选择熵减少程度最大的特征来划分数据,也就是“最大信息熵增益”原则。它的核心思想是以信息增益作为分裂属性选取的依据。
存在的缺陷:该算法未考虑如何处理连续属性、属性缺失以及噪声等问题。
下面来介绍两个与此有关的概念:
信息熵是一种信息的度量方式,表示信息的混乱程度,也就是说:信息越有序,信息熵越低。举个列子:火柴有序放在火柴盒里,熵值很低,相反,熵值很高。它的公式如下:
信息增益:在划分数据集前后信息发生的变化称为信息增益,信息增益越大,确定性越强。
2。C4。5
J。R。Quinlan针对ID3算法的不足设计了C4。5算法,引入信息增益率的概念。它克服了ID3算法无法处理属性缺失和连续属性的问题,并且引入了优化决策树的剪枝方法,使算法更高效,适用性更强。
后续,在1996年Mehta。M等人提出了C4。5算法的改进算法SLIQ算法,该算法采用属性表、分类表、类直方图的策略来解决内存溢出的问题。
同样介绍一下信息增益率:在决策树分类问题中,即就是决策树在进行属性选择划分前和划分后的信息差值。
3。CART(ClassificationandRegressionTree)
Breiman。L。I等人在1984年提出了CART算法,即分类回归树算法。CART算法用基尼指数(GiniIndex)代替了信息熵,用二叉树作为模型结构,所以不是直接通过属性值进行数据划分,该算法要在所有属性中找出最佳的二元划分。CART算法通过递归操作不断地对决策属性进行划分,同时利用验证数据对树模型进行优化。
CART中用于选择变量的不纯性度量是Gini指数,总体内包含的类别越杂乱,GINI指数就越大(跟熵的概念很相似)。
2000年Rastogi。R等人以CART算法为理论基础,提出了PUBLIC(ADecisionTreeClassifierthatIntegratesBuildingandPruning)算法,剪枝策略更加高效。
当我们了解了决策树的大概情况之后,接下来就学习一下,如何构造决策树?
第一步:特征选择;第二步:决策树的生成;第三步:决策树的剪枝。
我们来着重介绍一下剪枝。
剪枝的目的:决策树是充分考虑了所有的数据点而生成的复杂树,有可能出现过拟合的情况,决策树越复杂,过拟合的程度会越高。考虑极端的情况,如果我们令所有的叶子节点都只含有一个数据点,那么我们能够保证所有的训练数据都能准确分类,但是很有可能得到高的预测误差,原因是将训练数据中所有的噪声数据都”准确划分”了,强化了噪声数据的作用。剪枝修剪分裂前后分类误差相差不大的子树,能够降低决策树的复杂度,降低过拟合出现的概率。
如何剪枝?
先剪枝:当熵减少的数量小于某一个阈值时,就停止分支的创建。这是一种贪心算法。
后剪枝:先创建完整的决策树,然后再尝试消除多余的节点,也就是采用减枝的方法。
注意事项:
决策树的生成对应模型的局部选择,决策树的剪枝对应于模型的全局选择。决策树的生成只考虑局部最优,决策树的剪枝则考虑全局最优。
说了这么多,我们来总结一下决策树算法的优、缺点,以便了解的更为深入。
优点:
决策树易于理解和实现。人们在通过解释后都有能力去理解决策树所表达的意义。
计算复杂度不高,输出结果易于理解,数据缺失不敏感,可以处理不相关特征。
缺点:
容易过拟合。
对于各类别样本数量不一致的数据,在决策树当中信息增益的结果偏向于那些具有更多数值的特征。
投诉 评论 聊天机器人的3个趋势,及CUI的优势分析本文介绍聊天机器人的三个发展趋势,并对CUI的优势进行分析和相关案例介绍。随着机器人市场走过炒作阶段,迈入成熟期,许多人意识到聊天机器人还有很多发展空间,但短时间内还不会……
AI产品经理,如何从零开始设计一款麻将助手?在打麻将的时候,如果有一个麻将助手在我旁边帮我看牌就好了好的产品经理是场景和技术的连接器,把最先进的技术应用到最合适的场景中,解决实际问题,实现技术落地,产生效益。在生活……
安全、体验、技术至上:刷脸支付这样一路走向我们身边随着人脸识别技术的逐步推进,“刷脸”支付技术已经开始走进我们的生活。正如你所见,AI技术也经历着一个慢慢成长的过程,然后走向我们身边。所有节日中,春节无疑是最有购物仪式感……
AI正在疯狂寻找KnowHowKnowHow,指的是工匠时代师傅对徒弟口传心授的“行业秘诀”,之于AI行业来说,KnowHow也是至关重要的。行业AI、产业AI、产业互联网,这些词在今天都已经变成了热……
一只蝴蝶挥了挥翅膀,于是有了AI读心术“我的身体沉重如潜水钟,内心却渴望像蝴蝶般自由飞翔。”这句来自电影《潜水钟与蝴蝶》的台词,也是前《ELLE》杂志主编、记者让多米尼克的真实经历。让多米尼克中风瘫痪后……
GUI与对话交互交叉背景下,如何做好对话交互的总结与思考作为2019年第一篇产出,本文着重探讨在GUI与对话交互交叉背景下,关于如何做好对话交互的一些总结与思考。百度DuerOS有一段关于对话式人工智能系统的描述”赋予万物与人……
新一年涨工资指南:AI薪资水平和就业前景分析AI方向的公司薪资有多高?哪些公司还在招AI人才?AI工程师薪水多少钱一个月?学人工智能专业未来工作前景如何?哪些高校有人工智能专业?人工智能学习和转岗的路径如何?AI应届生年……
强化学习的真正价值与现实难题强化学习的框架之争只是序曲,随着各种难度超乎想象的实际问题被一一解决,很多有趣的事情将会发生。假如你是应用开发者,不懂算法,又想开发一个带AI功能的APP,你会选择:……
聊天机器人的技术原理和未来的发展近年来,人工智能越来越火,那你们真的知道人工智能吗?一、人工智能是什么人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模……
AI产品经理必懂算法:决策树决策树(DecisionTree)是一种以树形数据结构来展示决策规则和分类结果的模型,它是将看似无序、杂乱的已知实例,通过某种技术手段将它们转化成可以预测未知实例的树状模型。……
打败有人设的,是有人性的产品当前时代,人工智能产品的成熟表现,大多依赖于后台算法的优化和数据库的扩容。换言之,机器还没有自主意识,“有多少人工,就有多少智能”,但经研究发现,为智能产品打造人格化形象已经逐……
在无人驾驶汽车普及之前,车联网都是扯淡“车联网”顾名思义,它不止与车有关,更与网络有关,所以不止是汽车厂商们趋之若鹜,互联网大头、网络运营商们也纷纷入局。在概念化的产品之中仿佛真的看见了一桶桶的真金白银,可像我这样……
AI基础:美女和野人过河问题AI是一个提升高级度的概念,真正的AI远远不是说说而已。笔者以AI算法的经典问题为例,阐释了问题的解决逻辑和办法,展示了算法的形成过程。AI(ArtificialInte……
智慧医疗,推动新型医疗服务建设随着“互联网”的应用不断延伸,医疗服务行业也可以通过互联网技术更好的为我们的健康服务,比如通过建立大数据病例库、人工智能,智能就医、看病,同时建立医学文献,推动医学发展、医疗科……
用户眼中的AI:大众AI认知调研报告(下)本篇是AI系列调查的第二篇,全文将从用户眼中的“智能”、智能硬件产品使用体验和小豹洞察三个部分,解读现在用户对于产品的智能感知程度、智能产品的购买决策和使用体验。说起“人……
Chatbot产品经理指北(一):发展历程笔者从2017年底开始接触chatbot的产品工作,深刻认识到这是一个快车道上的朝阳行业。和传统的按钮式产品相比,chatbot不仅使用对话交互,还有ai加持,这对产品经理提出……
AI浪潮下的产品经理生存指南AI时代下,产品经理的职责以及能力要求有了什么样的变化?为了符合这种趋势,产品经理又要关注哪些点呢?让我们来看正文吧:在AI产品经理这个概念开始兴起以后,经常有人问我,这……
AI医疗发展现状市场扫描(下篇):走出医院解读未来健康管理的医疗健康领域产业链极长,上文《AI医疗发展现状市场扫描(上篇)》介绍了AI医疗在医院场景中进行辅助诊断的价值和前景。本篇内容集中在院外场景,AI赋能健康管理领域。当患者走……
消除8个关于AI在商业中应用的错误观念人工智能是近几年的热门话题,AI商业应用也一直是各大企业的热门关注。关于AI应用,我们或多或少都听过关于它的一些“神话传说”,但是这些说法的真实性可能存在问题。对任何新兴……
AI为什么救不了“想上天”的猪?高科技行业开始智能养猪,但因为行业规模和时间线等原因,对当前猪肉价格的影响可能只是杯水车薪。过去数年,我们最常听到的六字箴言,叫做“科技改变生活”。从“新四大发明”……
普通人眼中的AI:大众AI认知调研报告(上)AI发展如火如荼,越来越多的AI产品落地,普通用户享受AI产品带来的便利,同时也对AI技术的发展抱有疑虑。人工智能(ArtificialIntelligence,AI),……
NLP在电商行业中的探索本文将通过最新的概念验证项目,盘点不同电子商务场景下的最新自然语言处理技术应用,深入了解电子商务行业中NLP技术应用的发展趋势。电子商务是目前在互联网相关产业中最为重要的……
AI:进入深灰地带AI技术的发展,给人类社会带来隐忧,机器学习的能力远比人类学习能力更强。未来,人类是否会被AI劫持呢?Zao火了,这背后是一项2016年就出现的技术大名鼎鼎的DeepFa……
纵观科技发展史,“AI互动课”风生水起的背后,AI教育路在何自从“AI”概念火热后,各行各业进行“AI”的都不在少数。而AI教育赛道也是近几年非常火热的话题之一。自2015年起,随着AI成为热门话题,“AI教育”也成为了教育领域最……