小白如何入门机器学习?
从五个方面带你入门机器学习: 什么是机器学习?工作流程是什么?机器学习算法有哪些?模型评估学习以及Azure机器学习模型搭建实验。 1什么是机器学习
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
2机器学习工作流程
1. 获取数据 2. 数据基本处理 3. 特征工程 4. 机器学习 ( 模型训练 ) 5. 模型评估
结果达到要求,上线服务
没有达到要求,重新上面步骤 2.1获取到的数据集介绍
数据简介
在数据集中一般: 一行数据我们称为一个样本 一列数据我们成为一个特征 有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)
数据类型构成: 数据类型一:特征值+目标值(目标值是连续的和离散的) 数据类型二:只有特征值,没有目标值
数据分割:
机器学习一般的数据集会划分为两个部分: 训练数据:用于训练,构建模型 测试数据:在模型检验时使用,用于评估模型是否有效
划分比例: 训练集:70% 80% 75% 测试集:30% 20% 25% 2.2数据基本处理
即对数据进行缺失值、去除异常值等处理 2.3特征工程
2.3.1什么是特征工程
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。 意义:会直接影响机器学习的效果
2.3.2 为什么需要特征工程(Feature Engineering)
机器学习领域的大神Andrew Ng(吴恩达)老师说"Coming up with features is difficult, time-consuming, requires expert knowledge.
"Applied machine learning" is basically feature engineering. "
注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
2.3.3 特征工程包含内容 特征提取 特征预处理 特征降维
2.3.4 各概念具体解释 特征提取
将任意数据(如文本或图像)转换为可用于机器学习的数字特征
特征预处理
通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程
特征降维
指在某些限定条件下,降低随机变量 ( 特征 ) 个数,得到一组 " 不相关 " 主变量的过程
2.4 机器学习
选择合适的算法对模型进行训练
2.5 模型评估
对训练好的模型进行评估 3 机器学习算法分类
根据数据集组成不同,可以把机器学习算法分为: 监督学习 无监督学习 半监督学习 强化学习 3.1 监督学习
定义:
输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。
3.1.1 回归问题
例如:预测房价,根据样本集拟合出一条连续曲线。
3.1.2 分类问题
例如:根据肿瘤特征判断良性还是恶性,得到的是结果是"良性"或者"恶性",是离散的。
3.2 无监督学习
定义:
输入数据是由输入特征值组成,没有目标值 输入数据没有被标记,也没有确定的结果。样本数据类别未知; 需要根据样本间的相似性对样本集进行类别划分。
举例:
有监督,无监督算法对比:
3.3 半监督学习
定义:训练集同时包含有标记样本数据和未标记样本数据。
举例: 监督学习训练方式:
半监督学习训练方式
3.4 强化学习
定义:实质是make decisions 问题,即自动进行决策,并且可以做连续决策。
举例:小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。
小孩就是 agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他
完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。
主要包含五个元素:agent, action, reward, environment, observation;
强化学习的目标就是获得最多的累计奖励。
监督学习和强化学习的对比:
拓展概念:什么是独立同分布:
独立同分布概念
拓展阅读:Alphago进化史 漫画告诉你Zero为什么这么牛:
Alphago进化史 漫画告诉你Zero为什么这么牛 4 模型评估4.1分类模型评估
准确率 预测正确的数占样本总数的比例。
其他评价指标:精确率、召回率、 F1-score 、 AUC 指标等 4.2回归模型评估
均方根误差( Root Mean Squared Error , RMSE ) RMSE是一个衡量回归模型误差率的常用公式。 不过,它仅能比较误差是相同单位的模型。
举例: 假设上面的房价预测,只有五个样本,对应的 真实值为:100,120,125,230,400 预测值为:105,119,120,230,410
那么使用均方根误差求解得
其他评价指标:相对平方误差( Relative Squared Error , RSE )、平均绝对误差( Mean Absolute Error , MAE) 、相对绝对误差 ( Relative Absolute Error , RAE) 4.3拟合
模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。
在训练过程中,你可能会遇到如下问题:
训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?
当算法在某个数据集当中出现这种情况,可能就出现了拟合问题。
4.3.1 欠拟合
因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。
欠拟合( under-fitting ):模型学习的太过粗糙,连训练集中的样本数据特征关系都没有学出来。
4.3.2 过拟合
机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。
过拟合(over-fitting):所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳. 上问题解答:
训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢? 5Azure机器学习模型搭建实验Azure平台简介
Azure Machine Learning(简称"AML")是微软在其公有云Azure上推出的基于Web使用的一项机器学习服务,机器学习属人工智能的一个分支,它技术借助算法让电脑对大量流动数据集进行识别。这种方式能够通过历史数据来预测未来事件和行为,其实现方式明显优于传统的商业智能形式。
微软的目标是简化使用机器学习的过程,以便于开发人员、业务分析师和数据科学家进行广泛、便捷地应用。
这款服务的目的在于"将机器学习动力与云计算的简单性相结合"。
AML目前在微软的Global Azure云服务平台提供服务,用户可以通过站点: https://studio.azureml.net/ 申请免费试用。
Azure 机器学习实验
实验目的:了解机器学习从数据到建模并最终评估预测的整个流程。
有没有比较性感的吊带裙?步入中年以后,许多女性觉得对她们来说,能够驾驭的兼具修身效果和时尚气息的单品是越来越少了,她们觉得好多单品不再适合自己穿了。这是正常现象,比较中年以后的穿搭风格要以优雅知性为主,那
准备去日本旅游想购买20万日元左右的手表,有什么推荐的吗?看你想买二手还是全新吧,二手的话可以去大阪心斋桥的商业街的中古店,20万日元换算差不多是1万3人民币,这个钱可以买到的全新有二手欧米伽,二手卡地亚(劳力士是别想了)为什么我推荐你买
在农村有房也有宅基地且户口在农村的人如果又在城市买了商品房算二套房吗?有哪些需要注意的问题?房产税已经征收了30多年了,房产税暂行条例1986年制定,2011年修订,之所以公众一直没有概念,是由于个人所有非营业房产免征房产税,不是说不能征,而是免征。企业一直在交房产税的。
正常缴纳社保的职工,下岗以后无力缴纳,退休时怎么办?感谢邀请,更感谢楼主的提问。楼主你好,正常缴纳社保的职工,下岗以后无力交纳,退休时该怎么办?如果自己在下岗之前已经满足,15年以上的职工养老保险缴费年限,那么这种情况下到达法定退休
为什么有些人愿意花费五万去做护士,可是工资才4000多?他们是有爱护患者之心吧,都不想去当护士,谁来保护病人,关于医生也好,护士也好,必须要有耐心的来对代患者,做为一个病人患者来说,他的精神,来说是最虚弱的人,患者的心情有很范恼,有的心
在郑州工资多少才能过得下去?感谢邀请,在郑州工资多少可以活的下去?其实这个问题早就已经做过考虑,那就是最低的工资标准。从全国各省的工资标准来看,郑州的最低工资是1500左右,郑州2017年第三类区域的执行标准
醋泡大蒜头时间长了,还能吃吗?醋泡大蒜含有丰富的营养物质,具有很好的食用价值,醋泡大蒜会过期吗?醋泡大蒜放多长时间不能吃?下面让我们具体来看看吧!醋泡大蒜会过期吗醋泡大蒜会过期。大蒜虽然水分少,但是放在醋里面时
在合肥,老人退休工资平均水平是多少?说说我的基本情况吧,我的工龄40年6个月,我16年退休,刚退休的时候是3100多,经过几年连续涨养老金养老金,现在3700多元,目前在北京带孩子,自己买菜做饭,没有感觉到生活太大压
在绵阳怎样找到月入一万的工作?在绵阳怎样找到月入一万的工作?经常看见网络上很多文章标题就是类似教你怎样月入十万日入上千等等这样的文章,不知道大家有没有关注呀?其实相信这些的那真是没智商了,不过做什么要始终相信,
家庭条件不好,普通本科毕业后是直接就业好还是考研好?谢谢邀请!每个农村走出来的孩子都想通过自己上大学努力改变自己的命运,然而在改革开放发展30年的时间里,社会经济形势变化太快了,贫富差距进一步拉大,有时候我们在努力奋进的时候被碰到头
孕后期吃什么水果好,也不怕血糖高?水果中含有大量的维生素无机盐纤维素,对孕妈来说是很好的能量补充,但水果中又含有大量的糖份,摄入过多对孕妈太宝宝并无裨益,容易造成孕妈血糖高,影响胎宝宝健康。那么,有哪些水果适宜孕妈
这或是爱这或是爱的模样这或是爱这或是爱的模样我只想静静地将心藏进无人的地方我只想悄悄地默念你的诗行透过黑夜我抚摸着你的孤独你的悲伤我愿给你一丝温暖拭去你无力抬起的眼眶那尘封的泪光我知你的不易我明你的心意
怎么积阴德?为什么好人没好报?现在很多人都说,我要多做好事积阴德。当你有这种想法时,就和阴德隔海相望了。带着目的去帮助他人,做好事,希望换来福报,这叫交易。为善而不求任何回报,就是真善,为了某种目的而行善,就是
等一个人归来我问星星几次,它却眨眼不语又问月亮几回,它便躲进云里远去的人,你是否也在相思春花开了几回,秋叶落了几次檐下的紫燕春来秋往,大雁归来又去你却杳无信息,到底在哪里等你,我们一起牵手走过
脑中一片空白哎呀,不得却又心里所谓人生不如意,十有八九内心不满足,然而谁人如圣人抛空一切万物,违令心里直令唯一老陈境界,人生之所追求,何须渡日儒林,何须看手人生像似,归隐深山,豪情万丈。却不看
关于死亡关于死亡墙外的道场已经做了三天,一群野和尚装模作样连袍子都没穿就在那又拉又唱又念的,二胡木鱼钟磬唢呐齐鸣,又加上帮忙的人高谈阔论,我听了好久都没有听清他们唱的什么内容念的什么经。但
C罗有多闪耀,乔治娜的生活就有多晃眼随着世界杯的进行,足球太太团的物料也不少!其中C罗的太太乔治娜算是令人相当羡慕的足球太太之一。虽然37岁的C罗最终还是没能捧起大力神杯,实现自己的梦想,但这并不会成为他前进的障碍。
停产水泥后食用菌业务难堪大任?博闻科技拟涉足诺邓火腿每经记者曾剑每经编辑张海妮今年8月,老牌水泥上市公司博闻科技(SH600883,股价7。67元,市值18。11亿元)宣布将停产水泥此次停产后,公司的主业只剩下前些年涉足的食用菌业务
去露营吧这里有一份户外邀请,快来签收一下人间朝暮,落叶惊秋。你是否想放下浮世烦恼?你是否想亲近自然,拥抱山水?趁午后阳光还温柔,一起去武夷山露营吧。福建,东南与台湾省隔台湾海峡而相望,西北与江西省接界,地势西高东低,素有
360真HiFi,力求全场景的高音质体验山灵H7解码耳放一体机山灵2022年底发布了一个重磅炸弹山灵H7解码耳放一体机,它搭载了全新旗舰AK4191EQAK4499EXDAC芯片,这让音质提升非常巨大,它经过了有线和无线HiRes高解析度音频
加密货币监管风波再起币安被曝已接受美国司法部刑事调查4年四位知情人士称,美国司法部对币安的调查始于2018年,重点针对币安是否违反美国反洗钱法和制裁规定。部分检察官认为已收集到足够证据,可以对币安采取积极行动,并对包括创始人赵长鹏在内的
励志!70岁的老奶奶告诉你,想画就画,人生没有太晚的开始!曾有一位风靡全球的老奶奶说过一句话掷地有声人生永远没有太晚的开始。摩西奶奶人人都在吼着出名要趁早,但NB本与岁月无关,只在于一颗热爱的心!比如70多岁高龄才开始画画的摩西奶奶梵高奶