专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

最全机器学习知识点!10个机器学习算法回归问题5个评价指标

  回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结10个重要的回归问题和5个重要的回归问题的评价指标。线性回归的假设是什么?
  线性回归有四个假设:线性:自变量(x)和因变量(y)之间应该存在线性关系,这意味着x值的变化也应该在相同方向上改变y值。独立性:特征应该相互独立,这意味着最小的多重共线性。正态性:残差应该是正态分布的。同方差性:回归线周围数据点的方差对于所有值应该相同。什么是残差,它如何用于评估回归模型?
  残差是指预测值与观测值之间的误差。它测量数据点与回归线的距离。它是通过从观察值中减去预测值的计算机。
  残差图是评估回归模型的好方法。它是一个图表,在垂直轴上显示所有残差,在x轴上显示特征。如果数据点随机散布在没有图案的线上,那么线性回归模型非常适合数据,否则我们应该使用非线性模型。
  如何区分线性回归模型和非线性回归模型?
  两者都是回归问题的类型。两者的区别在于他们训练的数据。
  线性回归模型假设特征和标签之间存在线性关系,这意味着如果我们获取所有数据点并将它们绘制成线性(直线)线应该适合数据。
  非线性回归模型假设变量之间没有线性关系。非线性(曲线)线应该能够正确地分离和拟合数据。
  找出数据是线性还是非线性的三种最佳方法:残差图;散点图;假设数据是线性的,训练一个线性模型并通过准确率进行评估。什么是多重共线性,它如何影响模型性能?
  当某些特征彼此高度相关时,就会发生多重共线性。相关性是指表示一个变量如何受到另一个变量变化影响的度量。
  如果特征a的增加导致特征b的增加,那么这两个特征是正相关的。如果a的增加导致特征b的减少,那么这两个特征是负相关的。在训练数据上有两个高度相关的变量会导致多重共线性,因为它的模型无法在数据中找到模式,从而导致模型性能不佳。所以在训练模型之前首先要尽量消除多重共线性。异常值如何影响线性回归模型的性能?
  异常值是值与数据点的平均值范围不同的数据点。换句话说,这些点与数据不同或在第3标准之外。
  线性回归模型试图找到一条可以减少残差的最佳拟合线。如果数据包含异常值,则最佳拟合线将向异常值移动一点,从而增加错误率并得出具有非常高MSE的模型。什么是MSE和MAE有什么区别?
  MSE代表均方误差,它是实际值和预测值之间的平方差。而MAE是目标值和预测值之间的绝对差。
  MSE会惩罚大错误,而MAE不会。随着MSE和MAE的值都降低,模型趋向于一条更好的拟合线。L1和L2正则化是什么,应该何时使用?
  在机器学习中,我们的主要目标是创建一个可以在训练和测试数据上表现更好的通用模型,但是在数据非常少的情况下,基本的线性回归模型往往会过度拟合,因此我们会使用l1和l2正则化。
  L1正则化或lasso回归通过在成本函数内添加添加斜率的绝对值作为惩罚项。有助于通过删除斜率值小于阈值的所有数据点来去除异常值。
  L2正则化或ridge回归增加了相当于系数大小平方的惩罚项。它会惩罚具有较高斜率值的特征。
  l1和l2在训练数据较少、方差高、预测特征大于观察值以及数据存在多重共线性的情况下都很有用。异方差是什么意思?
  它是指最佳拟合线周围的数据点的方差在一个范围内不一样的情况。它导致残差的不均匀分散。如果它存在于数据中,那么模型倾向于预测无效输出。检验异方差的最好方法之一是绘制残差图。
  数据内部异方差的最大原因之一是范围特征之间的巨大差异。例如,如果我们有一个从1到100000的列,那么将值增加10不会改变较低的值,但在较高的值时则会产生非常大的差异,从而产生很大的方差差异的数据点。方差膨胀因子的作用是什么
  方差膨胀因子(vif)用于找出使用其他自变量可预测自变量的程度。
  让我们以具有v1、v2、v3、v4、v5和v6特征的示例数据为例。现在,为了计算v1的vif,将其视为一个预测变量,并尝试使用所有其他预测变量对其进行预测。
  如果VIF的值很小,那么最好从数据中删除该变量。因为较小的值表示变量之间的高相关性。逐步回归如何工作?
  逐步回归是在假设检验的帮助下,通过移除或添加预测变量来创建回归模型的一种方法。它通过迭代检验每个自变量的显著性来预测因变量,并在每次迭代之后删除或添加一些特征。它运行n次,并试图找到最佳的参数组合,以预测因变量的观测值和预测值之间的误差最小。
  它可以非常高效地管理大量数据,并解决高维问题。除了MSE和MAE,回归还有什么指标?
  我们用一个回归问题来介绍这些指标,我们的其中输入是工作经验,输出是薪水。下图显示了为预测薪水而绘制的线性回归线。
  指标一:平均绝对误差(MAE)
  平均绝对误差(MAE)是最简单的回归度量。它将每个实际值和预测值的差值相加,最后除以观察次数。为了使回归模型被认为是一个好的模型,MAE应该尽可能小。
  MAE的优点是:简单易懂。结果将具有与输出相同的单位。例如:如果输出列的单位是LPA,那么如果MAE为1。2,那么我们可以解释结果是1。2LPA或1。2LPA,MAE对异常值相对稳定(与其他一些回归指标相比,MAE受异常值的影响较小)。
  MAE的缺点是:MAE使用的是模函数,但模函数不是在所有点处都可微的,所以很多情况下不能作为损失函数。指标二:均方误差(MSE)
  MSE取每个实际值和预测值之间的差值,然后将差值平方并将它们相加,最后除以观测数量。为了使回归模型被认为是一个好的模型,MSE应该尽可能小。
  MSE的优点:平方函数在所有点上都是可微的,因此它可以用作损失函数。
  MSE的缺点:由于MSE使用平方函数,结果的单位是输出的平方。因此很难解释结果。由于它使用平方函数,如果数据中有异常值,则差值也会被平方,因此,MSE对异常值不稳定。指标三:均方根误差(RMSE)
  均方根误差(RMSE)取每个实际值和预测值之间的差值,然后将差值平方并将它们相加,最后除以观测数量。然后取结果的平方根。因此,RMSE是MSE的平方根。为了使回归模型被认为是一个好的模型,RMSE应该尽可能小。
  RMSE解决了MSE的问题,单位将与输出的单位相同,因为它取平方根,但仍然对异常值不那么稳定。
  上述指标取决于我们正在解决的问题的上下文,我们不能在不了解实际问题的情况下,只看MAE、MSE和RMSE的值来判断模型的好坏。指标四:R2score
  如果我们没有任何输入数据,但是想知道他在这家公司能拿到多少薪水,那么我们能做的最好的事情就是给他们所有员工薪水的平均值。
  R2score给出的值介于0到1之间,可以针对任何上下文进行解释。它可以理解为是拟合度的好坏。
  SSR是回归线的误差平方和,SSM是均线误差的平方和。我们将回归线与平均线进行比较。
  如果R2得分为0,则意味着我们的模型与平均线的结果是相同的,因此需要改进我们的模型。如果R2得分为1,则等式的右侧部分变为0,这只有在我们的模型适合每个数据点并且没有出现误差时才会发生。如果R2得分为负,则表示等式右侧大于1,这可能发生在SSRSSM时。这意味着我们的模型比平均线最差,也就是说我们的模型还不如取平均数进行预测。
  如果我们模型的R2得分为0。8,这意味着可以说模型能够解释80的输出方差。也就是说,80的工资变化可以用输入(工作年限)来解释,但剩下的20是未知的。
  如果我们的模型有2个特征,工作年限和面试分数,那么我们的模型能够使用这两个输入特征解释80的工资变化。
  R2的缺点:
  随着输入特征数量的增加,R2会趋于相应的增加或者保持不变,但永远不会下降,即使输入特征对我们的模型不重要(例如,将面试当天的气温添加到我们的示例中,R2是不会下降的即使温度对输出不重要)。指标五:AdjustedR2score
  上式中R2为R2,n为观测数(行),p为独立特征数。AdjustedR2解决了R2的问题。
  当我们添加对我们的模型不那么重要的特性时,比如添加温度来预测工资。。。。。
  当添加对模型很重要的特性时,比如添加面试分数来预测工资
  以上就是回归问题的重要知识点和解决回归问题使用的各种重要指标的介绍及其优缺点,希望对你有所帮助。
  转载机器学习研习院
  最后给大家分享一个数据分析图谱,内含数据分析12个常见分析模型、18个理论分支、136个详细知识要点和60多个实际分析场景案例,不懂或不记得的知识点拿出地图就能查,数据人必备!

浙江一奶奶怕孙子冷,给孩子穿了9件衣服,爸爸怎么穿上去的啊近日,浙江杭州的网友分享了一则令人哭笑不得的视频,因为天气降温,一位奶奶担心孙子会冻着,就给孙子穿上了厚厚的衣服。当爸爸回家后一看,当场就惊呆了。只见孩子全身被裹得像粽子一样,一时汪峰再婚,大女儿仍是小棉袄,正式出道,葛荟婕可以欣慰了汪峰的大女儿小苹果汪曼熙在音乐平台发布最新单曲溺,这首歌的作词作曲都是由汪曼熙自己亲自操刀,RB的曲风,配合上她的嗓音,汪峰后继有人了。汪峰这些年一直苦于上头条,大女儿出道就登上热岳云鹏切除脂肪瘤报平安,积劳成疾令人心疼,爱妻也曾光头做手术立冬这天,岳云鹏刚出院,原来他最近停工,是因为屁股上长了个脂肪瘤,不得不动手术。岳云鹏打趣说,自己坐姿妖娆,是因为根本就坐不下。即使脂肪瘤令他连坐都不能坐,但他还是坚持录完了团综德鱿鱼币暴跌2300倍后,过去24小时又涨600!究竟怎么个玩法?这几天,鱿鱼币(SQUID)割韭菜的新闻刷屏。不过,在过去一天,鱿鱼币又开始涨上去了!这究竟是什么情况?!鱿鱼币要回归?4日晚6时54分,晨报记者查阅知名数字货币交易服务平台coi火车有时一开就20多小时,司机不困吗?或许这些秘密你不知道随着我国经济的发展,人们的生活水平越来越好了,很多人都开始利用工作闲暇之余就去旅行。随着旅游业的蓬勃发展及相关产业发展,人们出行方式越来越多了,高铁,火车,飞机等提供给不同客人的不仅三天可见,身边的人开始消失在朋友圈来源央视网不知道从什么时候开始,身边的朋友都不爱发朋友圈了。有时候突然想起一个很久没联系的人,想了解一下TA的近况,打开TA的朋友圈,只收获一句仅三天可见。三天后再来看看,还是一片三岁孩子被100度开水烫着,妈妈用1小时4步处理,医生做得好文菁妈水烧开之后就变成100度,100度的水温对于我们的皮肤来说是不可承受之重,所以家有孩子一定要注意烧开水的时候要远离孩子。但有些危险还真是防不胜防!沈丘是一个三岁的孩子,平时非人到中年,喜欢独来独往的女人,才最懂生活独处似乎从来都不是一个被大家所喜欢的特质,当你身处人群中,选择这样的一种方式,总是会被疏离,好像久而久之,就真正的成为了局外人。能够拯救你自己的从来都是你本人,不要将希望寄托在任何15分钟实现过去10小时放疗,人工智能抗癌硬核武器亮相四叶草精准治疗癌症,第四届进博会展馆里大型硬核武器齐齐上阵。连续四次参加进博会的瓦里安医疗医科达等知名企业,携数个全球首发产品及解决方案亮相进博会8。1馆,这些硬核武器讲述数字化转型中的我国稻米产业正在经历一场巨大变革中华粮网一直致力于打造优质内容平台,所邀作者长期深耕一线,对市场具有敏锐的洞察力和深度的见解。本平台计划推出作者的系列之作,规划四个章节第一章稻米加工产业发展历程和经营现状(点击回2021中国富豪榜新能源家族华丽亮相本次上榜者的总财富较去年有所增长上榜者总财富数从去年的1。33万亿美元增至1。48万亿美元。其中,涨幅最大的是那些从事包括锂电池硅材料等在内的新能源产业的富豪。此外,进入福布斯中国
网信中国发布浏览器类App个人信息收集情况测试报告近期,中国网络空间安全协会国家计算机网络应急技术处理协调中心对浏览器类公众大量使用的部分App收集个人信息情况进行了测试。测试情况及结果如下一测试对象本次测试选取了19家应用商店1不装了?中企的真面目被揭开,美媒第二个华为不好惹大家都知道,美国之所以断供华为芯片,就是为了让苹果成为中国高端市场的王者,从而肆无忌惮的收割财富。但是剧本并没有按照老美的意思发展,反而激发了中企的斗志,为了不重蹈覆辙,以小米为首孩子疑似出现甲流症状,角膜塑形镜还能戴吗?春季开学后,不少孩子出现发烧干咳等情况,很多家长都害怕自己的孩子复阳,但其实最近是甲型流感的高发季节,许多反复高热咳嗽的孩子并不是复阳,而是甲型流感。近期,不少家长也在重庆爱尔儿童车队斯托尔训练师阿斯顿马丁在吉达比巴林更快兰斯斯托尔的训练师努诺平托透露,现有的数据表明,阿斯顿马丁的赛车AMR23在沙特站的潜力比在巴林更大。阿隆索在揭幕战登上了领奖台,用一个神奇的表演开始了这个赛季,但车队希望在今年剩美联储为硅谷银行买单能否防止金融危机?文任泽平团队美国时间2023年3月12日晚,美国财政部美联储和联邦存款保险公司联合发表声明1允许联邦存款保险公司(FDIC)以全额保护所有存款人的方式完成对硅谷银行的清算。存款人将宏远一夜三消息杜锋恐被重罚,辽媒暗讽杜锋,队内流感严重!广东男篮12999大胜山西男篮,全队火力全开,一点机会都没给山西男篮。30分大胜,也算是给杜锋出了一口恶气!杜锋被恐被重罚在和山西男篮的一战中,杜锋被裁判吹了两个技术犯规,因此被驱钱天一战胜伊藤美诚世界乒乓球职业大联盟(WTT)新加坡大满贯赛13日展开单打第二轮较量。中国队选手钱天一挽救两个赛点,在女单比赛中32险胜日本名将伊藤美诚。卫冕冠军陈梦23不敌罗马尼亚选手萨马拉,止大满贯赛8位世界冠军出局!国乒5人败北,陈梦伊藤美诚被爆冷北京时间3月13日晚,乒乓球WTT新加坡大满贯赛结束了第六个比赛日的战斗,爆出了多个大冷门,已有多达八位世界冠军在单打项目中被淘汰,除了之前的陈建安倪夏莲奥恰洛夫卡尔松之外,新增陈拒绝掉链子!林高远32淘汰韩国一哥,陈幸同30,感谢马琳指点北京时间3月14日,国际乒联WTT新加坡大满贯站比赛正在进行。正在进行的是男单比赛,国乒林高远对阵韩国一哥张禹珍。双方都是球迷非常熟悉的运动员,此前两人交手过两次,各胜一场。林高远大冷门!国乒17岁天才31横扫外国世界冠军!林诗栋剑指金牌!3月14日,在2023年乒乓球WTT新加坡大满贯赛的比赛中,不仅仅日本有19岁的天才少年张本智和,中国国乒也有天才少年的!他就是最近势头正盛的17岁国乒小将林诗栋!林诗栋男单首轮对杜峰可能被追加处罚,西热力江笑看篮协3月13日,前中国男篮主教练广东东莞大益主教练杜峰被裁判夺权,杜峰被驱逐出场事件引发网友热议。事件是由于马尚布鲁克斯投球后摔倒。这个球在慢动作看来贾昊已经收脚了,应该说没有侵害布鲁
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网