范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

最全机器学习知识点!10个机器学习算法回归问题5个评价指标

  回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结10个重要的回归问题和5个重要的回归问题的评价指标。线性回归的假设是什么?
  线性回归有四个假设:  线性:自变量(x)和因变量(y)之间应该存在线性关系,这意味着x值的变化也应该在相同方向上改变y值。  独立性:特征应该相互独立,这意味着最小的多重共线性。  正态性:残差应该是正态分布的。  同方差性:回归线周围数据点的方差对于所有值应该相同。  什么是残差,它如何用于评估回归模型?
  残差是指预测值与观测值之间的误差。它测量数据点与回归线的距离。它是通过从观察值中减去预测值的计算机。
  残差图是评估回归模型的好方法。它是一个图表,在垂直轴上显示所有残差,在 x 轴上显示特征。如果数据点随机散布在没有图案的线上,那么线性回归模型非常适合数据,否则我们应该使用非线性模型。
  如何区分线性回归模型和非线性回归模型?
  两者都是回归问题的类型。两者的区别在于他们训练的数据。
  线性回归模型假设特征和标签之间存在线性关系,这意味着如果我们获取所有数据点并将它们绘制成线性(直线)线应该适合数据。
  非线性回归模型假设变量之间没有线性关系。非线性(曲线)线应该能够正确地分离和拟合数据。
  找出数据是线性还是非线性的三种最佳方法:  残差图;  散点图;  假设数据是线性的,训练一个线性模型并通过准确率进行评估。  什么是多重共线性,它如何影响模型性能?
  当某些特征彼此高度相关时,就会发生多重共线性。相关性是指表示一个变量如何受到另一个变量变化影响的度量。
  如果特征 a 的增加导致特征 b 的增加,那么这两个特征是正相关的。如果 a 的增加导致特征 b 的减少,那么这两个特征是负相关的。在训练数据上有两个高度相关的变量会导致多重共线性,因为它的模型无法在数据中找到模式,从而导致模型性能不佳。所以在训练模型之前首先要尽量消除多重共线性。  异常值如何影响线性回归模型的性能?
  异常值是值与数据点的平均值范围不同的数据点。换句话说,这些点与数据不同或在第 3 标准之外。
  线性回归模型试图找到一条可以减少残差的最佳拟合线。如果数据包含异常值,则最佳拟合线将向异常值移动一点,从而增加错误率并得出具有非常高 MSE 的模型。  什么是 MSE 和 MAE 有什么区别?
  MSE 代表均方误差,它是实际值和预测值之间的平方差。而 MAE 是目标值和预测值之间的绝对差。
  MSE 会惩罚大错误,而 MAE 不会。随着 MSE 和 MAE 的值都降低,模型趋向于一条更好的拟合线。  L1和L2正则化是什么,应该何时使用?
  在机器学习中,我们的主要目标是创建一个可以在训练和测试数据上表现更好的通用模型,但是在数据非常少的情况下,基本的线性回归模型往往会过度拟合,因此我们会使用 l1 和l2 正则化。
  L1 正则化或 lasso 回归通过在成本函数内添加添加斜率的绝对值作为惩罚项。有助于通过删除斜率值小于阈值的所有数据点来去除异常值。
  L2 正则化或ridge 回归增加了相当于系数大小平方的惩罚项。它会惩罚具有较高斜率值的特征。
  l1 和 l2 在训练数据较少、方差高、预测特征大于观察值以及数据存在多重共线性的情况下都很有用。  异方差是什么意思?
  它是指最佳拟合线周围的数据点的方差在一个范围内不一样的情况。它导致残差的不均匀分散。如果它存在于数据中,那么模型倾向于预测无效输出。检验异方差的最好方法之一是绘制残差图。
  数据内部异方差的最大原因之一是范围特征之间的巨大差异。例如,如果我们有一个从 1 到 100000 的列,那么将值增加 10% 不会改变较低的值,但在较高的值时则会产生非常大的差异,从而产生很大的方差差异的数据点。  方差膨胀因子的作用是什么
  方差膨胀因子(vif)用于找出使用其他自变量可预测自变量的程度。
  让我们以具有 v1、v2、v3、v4、v5 和 v6 特征的示例数据为例。现在,为了计算 v1 的 vif,将其视为一个预测变量,并尝试使用所有其他预测变量对其进行预测。
  如果 VIF 的值很小,那么最好从数据中删除该变量。因为较小的值表示变量之间的高相关性。  逐步回归如何工作?
  逐步回归是在假设检验的帮助下,通过移除或添加预测变量来创建回归模型的一种方法。它通过迭代检验每个自变量的显著性来预测因变量,并在每次迭代之后删除或添加一些特征。它运行n次,并试图找到最佳的参数组合,以预测因变量的观测值和预测值之间的误差最小。
  它可以非常高效地管理大量数据,并解决高维问题。  除了MSE和MAE,回归还有什么指标?
  我们用一个回归问题来介绍这些指标,我们的其中输入是工作经验,输出是薪水。下图显示了为预测薪水而绘制的线性回归线。
  指标一:平均绝对误差(MAE)
  平均绝对误差 (MAE) 是最简单的回归度量。它将每个实际值和预测值的差值相加,最后除以观察次数。为了使回归模型被认为是一个好的模型,MAE 应该尽可能小。
  MAE的优点是:简单易懂。结果将具有与输出相同的单位。例如:如果输出列的单位是 LPA,那么如果 MAE 为 1.2,那么我们可以解释结果是 +1.2LPA 或 -1.2LPA,MAE 对异常值相对稳定(与其他一些回归指标相比,MAE 受异常值的影响较小)。
  MAE的缺点是:MAE使用的是模函数,但模函数不是在所有点处都可微的,所以很多情况下不能作为损失函数。 指标二:均方误差(MSE)
  MSE取每个实际值和预测值之间的差值,然后将差值平方并将它们相加,最后除以观测数量。为了使回归模型被认为是一个好的模型,MSE 应该尽可能小。
  MSE的优点:平方函数在所有点上都是可微的,因此它可以用作损失函数。
  MSE的缺点:由于 MSE 使用平方函数,结果的单位是输出的平方。因此很难解释结果。由于它使用平方函数,如果数据中有异常值,则差值也会被平方,因此,MSE 对异常值不稳定。 指标三:均方根误差 (RMSE)
  均方根误差(RMSE)取每个实际值和预测值之间的差值,然后将差值平方并将它们相加,最后除以观测数量。然后取结果的平方根。因此,RMSE 是 MSE 的平方根。为了使回归模型被认为是一个好的模型,RMSE 应该尽可能小。
  RMSE 解决了 MSE 的问题,单位将与输出的单位相同,因为它取平方根,但仍然对异常值不那么稳定。
  上述指标取决于我们正在解决的问题的上下文, 我们不能在不了解实际问题的情况下,只看 MAE、MSE 和 RMSE 的值来判断模型的好坏。 指标四:R2 score
  如果我们没有任何输入数据,但是想知道他在这家公司能拿到多少薪水,那么我们能做的最好的事情就是给他们所有员工薪水的平均值。
  R2 score 给出的值介于 0 到 1 之间,可以针对任何上下文进行解释。它可以理解为是拟合度的好坏。
  SSR 是回归线的误差平方和,SSM 是均线误差的平方和。我们将回归线与平均线进行比较。
  如果 R2 得分为 0,则意味着我们的模型与平均线的结果是相同的,因此需要改进我们的模型。 如果 R2 得分为 1,则等式的右侧部分变为 0,这只有在我们的模型适合每个数据点并且没有出现误差时才会发生。 如果 R2 得分为负,则表示等式右侧大于 1,这可能发生在 SSR > SSM 时。这意味着我们的模型比平均线最差,也就是说我们的模型还不如取平均数进行预测。
  如果我们模型的 R2 得分为 0.8,这意味着可以说模型能够解释 80% 的输出方差。也就是说,80%的工资变化可以用输入(工作年限)来解释,但剩下的20%是未知的。
  如果我们的模型有2个特征,工作年限和面试分数,那么我们的模型能够使用这两个输入特征解释80%的工资变化。
  R2的缺点:
  随着输入特征数量的增加,R2会趋于相应的增加或者保持不变,但永远不会下降,即使输入特征对我们的模型不重要(例如,将面试当天的气温添加到我们的示例中,R2是不会下降的即使温度对输出不重要)。 指标五:Adjusted R2 score
  上式中R2为R2,n为观测数(行),p为独立特征数。Adjusted R2解决了R2的问题。
  当我们添加对我们的模型不那么重要的特性时,比如添加温度来预测工资.....
  当添加对模型很重要的特性时,比如添加面试分数来预测工资……
  以上就是回归问题的重要知识点和解决回归问题使用的各种重要指标的介绍及其优缺点,希望对你有所帮助。
  转载/机器学习研习院
  最后给大家分享一个数据分析图谱,内含数据分析12个常见分析模型、18个理论分支、136个详细知识要点和60多个实际分析场景案例,不懂或不记得的知识点拿出地图就能查,数据人必备!

大裤衩与丁字裤都是遮羞布,你是否感觉到穿大裤衩浪费了么?你睡觉只占一个人的位置,可是床铺一定要比你的人体大出许多,有人抱怨多出来的那些床铺是无用的,这是不需要的吗?你去洗手间,要用到手纸擦屁屁。可是一张手纸只用一点点,更大部分都被你浪费当婚姻遮羞布被撕掉,聪明人该怎么做?转原创包士山侵删一直幸福美满的她突然离婚,因为老公多年前出轨的消息被延迟披露。其实,她当初选择了原谅,老公也早已浪子回头。苦尽甘来的两个人,事业家庭双丰收,为什么她执意要离婚?对有纽约测速摄像头或将247全天候抓拍!道路千万条,安全第一条不知道大家走在纽约街头的时候,有没有偶尔也被突然惊现的飙车族的轰鸣声吓得虎躯一震呢?据多家主流媒体综合报道称,从2022年7月1日开始,纽约市的测速摄像头可能会247(每周7天,每非绿色不关心!蔡英文防备柯文哲侯友宜直接放生双北市民?华夏经纬网报道台湾地区领导人蔡英文昨日亲赴新北市永和区进行地方党部主委改选投票,挨批过疫情而不入蔡英文才刚喊话地方,声称防疫最后关键时刻,民众期待的是我们携手解决问题,台当局与地方100万兵没征到,1400万人逃跑,泽连斯基焦头烂额,嚷着要见普京泽连斯基已准备好与普京讨论停战文飞云俄乌冲突已经持续了整3个月,战场局势依旧僵持不下。对于俄军来说,马里乌波尔已经全境拿下,亚速钢铁厂也不再是坚不可摧的堡垒,据俄方消息称,俄军目前国漫一人之下众人眼红的八奇技分别是什么,传人都有谁?国漫一人之下由男主张楚岚的爷爷张怀义所拥有的炁体源流开始,引发各路人马争相登场,并逐一引出了其他并列的七大奇技,统称八奇技。那么这引得异人江湖风潮涌动的八奇技都是哪些,又都有哪些传老百姓为什么不愿意打官司解决问题,哪怕打官司比协商赔的钱多?二哥是开货车的,前年5月份拉了一车钢筋活。车子开到工地,雇主对二哥说现在工地没有工人,你去车上帮忙给吊车上一下钩子。二哥说老板,我开了二百公里了,好累了,再说我是司机,又不是搬运工甘肃表现亮眼!一己之力逆转中国豺灭绝危机,如今已迁徙七百公里2022年,在人们依然忙着抗疫的时候,一个喜讯不期而至,在甘肃省酒泉市下属的阿克塞县安南坝野骆驼保护区,工作人员拍到了一组珍贵的照片,照片的主角正是我们国家的一级保护动物,中国豺。从欧冠斗到场外!利物浦签完富勒姆新星,再跟皇马争后腰新星英超赛季一完,利物浦已宣布签入富勒姆19岁小将法比奥卡瓦略(FbioCarvalho),同时正在与欧冠决赛对手皇家马德里力争获多支豪门看中的后腰奥雷利昂赤瓦门尼(AurlienTc俄乌战场的反戈一击执笔军事魔士一个喜欢军事战争历史的漫画仔1北约花花肠还记得俄罗斯在一阵情绪发泄中说的那句干货吗?俄罗斯采取什么行动,取决于北约在芬兰部署何种军事装备。当时就说了,这句话是俄罗斯的一领证当日男方出轨,卧室里不堪画面被未婚妻一家亲眼目睹不爱了在恋爱期间,不管是男人还是女人我觉得都应该保持一点理智,至少在涉及到金钱方面,应该要分得清楚一点为好。毕竟两人只是在恋爱中还不是夫妻,钱财还是得分得清楚一点为好,凡事都应该有个度,
如果联想真正有问题,像白岩松等为联想站台要承担怎样的代价?都是在打嘴炮,其实什么结果都不会有,一切事都会不了了之。作为中国人,中国企业,在华为遭受美国打压的时候,联想不力挺华为就算了,居然还对华为投反对票。这不是汉奸才做得出来的事吗?为什女性甲减饮食禁忌有什么?女性甲减的患者在饮食上,主要注意以下几点第一,要合理食用营养丰富的食物,要注意蛋白质的补充,另外,脂肪胆固醇的摄入要限量,尽量多吃一些高热量,并且容易消化的食物,比如蛋类乳类肉类等当欠债达到一辈子也不可能偿还的地步你会怎么办?我82年的,欠债3000万,公司已经宣告破产。银行个人借贷已经全面爆发,税务上还有案件在身,并且已经移交经侦(我是被害人,但是没办法,害我的已经跑了)。上面是我的基本情况,现在已经河北公务员工资待遇如何?我有一个朋友在河北省做公务员,我比较了解情况。河北人均财政全国倒数第五河北省人均GDP排名全国倒数第六,经济发展比较慢。相应着河北财政实力也一般,如下图1所示,河北省去年人均财政支投身农业5年,除了一身疲惫只剩下一屁股债,出路在哪里?问题很好,我是一名创业者,选择回答。投身农业5年,除了一身疲惫只剩下一屁股债,出路在哪里?这种情况很普遍,有很多农业产业方面的创业者陷入困境,举步维艰,我认为。一,重新评估项目农业孕妇检查周期和相关项目是什么?孕妇检查周期和相关项目是什么?孕妇检查一般是78周12周,1335周之间每4周检查一次,36周以后每周检查一次直至分娩。孕妇检查项目时间表第1次是78周,需要进行超声检查确认宫内妊喝奶粉的好处是什么?喝奶粉的好处是什么?喝奶粉的好处有很多,奶粉中含有多种营养素,钙蛋白维生素D维生素B,可以补充人体所需营养素,有利于生长发育,但部分奶粉中含糖量较高,不建议空腹饮用。婴幼儿喝的配方少年包青天中武功最厉害的是谁?少年包青天中的顶级高手大概有这么几位衍悔龙千山凌日戒贤封一寒。衍悔相国寺方丈,相国寺的大日如来咒在武林中非常有名,但是衍悔其实并没有练大日如来咒而是修炼的自己悟出来的空明掌,不过这什么单机游戏最有自由性?什么单机游戏最有自由性?小编觉得应该是开放世界类的游戏,因为在这些游戏中你不会有太多的剧情限制,而目前的单机游戏市场,主流的游戏大部分都很有自由度,下面小编就说几个不同类型的高自由无锡有哪些地方适合带孩子一起玩的?周末带孩子去大大小小的公园挺合适,有的公园要收费的,有的免费的。我就来说说几个免费的地方金匮公园,里面有孩子玩的人工沙滩,还可以带着孩子一起去骑车游览公园景色长广溪湿地公园,里面比右上腹疼痛是什么原因?如何应对?在我看诊过的患者中,无论是急性还是慢性肝炎,或者是肝硬化和肝癌,都经常会有右上腹痛的情况。他们的右上腹痛,有时并不单单是肝脏的原因,还可能是胆,或者十二指肠食道肠道,甚至是由肺胸膜