范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

最全机器学习知识点!10个机器学习算法回归问题5个评价指标

  回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结10个重要的回归问题和5个重要的回归问题的评价指标。线性回归的假设是什么?
  线性回归有四个假设:  线性:自变量(x)和因变量(y)之间应该存在线性关系,这意味着x值的变化也应该在相同方向上改变y值。  独立性:特征应该相互独立,这意味着最小的多重共线性。  正态性:残差应该是正态分布的。  同方差性:回归线周围数据点的方差对于所有值应该相同。  什么是残差,它如何用于评估回归模型?
  残差是指预测值与观测值之间的误差。它测量数据点与回归线的距离。它是通过从观察值中减去预测值的计算机。
  残差图是评估回归模型的好方法。它是一个图表,在垂直轴上显示所有残差,在 x 轴上显示特征。如果数据点随机散布在没有图案的线上,那么线性回归模型非常适合数据,否则我们应该使用非线性模型。
  如何区分线性回归模型和非线性回归模型?
  两者都是回归问题的类型。两者的区别在于他们训练的数据。
  线性回归模型假设特征和标签之间存在线性关系,这意味着如果我们获取所有数据点并将它们绘制成线性(直线)线应该适合数据。
  非线性回归模型假设变量之间没有线性关系。非线性(曲线)线应该能够正确地分离和拟合数据。
  找出数据是线性还是非线性的三种最佳方法:  残差图;  散点图;  假设数据是线性的,训练一个线性模型并通过准确率进行评估。  什么是多重共线性,它如何影响模型性能?
  当某些特征彼此高度相关时,就会发生多重共线性。相关性是指表示一个变量如何受到另一个变量变化影响的度量。
  如果特征 a 的增加导致特征 b 的增加,那么这两个特征是正相关的。如果 a 的增加导致特征 b 的减少,那么这两个特征是负相关的。在训练数据上有两个高度相关的变量会导致多重共线性,因为它的模型无法在数据中找到模式,从而导致模型性能不佳。所以在训练模型之前首先要尽量消除多重共线性。  异常值如何影响线性回归模型的性能?
  异常值是值与数据点的平均值范围不同的数据点。换句话说,这些点与数据不同或在第 3 标准之外。
  线性回归模型试图找到一条可以减少残差的最佳拟合线。如果数据包含异常值,则最佳拟合线将向异常值移动一点,从而增加错误率并得出具有非常高 MSE 的模型。  什么是 MSE 和 MAE 有什么区别?
  MSE 代表均方误差,它是实际值和预测值之间的平方差。而 MAE 是目标值和预测值之间的绝对差。
  MSE 会惩罚大错误,而 MAE 不会。随着 MSE 和 MAE 的值都降低,模型趋向于一条更好的拟合线。  L1和L2正则化是什么,应该何时使用?
  在机器学习中,我们的主要目标是创建一个可以在训练和测试数据上表现更好的通用模型,但是在数据非常少的情况下,基本的线性回归模型往往会过度拟合,因此我们会使用 l1 和l2 正则化。
  L1 正则化或 lasso 回归通过在成本函数内添加添加斜率的绝对值作为惩罚项。有助于通过删除斜率值小于阈值的所有数据点来去除异常值。
  L2 正则化或ridge 回归增加了相当于系数大小平方的惩罚项。它会惩罚具有较高斜率值的特征。
  l1 和 l2 在训练数据较少、方差高、预测特征大于观察值以及数据存在多重共线性的情况下都很有用。  异方差是什么意思?
  它是指最佳拟合线周围的数据点的方差在一个范围内不一样的情况。它导致残差的不均匀分散。如果它存在于数据中,那么模型倾向于预测无效输出。检验异方差的最好方法之一是绘制残差图。
  数据内部异方差的最大原因之一是范围特征之间的巨大差异。例如,如果我们有一个从 1 到 100000 的列,那么将值增加 10% 不会改变较低的值,但在较高的值时则会产生非常大的差异,从而产生很大的方差差异的数据点。  方差膨胀因子的作用是什么
  方差膨胀因子(vif)用于找出使用其他自变量可预测自变量的程度。
  让我们以具有 v1、v2、v3、v4、v5 和 v6 特征的示例数据为例。现在,为了计算 v1 的 vif,将其视为一个预测变量,并尝试使用所有其他预测变量对其进行预测。
  如果 VIF 的值很小,那么最好从数据中删除该变量。因为较小的值表示变量之间的高相关性。  逐步回归如何工作?
  逐步回归是在假设检验的帮助下,通过移除或添加预测变量来创建回归模型的一种方法。它通过迭代检验每个自变量的显著性来预测因变量,并在每次迭代之后删除或添加一些特征。它运行n次,并试图找到最佳的参数组合,以预测因变量的观测值和预测值之间的误差最小。
  它可以非常高效地管理大量数据,并解决高维问题。  除了MSE和MAE,回归还有什么指标?
  我们用一个回归问题来介绍这些指标,我们的其中输入是工作经验,输出是薪水。下图显示了为预测薪水而绘制的线性回归线。
  指标一:平均绝对误差(MAE)
  平均绝对误差 (MAE) 是最简单的回归度量。它将每个实际值和预测值的差值相加,最后除以观察次数。为了使回归模型被认为是一个好的模型,MAE 应该尽可能小。
  MAE的优点是:简单易懂。结果将具有与输出相同的单位。例如:如果输出列的单位是 LPA,那么如果 MAE 为 1.2,那么我们可以解释结果是 +1.2LPA 或 -1.2LPA,MAE 对异常值相对稳定(与其他一些回归指标相比,MAE 受异常值的影响较小)。
  MAE的缺点是:MAE使用的是模函数,但模函数不是在所有点处都可微的,所以很多情况下不能作为损失函数。 指标二:均方误差(MSE)
  MSE取每个实际值和预测值之间的差值,然后将差值平方并将它们相加,最后除以观测数量。为了使回归模型被认为是一个好的模型,MSE 应该尽可能小。
  MSE的优点:平方函数在所有点上都是可微的,因此它可以用作损失函数。
  MSE的缺点:由于 MSE 使用平方函数,结果的单位是输出的平方。因此很难解释结果。由于它使用平方函数,如果数据中有异常值,则差值也会被平方,因此,MSE 对异常值不稳定。 指标三:均方根误差 (RMSE)
  均方根误差(RMSE)取每个实际值和预测值之间的差值,然后将差值平方并将它们相加,最后除以观测数量。然后取结果的平方根。因此,RMSE 是 MSE 的平方根。为了使回归模型被认为是一个好的模型,RMSE 应该尽可能小。
  RMSE 解决了 MSE 的问题,单位将与输出的单位相同,因为它取平方根,但仍然对异常值不那么稳定。
  上述指标取决于我们正在解决的问题的上下文, 我们不能在不了解实际问题的情况下,只看 MAE、MSE 和 RMSE 的值来判断模型的好坏。 指标四:R2 score
  如果我们没有任何输入数据,但是想知道他在这家公司能拿到多少薪水,那么我们能做的最好的事情就是给他们所有员工薪水的平均值。
  R2 score 给出的值介于 0 到 1 之间,可以针对任何上下文进行解释。它可以理解为是拟合度的好坏。
  SSR 是回归线的误差平方和,SSM 是均线误差的平方和。我们将回归线与平均线进行比较。
  如果 R2 得分为 0,则意味着我们的模型与平均线的结果是相同的,因此需要改进我们的模型。 如果 R2 得分为 1,则等式的右侧部分变为 0,这只有在我们的模型适合每个数据点并且没有出现误差时才会发生。 如果 R2 得分为负,则表示等式右侧大于 1,这可能发生在 SSR > SSM 时。这意味着我们的模型比平均线最差,也就是说我们的模型还不如取平均数进行预测。
  如果我们模型的 R2 得分为 0.8,这意味着可以说模型能够解释 80% 的输出方差。也就是说,80%的工资变化可以用输入(工作年限)来解释,但剩下的20%是未知的。
  如果我们的模型有2个特征,工作年限和面试分数,那么我们的模型能够使用这两个输入特征解释80%的工资变化。
  R2的缺点:
  随着输入特征数量的增加,R2会趋于相应的增加或者保持不变,但永远不会下降,即使输入特征对我们的模型不重要(例如,将面试当天的气温添加到我们的示例中,R2是不会下降的即使温度对输出不重要)。 指标五:Adjusted R2 score
  上式中R2为R2,n为观测数(行),p为独立特征数。Adjusted R2解决了R2的问题。
  当我们添加对我们的模型不那么重要的特性时,比如添加温度来预测工资.....
  当添加对模型很重要的特性时,比如添加面试分数来预测工资……
  以上就是回归问题的重要知识点和解决回归问题使用的各种重要指标的介绍及其优缺点,希望对你有所帮助。
  转载/机器学习研习院
  最后给大家分享一个数据分析图谱,内含数据分析12个常见分析模型、18个理论分支、136个详细知识要点和60多个实际分析场景案例,不懂或不记得的知识点拿出地图就能查,数据人必备!

运动服品牌MAIAACTIVE2023新年限定运动服饰系列重磅上市2023新年即将来临,专为亚洲女性设计的运动服品牌MAIAACTIVE重磅推出2023新年限定运动服饰系列,其中包括备受喜爱的明星家族产品MAIACLOUD云感系列不插垫BRA系列各有其特色几款优秀的品牌视觉VI创意今天给大家分享多款优秀的品牌VI视觉创意涉及到不同的行业以及创意方式但每款都有自己很多优点点下面欣赏一下ARTFULL品牌视觉Vi创意简约直观的视觉符号在核心视觉符号基础上进行了延飞科电器研究报告品牌革新,成长可期(报告出品方作者东北证券,刘家薇)1。个护小家电领导品牌,深耕行业二十载1。1。飞科电器,个护小家电领导品牌飞科电器是国内个护家电的领导品牌,集研发制造销售为一体,其拳头产品为电动老白山原生态森林体验区12月27日开园啦!畅享冬日美好吧!天仙碧玉琼瑶点点扬花,片片鹅毛在银装素裹间跳跃着北国冬韵的魅力白霜铺地,山舞银蛇这是敦化老白山允你的冬日美好老白山原生态森林体验区将于12月27日开园朋友们约起来吧一起领略老白山雪没有名气却值得一游的报国寺报国寺位于青浦朱家角镇西的淀山湖畔,在上海没有什么名气。我们之所以去报国寺,主要的目的有三个首先是参观古寺和寺中的古银杏树,其次是逛逛寺旁的网红村淀峰村,第三就是尝尝古寺的素斋。从林绿意盎然万物生2022年12月26日海南日报B10版版面图文海南日报记者刘宁玥入冬,俯瞰海南热带雨林,仍裹着一层绿衣,万物唱着无言的欢歌。五指山云雾缭绕,高大的枫树伸展枝条,初生红叶将树林染出丰准备去澳其实最初和朋友选择的是去新西兰打工度假,记得当时一年应该是一年1000个名额,每年财年(7月1号)发放,在看了很多人的经历后了解到网上申请签证很简单,难的是要在开放的瞬间抢到名额,雪中的念湖珠江网讯(通讯员赵万波)念湖,一个令人无限遐想的地方。每年冬季,当黑颈鹤到来,影友们就会追随着黑颈鹤的步伐,如约而至。念湖,是一个充满故事的地方,位于会泽县大桥乡,是会泽黑颈鹤国家漠河真的能看到极光吗?冬天去漠河旅行全攻略提起漠河,很多人都会想到北极光,因为网上有很多的宣传都是去漠河看北极光,配上幻梦般极光美图和视频,让你欲罢不能的想去漠河找北看极光。那么问题来了,漠河真的能看到极光吗?作为漠河旅行期盼那天三年疫情,断了我们出国游的念想,出省游,出区游,出县游也有所顾及,总是紧绷着防疫这根弦,不敢有所松懈。就是冒着胆量在国内游,也要承担遭遇风险的代价。在旅途中遇到封路,查验行程码,做免隔离,出境游复活!为了你这5个地方等了三年入境隔离取消!官宣恢复出境游!划重点了凭48小时阴性核酸证明入境,取消入境全员核酸检测和集中隔离。取消国际航班五个一(一司一国一线一周一班)及客座率限制,国际航班数量管控取消,频次
热得快炸了的魔都夏日,这款IQUNIXOG80快乐贩卖机和你更配哦写在前面的话大家好,我是老爹,我们又见面了!这一两周魔都的天气,真的可以用孟鹤堂相声里的一句经典来描述热得快炸了!不仅骄阳似火,而且不打雷不下雨,特别是这周,平均气温40,一点都没手机行业面临挑战?第二季度全球出货量数据出炉,OPPO稳居第四手机行业内卷化持续不断,即使在出货量逐年下滑的情况下,厂商之间的竞争依旧十分激烈。而在近日,调研机构Canalys公布了2022年第二季度全球智能手机出货量报告,数据显示该季度同比极速打印不耗墨!一机全家都能用!汉印FT800作业打印机测评前言升价啦升价啦!如果平时需要经常打印文件和证件又不能蹭公司打印机的朋友都知道,现在打印费用越来越高,加上现在打印店越开越少,临时想打文件还需要在手机地图搜索。尤其是家里有在上小学中国女篮王牌韩旭扬威!3次戏耍美国第一中锋,12分6板爆冷KO冠军北京时间7月24日,在今天最新结束的一场wnba的比赛当中,中国女篮的王牌巨星韩旭有着出色的发挥,最终砍下12分6个篮板,再加上2次助攻,帮助所在的纽约自由人队爆冷击败了卫冕冠军芝中俄伊印相继在国际贸易中放弃美元,美元霸权要被颠覆了吗?文华商韬略越奇最近,随着美联储的加息浪潮正在不断冲击全球资本之海,越来越多的全球资本和国际热钱开始回流美国。熟悉国际金融规律的人都对美国的这套操作习以为常了在美国经济形势好的时候就骁龙8新机买不起?可以考虑这5款旧旗舰,降幅都在2000元以上今年发布的骁龙8高端旗舰手机价格普遍比较高,像iQOO10ProOPPOFindX5Pro以及小米12SUItra,发售价都在5000元左右,有的来到了5999元。如果这已经超出了好用但不好看!华为Mate50Pro外形曝光在小米12Sultra发布后,不少博主也是纷纷送上好评,骁龙8Gen1的性能释放,徕卡加上一英寸大底的影像功能,小米自研的电池管理芯片,这款手机给了我们惊喜,也振奋了今年的高端手机拍照优秀颜值在线四款颜值新机手机推荐夏季一直是个拍照的好季节,满眼绿色先不说,光线上也更为明亮,非常适合早晨晚上去拍日出日落,而这时候你需要的是一部靠谱的手机。小编挑选了四款拍照不错同时颜值还不错的产品推荐给大家,这虚拟数智人艾雯雯入职国家博物馆据新华网消息,7月22日,由国家博物馆与腾讯SSV数字文化实验室联合打造,腾讯云小微提供技术支持的数智人艾雯雯正式亮相,成为国家博物馆一位特殊的新员工。艾雯雯这个名字,寓意她以AI19家上市车企半年报业绩预告乘用车企仅3家预增,商用车企一片惨淡21世纪经济报道记者宋豆豆报道据21世纪经济报道记者统计,截至7月19日,共有19家整车上市企业(7家乘用车企业和12家商用车企业)发布了2022年半年度业绩预报,仅有9家车企今年2022年6月中国餐饮业发展报告图片来源视觉中国文迈点行业动态1政策动态今年年初,国家发展改革委等多部门出台关于促进服务业领域困难行业恢复发展的若干政策,提出43条精准帮扶措施。国务院5月份印发扎实稳住经济的一揽