专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

风控模型应聘,80会被问到的面试题

  模型过拟合,对经常建模的小伙伴来说是非常熟悉的,稍不留神,模型就出现过拟合了,这让我们在解决模型过拟合问题上花费了不少功夫。同样这个也是在面试中最高频会被Q到的问题。因此,在平日里建立模型的过程中,虽然模型过拟合问题很难避免,但在处理时为了避免少走弯路,我们有必要熟悉下模型过拟合的原因,以及常见的处理方法,这对我们提高建模的工作效率是非常有帮助的。
  1、模型拟合介绍
  在了解模型过拟合问题之前,我们先整体熟悉下机器学习模型训练的本质,以及模型拟合结果的表现形式。机器学习的核心思路是采用相关模型算法(常见如线性回归、逻辑回归、决策树、K近邻、朴素贝叶斯等)对建模样本数据进行拟合训练,从而实现对未知新样本数据的有效预测。在这个过程中,我们可以把模型的预测数据结果与样本真实数据结果之间的差异程度称为误差。其中,算法模型在训练数据集上的误差称为训练误差,而在新的测试样本数据上的误差称为泛化误差。
  机器学习算法模型对训练样本数据集以外样本数据(包括验证数据集、测试数据集)的预测能力,也可以称为泛化能力,是机器学习提高模型性能的量化目标。在模型泛化能力表现不佳的原因中,过拟合与欠拟合问题是最常见的两种现象,下面简单介绍下二者的原理与区别。
  (1)模型过拟合
  模型过拟合,指算法模型的学习能力太强,使模型在训练拟合过程中,将样本数据中的个别特征当成了一般规律,更形象地说,就是把训练数据特征分布的个性作为所有潜在样本的共性来处理,从而导致模型的泛化能力很弱。过拟合问题通过模型指标可以直接反映,即模型在训练数据集上表现优异,但在测试数据集上表现较差。
  (2)模型欠拟合
  模型欠拟合,指算法模型的学习能力较弱,使模型在训练拟合过程中,难以学习到样本数据中的一般规律信息,直接导致模型的泛化能力较弱。从模型指标上体现,欠拟合问题在训练数据集和测试数据集的性能表现都比较差。
  从过拟合与欠拟合的原理可以了解到,二者都会导致模型的泛化能力较弱,只是在训练拟合阶段的学习能力差异较大,可理解为正好相反。无论怎样,这两类问题都是我们在实际建模过程中不愿意看到的,都需要做出相关处理,以保证模型的学习能力与泛化能力都表现较好。
  对于欠拟合问题来说,是相对容易解决的,情况本身在模型训练环节表现较差,也没有必要去进行建模样本外的性能测试,只需要对模型算法提高学习器的能力就可以解决,常见的方式是直接调整模型训练参数,比如增加模型迭代的次数等。
  对于过拟合问题,是我们建模过程中需要重点关注和解决的,因为这种情况需要将训练数据和测试数据的模型表现进行对比才能发现。而且,从机器学习角度来讲,模型过拟合问题是难以避免的,测试数据的模型表现总会与训练数据的模型表现存在一定差异。我们需要尽可能做到的是,在模型指标可以满足业务需求的情况下,将模型在训练数据的学习能力与测试数据的泛化能力之间的差异缩放到一定合理的范围内,这是我们最终实现模型上线使用前的目标。
  通过前边内容熟悉了模型过拟合与欠拟合的原理逻辑与业务背景之后,接下来我们结合实际场景情况,重点来分析下造成模型过拟合情况的相关原因。我们先从常用模型类型的角度,来看下回归模型与分类模型的拟合情况,具体示意图分别如图1、图2所示。
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  图1回归模型的拟合情况
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  图2分类模型的拟合情况
  由以上示意图可知,可以很形象地理解模型拟合的不同情况及其特点:
  (1)对于回归模型,通过可视化结果来反映(图1)。正常拟合的模型结果是一条坡度较缓的抛物线(optimum),样本点与拟合曲线存在的训练误差也是在合理范围内。过拟合的模型结果是存在很多拐点的抛物线(overfitting),虽然对样本数据特征学习很精准,但显然是对特征分布过于敏感,包括局部样本特征的个性化规律,并没有正确表达出数据分布的大众化规律。欠拟合的模型结果则是只拟合出一条直线(underfitting),显然没有真正学习到样本特征数据的真实规律。
  (2)对于分类模型,通过可视化结果来反映(图2)。正常拟合的模型结果是一条半圆形曲线(normal),存在轻微的训练误差也是完全合理的。过拟合的模型结果曲线是一条非常扭曲的形状(overfit),虽然对样本点做出了较准确的分类,但其中样本点必然会存在个别特征,不能代表整体样本的普遍规律,难以表达出样本主要且真实的分布规律。欠拟合的模型结果是类似直线作为分类边界(underfit),很显然存在误差较大,没有将样本特征进行合理区分。
  2、模型过拟合原因
  通过前边内容熟悉了模型过拟合与欠拟合的原理特点与业务背景之后,接下来我们结合实际业务场景,来重点分析下造成模型过拟合情况的原因,主要有以下几种可能情况:
  (1)模型训练数据的样本量不足
  在建模前的样本准备环节,样本量是明显的特征表现,理论上讲,建模数据的样本量越多越好,有利于模型的训练学习,但是也需要适当,如果样本量超过一定范围,一方面由于样本特征类似没有过多训练的必要,另一方面也会加大服务器的承载能力也会降低建模效率。但是,模型训练数据的样本量过少,比如只有几百条样本,难以代表实际业务数据的客观规律,这样使模型训练时仅能学习到当前样本可能存在较大区分度的数据规律,而反映在测试数据上的模型性能表现会直接变差。一般情况下,建模样本的训练数据量至少可以达到几千,比如逻辑回归等算法,但最合理的情况是能满足几万条,这对常用的决策数集成学习算法(如随机森林、XGBoost、LightGBM等)也是非常合适的。
  (2)建模样本的噪音数据干扰过大
  在训练样本数据中,如果存在的噪音数据(异常值)数量过多或者特征明显,会直接影响模型训练的效果,因为模型在训练拟合时,会较大程度学习到噪音数据的特征分布特点,忽略样本客观数据的整体规律,也就是实际业务数据输入与输出的真实关系。
  (3)模型训练拟合的迭代次数过多
  在常见算法模型中,我们都可以指定模型训练的迭代次数,一般情况下可以选择默认参数,但是为了提升模型效果,我们往往会重新定义迭代次数。在这种情况下,如果模型的迭代次数太少,模型并没有得到较好的学习,会直接产生模型欠拟合的情况。如果模型的迭代次数过多,模型会将学习到很多噪音数据的分布规律,以及少量没有较好区分能力特征属性,这样虽然可以保证模型训练后的性能指标较好,但很容易造成模型过拟合现象。
  (4)算法模型的参数复杂度过高
  在采用某模型算法进行训练时,我们会经常通过定义多个参数来调整模型性能,比如常见的随机森林、XGBoost、LightGBM等算法,算法内置的超参数较多,例如决策树数量、树的深度、树叶子节点数、学习率等。虽然这些参数对模型性能影响较大,有助于我们优化模型效果,但是如果对模型参数组合设置的太多,会导致模型的复杂度增加,例如决策树的数量太多、树的深度太大、树叶子节点过多等。在这种情况下,最终得到决策树集成学习模型,由于在训练过程按照入参超量要求进行过度学习,使得模型出现过拟合的问题。
  (5)测试样本与训练样本的特征分布差异较大
  为了保证模型的效果,我们在建模过程中,必然会采用测试数据来检验模型训练的效果。对于常提到的验证数据集与测试数据集,可以理解为样本内测试与样本外测试。其中,样本内测试数据和训练样本数据来源于同一个建模宽表,数据拆分过程经常采用的是随机抽样。对于样本外测试数据,是从时间窗口角度,在训练数据时窗后的样本。但是,我们在提取测试样本时,比如针对样本内的验证数据集,如果没有采用随机抽样方法,或者在随机抽样的基础上又限定了某个前提条件,很可能导致验证样本数据集与训练样本数据集的特征分布存在较大差异。同理,针对样本外的测试数据集,如果选取的时间窗口不合理,也很可能导致测试样本数据集与训练样本数据集的特征差异较大。在这种情况下,虽然模型在训练样本数据上得到了合理的训练学习,但是反映在测试数据集上模型性能会下降很多。当然,这种过拟合现象本质上可以称为伪过拟合,但同样是我们建模过程中需要避免的。
  3、过拟合解决方法
  根据以上介绍的模型过拟合现象常见的几种原因,我们在实际的建模过程中,只要重点关注以上情况,可以很大程度的避免模型过拟合问题。在具体实施解决方面,我们针对以上场景,来简要描述下具体的解决思路与方法。
  (1)增加训练数据集的样本量
  训练数据样本量的选取,具体需要结合模型采用的算法,例如逻辑回归算法对样本量相对较少,随机森林、XGBoost、LightGBM等决策树集成学习相对较多,而神经网络算法需要样本量更多。
  (2)减少模型拟合的特征数量
  通过特征相关指标进行变量筛选,常见特征分析指标有信息值IV、相关性pearson、共线性vif、贡献度importance等,同时可以采用特征聚类、特征降维等方法缩小变量池范围。
  (3)建模样本的数据清洗
  在模型训练前,要对建模样本的噪音数据进行处理,包括异常值处理、缺失值处理、重复值处理等,这样可以有效避免噪音数据在模型拟合阶段的干扰。
  (4)减少模型的迭代次数
  在合理的范围内,适当减少模型的迭代次数,可以有效保证模型较低程度地学习区分能力弱或分布异常的特征规律。
  (5)调低模型参数的复杂度
  模型算法默认参数情况下,适当降低某些重要参数的取值,以决策树学习算法为例,可以降低树的深度、树的叶子节点数等。
  (6)增加正则化约束条件
  对于逻辑回归、线性回归等传统机器学习算法,常见的有L1正则化与L2正则化,也就是在模型训练的损失函数中加入个正则化项;对于神经网络深度学习算法,增加Dropout层约束条件,本质也是正则化约束。
  以上内容便是根据建模过程中常出现的过拟合与欠拟合现象,分别描述了各种拟合情况的概念原理和分布特点。同时,围绕实际场景中需重点关注的模型过拟合问题,详细介绍了模型过拟合问题的主要原因,并具体分析了解决模型过拟合问题的思路与方法。在数据建模工作中,可以结合样本数据的实际情况,以及建模过程的分析步骤,合理选用数据处理方法,有效避免模型过拟合现象的出现,从而获得一个训练样本学习能力与测试样本泛化能力都表现较优的模型。
  另外在模型调参上,之前陈老师在星球上也发过一个详细的帖子,提到过如何增加模型的鲁棒性,避免过拟合的情况,具体请参考星球上的帖子:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  关于代码调参的内容,有兴趣的童鞋可继续关注
  《第94期会员课程:风控炼丹炉模型调参课》:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  。。。
  原创文章

站上2000美元大关金价狂飙后回落黄金还值得买吗羊城晚报全媒体记者戴曼曼欧美银行风险事件进一步刺激市场避险需求,金价直冲每盎司2000美元关口。随着黄金的持续上涨,A股的黄金板块在此前上演集体狂飙,包括赤峰黄金西部黄金湖南黄金等VacheronConstantin47101Lemania计时1989年,江诗丹顿为了向日内瓦钟表档案馆致敬,推出了ref。47101。设计师参考了20世纪49年代江诗丹顿大名鼎鼎的经典型号4178。三点位和九点位的刻度盘分别是30分钟计时刻ChatGPT爆火的背后人工智能与现实忧虑人工智能(AI)是一种快速发展的技术,它已经开始影响我们的生活和工作方式。虽然AI带来了许多好处,但也引起了人们的现实忧虑。以下是人工智能带来的现实忧虑1。失业率上升人工智能的出现藏在身边的4种助眠猛将!每天坚持吃,夜夜睡得好,不疲累藏在身边的4种助眠猛将!每天坚持吃,夜夜睡得好,不疲累在现代的生活中,随着压力的不断增加和生活节奏的不断加快,睡眠问题逐渐成为了很多人常常遇到的问题。睡眠不足失眠甚至成为了越来越多IPADiphone上的几百上千张照片视频,怎么批量传到电脑里?文章内有当初找了几百年的终极大招,若有用麻烦一键三连,跪谢!!!1如果电脑是Windows系统,可以用数据线连接iphoneiPad和电脑,然后在电脑上打开此电脑,找到苹果设备,进明代江南家族都有哪些类型家族?基本情况都是怎样的?对于明代江南家族群体发展基本情况的梳理是进一步探索江南家族群体园林活动的基础。明代江南家族群体皆有着漫长而又复杂的发展历程,每个家族的兴起路线既有其自身的特殊性,又存在一定的共性特24岁飞行员蒋文浩,抛弃家人当叛徒,只为2000两黄金,结局怎样?一湾浅浅的海峡,将台湾与大陆隔绝开来。自从1949年以来,两岸音讯不通长达38年,直到1987年这种状态才逐渐被打破,离家多年的游子终于有了回家的机会,两岸人员开始有往来交流。就在六部书吏尚书总督都是虚的,他们才是大清朝真正的当家人晚清中兴名臣胡林翼久任封疆大吏,对官场上的潜规则可谓了如指掌,在他看来,皇上好伺候,上司好对付,下属易驾驭,唯有六部书吏最难缠。清稗类钞中记载了胡林翼评价六部书吏的一段话大清律易遵百度文心一言潜藏风险,AI视频素材来源不明,创作者或陷版权风暴AI图文转视频功能存在版权风险百度视频素材来源不明作者IT时报记者孙妍编辑钱立富孙妍3月16日,李彦宏携百度文心一言亮相,并宣布开放邀请测试。虽然文心一言的能力受到了质疑,但毋庸置美媒美议员发第一条TikTok视频反对封禁TikTok,就是觉得不太对来源环球网环球网报道记者索炎琦这不仅是我的第一条TikTok,也是(第一条)关于TikTok话题的TikTok。在美国政坛曝光率颇高的民主党众议员亚历山德里娅奥卡西奥科尔特斯在其第校企合作的国家级智能化民爆实验室揭牌中国青年报客户端讯(通讯员胡芳张健奎中青报中青网见习记者杨洁)近日,河北云山化工集团有限公司与北京科技大学合作共建的国家级智能化民爆实验室揭牌。国家级智能化民爆实验室揭牌仪式现场。
历史上的克里米亚汗国曾经是欧洲最强大的国家之一克里米亚地区位于黑海北岸,是欧亚大陆的一个重要战略要地。它的历史可以追溯到公元前1300年左右,当时有一个叫辛梅里安人的民族居住在这里。后来,他们被斯基泰人罗马人拜占庭人蒙古人奥斯司马迁好评一边倒的历史学家中国上下五千年,在滚滚历史长河中涌现过无数风流人物,他们有的流芳千古受万人敬仰,也有的遗臭万年被人千古唾弃,现代学者对于这些历史人物大多褒贬不一,一部满江红更是因秦桧而被观众骂上了历史人物志奥巴马当上美国总统以前(1)奥巴马出生在美国,但其祖籍可以追溯到肯尼亚,他是美国历史上第一位具有非裔血统的总统。虽然美国社会对黑人和其他有色人种的种族歧视问题尚未完全解决,但已有了一定程度的进步。不同于许多美中国历史上559位帝王,有三分之一死于非命,哪一位死的最惨?中国历史从传说中的皇帝姬轩辕开始,到清朝最后一个皇帝溥仪为止,一共出过559位帝王,这些历史上的帝王,都是令人羡慕和仰望的存在。估计每个小男孩都曾经有一个皇帝梦,当皇帝多好啊,拥有中国历史十大奸臣成语指鹿为马的出处,宦官乱政的鼻祖赵高自大一统以来,历史上第一大奸臣赵高。史记蒙恬列传赵高者,诸赵疏远属也。赵高昆弟数人,皆生隐宫,其母被刑僇,世世卑贱。秦王闻高彊力,通于狱法,举以为中车府令。高既私事公子胡亥,喻之决8岁登基,中国历史在位最长的皇帝,他的一生都在送别清圣祖康熙皇帝,清朝第四任皇帝,8岁登基,14岁亲政,在位61年,是中国在位时间最长的皇帝。缺少父爱的孩子康熙的出生,是不被人期待的人。这个人,就是康熙的父亲顺治。康熙的母亲是皇宫中国历史上最强大的5位帝王,成吉思汗仅排第二,嬴政无缘前三?皇图霸业谈笑中,不胜人间一场醉这首诗描述了多少帝王的一生,在谈笑风生中创造属于自己的皇图霸业,然而到晚年时期再回顾往事发现也不过是一场空。而说到中国历史上的帝王,那真的是数不胜数,历史上俄罗斯到底做了什么,西方多国会如此敌视?俄罗斯是世界上国土面积最大的国家,横跨欧亚大陆,如果按国土面积的占比来划分俄罗斯严格意义是是亚洲国家但由于它的首都莫斯科在欧洲且俄罗斯人一直有欧洲情节,所以硬把自己说成是欧洲国家。魏晋风华绝代,三段古代传奇揭示晋朝兴衰历史开讲晋朝是中国历史上一个具有重要地位的朝代,其历史上发生了许多有名的故事,以下将介绍一些代表性的故事。1晋文公遇刺晋文公是晋朝时期的一位君王,他在位期间推进政治经济和文化的发展航拍江阴丨俯瞰城市几何之美从空中看江阴会是怎样的视觉体验今天,我们换个视角一起发现几何江阴的别样之美(左右滑动图片)街巷公园长廊道路林水相依道路延绵翠廊纵横碧水环绕充满趣味的线条色彩斑斓的色块复杂而规则的图给你三天玩转南京这个友爱的城市和鞥真的南京人私人定制版南京,一个来了确实不曾想过走的城市,深厚的历史文化积淀和经济的高速发展,造就了今日除了繁华以外给你印象最深刻就是大蓝鲸鞥(eng)真的南京人了。南京拥有令人艳羡的旅游团建活动的资源
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网