专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

风控模型应聘,80会被问到的面试题

  模型过拟合,对经常建模的小伙伴来说是非常熟悉的,稍不留神,模型就出现过拟合了,这让我们在解决模型过拟合问题上花费了不少功夫。同样这个也是在面试中最高频会被Q到的问题。因此,在平日里建立模型的过程中,虽然模型过拟合问题很难避免,但在处理时为了避免少走弯路,我们有必要熟悉下模型过拟合的原因,以及常见的处理方法,这对我们提高建模的工作效率是非常有帮助的。
  1、模型拟合介绍
  在了解模型过拟合问题之前,我们先整体熟悉下机器学习模型训练的本质,以及模型拟合结果的表现形式。机器学习的核心思路是采用相关模型算法(常见如线性回归、逻辑回归、决策树、K近邻、朴素贝叶斯等)对建模样本数据进行拟合训练,从而实现对未知新样本数据的有效预测。在这个过程中,我们可以把模型的预测数据结果与样本真实数据结果之间的差异程度称为误差。其中,算法模型在训练数据集上的误差称为训练误差,而在新的测试样本数据上的误差称为泛化误差。
  机器学习算法模型对训练样本数据集以外样本数据(包括验证数据集、测试数据集)的预测能力,也可以称为泛化能力,是机器学习提高模型性能的量化目标。在模型泛化能力表现不佳的原因中,过拟合与欠拟合问题是最常见的两种现象,下面简单介绍下二者的原理与区别。
  (1)模型过拟合
  模型过拟合,指算法模型的学习能力太强,使模型在训练拟合过程中,将样本数据中的个别特征当成了一般规律,更形象地说,就是把训练数据特征分布的个性作为所有潜在样本的共性来处理,从而导致模型的泛化能力很弱。过拟合问题通过模型指标可以直接反映,即模型在训练数据集上表现优异,但在测试数据集上表现较差。
  (2)模型欠拟合
  模型欠拟合,指算法模型的学习能力较弱,使模型在训练拟合过程中,难以学习到样本数据中的一般规律信息,直接导致模型的泛化能力较弱。从模型指标上体现,欠拟合问题在训练数据集和测试数据集的性能表现都比较差。
  从过拟合与欠拟合的原理可以了解到,二者都会导致模型的泛化能力较弱,只是在训练拟合阶段的学习能力差异较大,可理解为正好相反。无论怎样,这两类问题都是我们在实际建模过程中不愿意看到的,都需要做出相关处理,以保证模型的学习能力与泛化能力都表现较好。
  对于欠拟合问题来说,是相对容易解决的,情况本身在模型训练环节表现较差,也没有必要去进行建模样本外的性能测试,只需要对模型算法提高学习器的能力就可以解决,常见的方式是直接调整模型训练参数,比如增加模型迭代的次数等。
  对于过拟合问题,是我们建模过程中需要重点关注和解决的,因为这种情况需要将训练数据和测试数据的模型表现进行对比才能发现。而且,从机器学习角度来讲,模型过拟合问题是难以避免的,测试数据的模型表现总会与训练数据的模型表现存在一定差异。我们需要尽可能做到的是,在模型指标可以满足业务需求的情况下,将模型在训练数据的学习能力与测试数据的泛化能力之间的差异缩放到一定合理的范围内,这是我们最终实现模型上线使用前的目标。
  通过前边内容熟悉了模型过拟合与欠拟合的原理逻辑与业务背景之后,接下来我们结合实际场景情况,重点来分析下造成模型过拟合情况的相关原因。我们先从常用模型类型的角度,来看下回归模型与分类模型的拟合情况,具体示意图分别如图1、图2所示。
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  图1回归模型的拟合情况
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  图2分类模型的拟合情况
  由以上示意图可知,可以很形象地理解模型拟合的不同情况及其特点:
  (1)对于回归模型,通过可视化结果来反映(图1)。正常拟合的模型结果是一条坡度较缓的抛物线(optimum),样本点与拟合曲线存在的训练误差也是在合理范围内。过拟合的模型结果是存在很多拐点的抛物线(overfitting),虽然对样本数据特征学习很精准,但显然是对特征分布过于敏感,包括局部样本特征的个性化规律,并没有正确表达出数据分布的大众化规律。欠拟合的模型结果则是只拟合出一条直线(underfitting),显然没有真正学习到样本特征数据的真实规律。
  (2)对于分类模型,通过可视化结果来反映(图2)。正常拟合的模型结果是一条半圆形曲线(normal),存在轻微的训练误差也是完全合理的。过拟合的模型结果曲线是一条非常扭曲的形状(overfit),虽然对样本点做出了较准确的分类,但其中样本点必然会存在个别特征,不能代表整体样本的普遍规律,难以表达出样本主要且真实的分布规律。欠拟合的模型结果是类似直线作为分类边界(underfit),很显然存在误差较大,没有将样本特征进行合理区分。
  2、模型过拟合原因
  通过前边内容熟悉了模型过拟合与欠拟合的原理特点与业务背景之后,接下来我们结合实际业务场景,来重点分析下造成模型过拟合情况的原因,主要有以下几种可能情况:
  (1)模型训练数据的样本量不足
  在建模前的样本准备环节,样本量是明显的特征表现,理论上讲,建模数据的样本量越多越好,有利于模型的训练学习,但是也需要适当,如果样本量超过一定范围,一方面由于样本特征类似没有过多训练的必要,另一方面也会加大服务器的承载能力也会降低建模效率。但是,模型训练数据的样本量过少,比如只有几百条样本,难以代表实际业务数据的客观规律,这样使模型训练时仅能学习到当前样本可能存在较大区分度的数据规律,而反映在测试数据上的模型性能表现会直接变差。一般情况下,建模样本的训练数据量至少可以达到几千,比如逻辑回归等算法,但最合理的情况是能满足几万条,这对常用的决策数集成学习算法(如随机森林、XGBoost、LightGBM等)也是非常合适的。
  (2)建模样本的噪音数据干扰过大
  在训练样本数据中,如果存在的噪音数据(异常值)数量过多或者特征明显,会直接影响模型训练的效果,因为模型在训练拟合时,会较大程度学习到噪音数据的特征分布特点,忽略样本客观数据的整体规律,也就是实际业务数据输入与输出的真实关系。
  (3)模型训练拟合的迭代次数过多
  在常见算法模型中,我们都可以指定模型训练的迭代次数,一般情况下可以选择默认参数,但是为了提升模型效果,我们往往会重新定义迭代次数。在这种情况下,如果模型的迭代次数太少,模型并没有得到较好的学习,会直接产生模型欠拟合的情况。如果模型的迭代次数过多,模型会将学习到很多噪音数据的分布规律,以及少量没有较好区分能力特征属性,这样虽然可以保证模型训练后的性能指标较好,但很容易造成模型过拟合现象。
  (4)算法模型的参数复杂度过高
  在采用某模型算法进行训练时,我们会经常通过定义多个参数来调整模型性能,比如常见的随机森林、XGBoost、LightGBM等算法,算法内置的超参数较多,例如决策树数量、树的深度、树叶子节点数、学习率等。虽然这些参数对模型性能影响较大,有助于我们优化模型效果,但是如果对模型参数组合设置的太多,会导致模型的复杂度增加,例如决策树的数量太多、树的深度太大、树叶子节点过多等。在这种情况下,最终得到决策树集成学习模型,由于在训练过程按照入参超量要求进行过度学习,使得模型出现过拟合的问题。
  (5)测试样本与训练样本的特征分布差异较大
  为了保证模型的效果,我们在建模过程中,必然会采用测试数据来检验模型训练的效果。对于常提到的验证数据集与测试数据集,可以理解为样本内测试与样本外测试。其中,样本内测试数据和训练样本数据来源于同一个建模宽表,数据拆分过程经常采用的是随机抽样。对于样本外测试数据,是从时间窗口角度,在训练数据时窗后的样本。但是,我们在提取测试样本时,比如针对样本内的验证数据集,如果没有采用随机抽样方法,或者在随机抽样的基础上又限定了某个前提条件,很可能导致验证样本数据集与训练样本数据集的特征分布存在较大差异。同理,针对样本外的测试数据集,如果选取的时间窗口不合理,也很可能导致测试样本数据集与训练样本数据集的特征差异较大。在这种情况下,虽然模型在训练样本数据上得到了合理的训练学习,但是反映在测试数据集上模型性能会下降很多。当然,这种过拟合现象本质上可以称为伪过拟合,但同样是我们建模过程中需要避免的。
  3、过拟合解决方法
  根据以上介绍的模型过拟合现象常见的几种原因,我们在实际的建模过程中,只要重点关注以上情况,可以很大程度的避免模型过拟合问题。在具体实施解决方面,我们针对以上场景,来简要描述下具体的解决思路与方法。
  (1)增加训练数据集的样本量
  训练数据样本量的选取,具体需要结合模型采用的算法,例如逻辑回归算法对样本量相对较少,随机森林、XGBoost、LightGBM等决策树集成学习相对较多,而神经网络算法需要样本量更多。
  (2)减少模型拟合的特征数量
  通过特征相关指标进行变量筛选,常见特征分析指标有信息值IV、相关性pearson、共线性vif、贡献度importance等,同时可以采用特征聚类、特征降维等方法缩小变量池范围。
  (3)建模样本的数据清洗
  在模型训练前,要对建模样本的噪音数据进行处理,包括异常值处理、缺失值处理、重复值处理等,这样可以有效避免噪音数据在模型拟合阶段的干扰。
  (4)减少模型的迭代次数
  在合理的范围内,适当减少模型的迭代次数,可以有效保证模型较低程度地学习区分能力弱或分布异常的特征规律。
  (5)调低模型参数的复杂度
  模型算法默认参数情况下,适当降低某些重要参数的取值,以决策树学习算法为例,可以降低树的深度、树的叶子节点数等。
  (6)增加正则化约束条件
  对于逻辑回归、线性回归等传统机器学习算法,常见的有L1正则化与L2正则化,也就是在模型训练的损失函数中加入个正则化项;对于神经网络深度学习算法,增加Dropout层约束条件,本质也是正则化约束。
  以上内容便是根据建模过程中常出现的过拟合与欠拟合现象,分别描述了各种拟合情况的概念原理和分布特点。同时,围绕实际场景中需重点关注的模型过拟合问题,详细介绍了模型过拟合问题的主要原因,并具体分析了解决模型过拟合问题的思路与方法。在数据建模工作中,可以结合样本数据的实际情况,以及建模过程的分析步骤,合理选用数据处理方法,有效避免模型过拟合现象的出现,从而获得一个训练样本学习能力与测试样本泛化能力都表现较优的模型。
  另外在模型调参上,之前陈老师在星球上也发过一个详细的帖子,提到过如何增加模型的鲁棒性,避免过拟合的情况,具体请参考星球上的帖子:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  关于代码调参的内容,有兴趣的童鞋可继续关注
  《第94期会员课程:风控炼丹炉模型调参课》:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  。。。
  原创文章

海南一导游嫌弃游客不购物,发飙歧视游客,可真是世风日下这些年来大家的生活条件越来越好,很多人都喜欢出去旅行,但因为没有任何的经验,大多数的人最后还是选择抱团旅行,这样不仅能够免去订酒店机票的麻烦,还能够让大家更加专业的去了解当地的人文清明至!三苏祠景区服务暖心,游客文明随行文化底蕴深厚景区停车免费志愿服务周到,处处都能感受到景区的用心和细心这是清明节假期,市民游客游览三苏祠景区后留下的深刻印象,他们为景区的热情服务点赞。游客文明游览三苏祠。据了解,为省会市内公园广场清明假期接待游客达30余万人次创三年内新高今年清明假期适逢雨后初晴,春暖花开,气候宜人。省会各公园广场丁香海棠樱花碧桃郁金香牡丹等春花植物争相绽放,春意盎然,引得游人纷纷驻足。由于清明假期较短,市内公园广场和水系沿线绿地就安徽大别山万壑草木深千山杜鹃红岳西的映山红以红色居多,色彩格外艳丽。徐进群摄中新网安徽安庆4月6日电(徐进群储玮玮)清明前后是大别山映山红盛开的季节。在安徽省岳西县的山坡上,红的紫的黄的映山红竞相开放,蜿蜒在群当4。8B的以太坊期权到期时会发生什么?大量比特币和以太坊期权合约即将到期。此外,这些事件通常会导致标的资产价格波动。衍生品交易活动发生了重大转变,以太坊期权交易超过了比特币。37,000个比特币期权即将到期,名义价值刚调试kprobes(二)使用方法前言上一节介绍了kprobe的基本概念,下面我们将使用几个具体的例子,看下kprobe在实际使用中有那些应用场景。kprobe内核的sampleskprobe目录下有kprobe相Qt在windows下和linux下使用WEBQt在windows下和linux下使用WEB由于在linux下没有QAxWidget,但为了保证之前的Windows程序可以使用的,就需要将这两个分开qt创建。pro文件win3芯片版图再下一城,探路者双主业战略的升维之路世人都知道三星的强大,在全球智能手机市场份额排名第一,占据OLED面板市场一半多的份额,同时也是全球最大的半导体制造商之一。如今三星的意义已经远超一家企业本身,涉足半导体化工电子汽光子以光速撞击人体,为什么我们一点事也没有?光子击中人体的速度为光速,为什么我们一点事也没有?光子是一种电磁波的粒子性质,是光的基本单位。光子的能量是由其频率来决定的,能量与频率成正比,与光子的数量无关。具体来说,能量E等于细节控蔚来EC7,高性能基因,超百项配置,带您赏析随着科技的飞速发展,人们对于汽车的需求也在不断变化。蔚来EC72023款100kWh首发版的推出,给人们带来了全新的出行方式选择。今天,我们就来看看这款未来出行新选择的特点和优势。P2P就是一场金融诈骗无数被骗的人就是金融难民P2P诈骗祸害了中国的金融投资者,也破坏了游戏规则,也给我们每个人上了一堂金融教育课还记得2018年6月底,一场突如其来的噩耗让我痛不欲生,在那个夏天,我看见地铁里反复在播放警察提
泰坦陨落2评测女人只会影响我开机甲的速度如果让我用短小精悍这个词来夸奖一个东西,那我觉得用来形容泰坦陨落2应该是再好不过了。当我在Steam促销以极低的价格入手了泰坦陨落2后,简直惊为天人,这是我玩过手感最棒的FPS游戏索尼克乐高积木正式宣布将于明年1月1日开售经过上周提前泄露之后,今天(12月29日)凌晨,乐高联合SEGA正式发布了索尼克乐高积木套装。该积木将于2022年1月1日起正式开售。索尼克乐高积木演示优酷视频云和之前任天堂的马里热血传奇这个游戏真的还能玩吗?能玩啊,怎么不能玩?不是还有那么多人玩吗?请原谅小弟又不务正业来回答这个问题了。虽然现在玩传世的人可能不太多了,但并不阻碍还有很多有情怀的玩家仍然在坚持,其中也包括小弟哈!说起来传败家的过完了2021年,2022年有哪些数码产品值得买?用两个字概括我的2021,我大概会说奢侈。真的,不知道你们是怎么样的感觉,我这几天把各个消费平台的年度账单都看了个遍,感觉自己在消费能力上看起来绝对是已经迈入有钱人行列了,动不动就频繁换帅,外援全离开,如今核心也要走,国安或再也无法永争第一北京国安在2021赛季的中超比赛中,19轮过后在积分榜上以28分排在了第7的位置,好像和永争第一的口号有些不搭边。这还不是更糟糕的,下个赛季的国安可能会更惨,不但无法争第一,而且有政务大数据平台资源平台数据平台建设解决方案来源网络政务大数据平台建设的必要性为响应国家不断加快5G基建大数据人工智能等新型基础设施建设布局,切实推动新基建产业发展,提升某市数字经济的比重。结合我省数字政府建设的工作需求,搭易建联是否还是9号新秀,男篮未来核心人选在哪里?随着赛季的深入,广东队在本赛季也取得了不错的成绩,赵睿胡明轩徐杰三位杜峰的得意弟子也是发挥不错,为广东队未来奠定基础。然而本赛季令人最担心的事还是发生了,大伤归来的易建联下降明显,每天十分钟轻松保健康长寿是养出来的,抓住早晨黄金10分钟!11分钟叩齿,让牙齿更加坚固。21分钟揉腹,促进头部血液循环。31分钟左右翻身,活动全身筋骨。41分钟伸懒腰,使全身得到放松。51分钟五指梳头高血脂症饮食建议每天均衡摄取六大类食物,包括奶类五谷根茎类鱼肉蛋豆类蔬菜类水果类及油脂类。食物应多选择脱脂低脂奶鱼类(不含腹部及鱼皮)鸡鸭鹅(去皮)牛羊猪的瘦肉部分。避免吃高胆固醇含量食物。例如内中医对腰腿痛的认识?中医认为腰为肾之府,肾主腰脚。腰腿与肾联系最为密切。肾位于腰部,脊柱两旁,左右各一。素问脉要精微论说腰者,肾之府。由于肾藏有先天之精,为脏腑之本,生命之源,故称肾为先天之本,其主要古李时代之后世界围棋的走向朴廷桓和申真谞夹击中国第一人柯洁1988年世界围棋大赛元年以来,中日韩三国演义大致经历了以下几个阶段19881995年是中日韩互殴,但曹薰铉后来居上19962005年是韩国一枝独秀,基本由李昌镐主宰2006201
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网