童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

数据把戏:为什么总有乙方号称他的模型效果达到0。6?

6月6日 老巫婆投稿
  风控是个很专业的领域,避免不了内行忽悠外行的现象。而数据把戏(TrickofData)就是其中常见的一种。如何识别和应对呢?
  在读研究生的时候,曾经跟师弟们做过一次交流,其中举到一个例子:
  如果因变量是中国的人均GDP,自变量包括你家门口的那棵树的高度,你用了简单的模型去拟合,结果你会得到“你家门口树的高度,对中国人均GDP有着显著的促进关系。”这样啼笑皆非的结论。
  为什么会这样?
  主要是因为我们过多的重视了变量之间数量上的关系,而忽略了变量之间的经济学联系,缺乏了经济学理论的思考才会这样。
  这样的结论就是一种数据把戏(TrickofData)。
  工作之后,发现也有很多需要模型的地方,而跟很多风控乙方沟通发现很多乙方都会用种种TrickofD来忽悠并不是专业做模型的业务人员,所以从今天开始会更新几篇关于这种数据把戏的文章,各位在做业务交流的时候可以避免类似的坑。
  EP01为什么总有乙方号称他的模型效果达到0。6?
  我相信做风控策略的小伙伴在与风控乙方接触的时候,总会有那么几个乙方会去推销自己的某个数据或者模型分,而模型的区分效果张口就是0。5甚至0。6,回去一查,哎哟,这是个很好的模型啊,赶紧签商务合同接进来试试,结果发现差强人意?
  这个时候乙方的销售会说一定是你们的业务跟模型样本不太匹配,要不我们再联合建模下?
  你不信邪,自己开始做模型,结果怎么都达不到人家的精度,你是不是开始郁闷:
  为什么乙方的模型能达到这么高的ks,你却不行?
  首先,什么是风控模型中的KS值?
  KS用于模型风险区分能力进行评估:指标衡量的是好坏样本累计分部之间的差值。
  KS的计算步骤如下:
  1。计算每个评分区间的好坏账户数。
  2。计算每个评分区间的累计好账户数占总好账户数比率(good)和累计坏账户数占总坏账户数比率(bad)。
  3。计算每个评分区间累计坏账户占比与累计好账户占比差的绝对值(累计good累计bad),然后对这些绝对值取最大值即得此评分卡的KS值。
  所以确实是这样:
  好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。
  因为KS值确实是代表着很强大的区分力,所以很多甲方的业务同伴就会被忽悠,那在排除乙方销售在数据造假的情况下,为什么有的乙方确实就能宣称自己模型KS值高达0。6呢?这主要有以下几种可能:
  1。建模样本坏样本比例过高
  如果建模过程中坏样本比例过高,那么是可以有机会达到这个值的。
  举例如下:
  (1)如果建模样本中好坏样本比例goodbad5050,坏账率为50;ks值0。6指的是如果在误杀20好用户的情况下可以识别80的坏样本;那么使用模型之后的结果为goodbad4010,坏账率变为20;这个我们做风控策略的人都知道在使用一些较好的变量的情况下是有可能的,因为毕竟做到50的坏账已经是够烂的了。
  (2)如果建模样本中好坏样本比例goodbad8020,坏账率为20;ks值0。6指的是如果在误杀20好用户的情况下可以识别80的坏样本;那么使用模型之后的结果为goodbad644,坏账率变为5。88,其实我们知道这个一个模型是很难做到。
  通过上述这个例子我们知道,不同的样本比例的情况下KS值提升的难度是有很大不同的,不同模型的KS值比较优劣前提是要基于建模样本比例类似,否则不具有横向比较性。
  2。样本滞后性
  乙方一般选用的样本都是来自于甲方数月之前的业务数据,但是选用变量的时候存在着滞后性,而这种滞后性会导致变量偏差,比如最简单的芝麻信用分,在3个月前进行业务申请的时候是680,但是此时该用户的芝麻信用分因为多次逾期已经降到550了,所以在建模的时候有很多模型方都没有考虑到这种变量时滞性,尤其是重要变量的时滞性,导致模型能够得到一个超高的ks。
  3。模型过拟合
  这个我相信专业的建模人员都不太会去犯这样的错误,但是不可否认还是有很多良莠不齐的乙方用不懂业务的纯建模人员,在这样的过程中会犯类似的错误,尤其是深度神经网络和随机森林这样的算法,刻意的调参有可能达到过高的ks值,这才是真正的数据把戏。
  模型的ks值是一个很好的体现模型效果的变量,但是一定要注意了,不要被这样的数据把戏给蒙蔽了,业务人员还是要懂一点模型才不至于被忽哟,当然风控的建模人员也要懂一点业务才行。
投诉 评论

后台产品设计系列:搜索的细节(八)一个看似简单的搜索功能,却包含许多“不为人知”的细节。本篇文章详细地介绍了后台产品搜索的相关细节。魔鬼存在于细节。后台产品中,搜索是非常常用的功能,几乎每个数据列表上都会……数据把戏:为什么总有乙方号称他的模型效果达到0。6?风控是个很专业的领域,避免不了内行忽悠外行的现象。而数据把戏(TrickofData)就是其中常见的一种。如何识别和应对呢?在读研究生的时候,曾经跟师弟们做过一次交流,其……资产负债表(科目篇):负债和所有者权益科目与资产类科目相比,负债和所有权权益类科目相对比较简单,企业也很少在这些科目中造假。负债科目1。短期借款短期借款指企业根据生产经营的需要,从银行或其他金融机构借……产业互联网产品设计五要素产业互联网产品设计的要素,可以归结为这五个,分别是战略承载力、生态扩展性、金融融合度、业务体验、产品体验。前言这篇文章是产业互联网产品系列的最后一篇,前面分别从产业……设计模式界面设计中的模式在设计用户界面时,会遇到常见问题的重复解决方案。那么,在界面设计中有些什么样的模式呢?写在前面为了理解用户交互设计中的模式是什么,只需与现实世界的对象进行类比即可。……APP图标风格与创意设计的方法分享本篇文章分享了一些如何确定、把控图标风格,以及图标设计的创意方法,对于刚入职场的设计师们来说非常实用。图标是用户在应用中接触最多的视觉符号,它既承载了引导用户操作的功能,……从360到腾讯设计师,我的2018年度总结一年的时间很快,一不留神就发现2018年已经接近尾声,每年的这个时候,我都会给自己写一份总结,来回顾这一年来走过的路和收获的成长。先以流水账的形式屡一下自己的一些经历:……三方面入手,教你快速掌握登录页定稿思路本文作者主要从三个方面入手,对登录界面的设计样式进行了梳理,供大家参考学习。最近在公司刚做完一个项目,在设计过程中遇到一个大家常会遇到的问题没思路,不知道该如何下手,因此……优化B2B网站体验的10个最佳实践(下)在进行网站设计的时候,尽管遵循一些启发式方法都只是一种理智的行为。虽然这些启发式方法不是网页设计的固定规则,但它是一个很好的起点。可用性原则4:UseConsistenc……2019,产品人和设计师如何培养这5个好习惯在《想了解交互设计师吗?这份KASH能力图谱可以帮你》发布后,有读者给我留言说希望看到关于习惯的一些内容。其实,习惯(H)和态度(A)一样,无论你是设计师还是产品人,这两项底层……如何利用数据支撑产品设计(上):建立数据在项目开发过程中,设计师需要考虑设计方案的最终结果,想要验证设计结果,必须要一些数据作为依旧支撑。一、为什么要利用数据支撑产品设计?原因很简单:在项目开发过程中,设……积分红包设计流程详解2019年春节就要来临,为了满足用户在公司内部通讯产品上互发积分红包的需求,作者仿照微信红包撰写了一份积分红包的需求设计说明书,供大家参考学习。一、积分红包通用规则……
碰碰:陌生人游戏交友6个月完成1700万美元融资关于融资演讲稿你不可不知的那些事钱袋宝孙江涛做天使投资要懂“五门秘籍”简单来说,创业公司融资的基本流程有这些?好人创业先谈钱坏人只和你谈理想创业公司融资潜规则:少融怡情多融伤身?这些屌炸天的创业者为何对投资人说NO首次融资要做哪些准备?早期创业哪些钱不能拿?融资失败的十大陷阱:创始人裸退尽调挖出管理问题估值10亿后倒闭资本是把杀人刀?VC拒绝创业企业时必备的6个套路!如何向投资人委婉的表达:我们什么都不缺只缺钱?31岁任骏飞颇受杜锋重用!任劳任怨享受顶薪,妻子高学历博士在南京微度假浦口行盘点老人长寿离不开的哪几种食物被裁个月后我拿到上市公司悲观者往往正确但乐观者往互联网保险销售渠道有哪些初次相亲必学的攻略女人上了年纪,如何穿得有灵气还减龄?旅行用什么牙刷方便携带金史《完颜永蹈传》原文及翻译上海廉租房办理步骤最新同学聚会班长主持词麻烦问下cpue31230v3,显卡gtx960为什么打英雄

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界