童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

谁是狼人:模型的建立与应用

5月1日 火云谷投稿
  相信很多小伙伴们都玩过狼人杀的游戏,今天,作者将从狼人杀这款游戏出发,来和大家一起谈讨下数据与模型。
  数据挖掘1:谁是狼人
  玩过狼人杀的小伙伴们知道,狼人杀的魅力就是妥善利用各种信息,并加以推断,找到狼人玩家。对于新手而言,拿到狼人牌后,多半会显得紧张、结巴、语无伦次,甚至直接会在话语中暴露出狼人身份,坐实狼人身份。
  而高玩在拿到狼人牌时,会很好隐藏自己身份,使得普通玩家难以判断。那么问题来了,谁是狼人?
  现实中,这样的“狼人”并不少见。
  在信贷场景下,借贷者借钱后可能会恶意逾期不还,成为一个“狼人”。
  “引狼入室”是借贷机构所不愿见到的,因此他们也想出了一些办法来识别借贷者的身份,比如人工验证借贷者的学历、收入、征信等信息。一段时间后,机构开始顶不住了,借钱的人太多了,审核不过来。而且由于审核方式单一,很多“狼人”巧妙利用各种方式通过审核,继续坑钱。
  虽然一定程度上可以对审核规则进行更新,但“狼人”总能找到新的缺口,通过审核。这可愁坏了借贷机构,这造成的损失谁顶得住啊!
  模型本质2:机器学习
  不过,再会玩的狼人都会在言行上透露出狼人的本质。他们一言一行中总会给出细微但有价值的信息,积少成多,最终帮助我们揪出他的狼尾巴。只是,我们如何利用好这些信息呢?
  随着大数据的崛起和机器学习的应用,借贷场景下的“狼人”开始无所遁形,我们可以掌握其更多维度的信息,帮助我们去判断借贷者的好坏身份,比如app安装偏好、地理位置等信息。
  然后合理的运用机器学习建模方法,就可以将这些信息妥善利用起来,让“狼人”露出原形。这可乐坏了借贷机构,终于有解决办法啦!
  模型3:逻辑与统计的胜利
  狼人杀本就是个逻辑推理游戏,需要参与者能够准确抓住那些有助于我们判断的信息,并理性、客观地分析,最后找到狼人。只有这样,我们才能锻炼出“神预言家”的能力,并在不同对局中,都能准确找到“狼人”。
  模型的运作就像一个机械化工厂,不同于人工审核(手工作坊)的方式,它更精密、准确,面对海量、多维度、弱特征的信息(如网络行为特征、地理信息等)时,仍可以高效率完成判别,大大提高工作效率,并且保证质量。
  模型基础之一4:数据
  纸上得来终觉浅,绝知此事要躬行,光知道玩法是不行的。
  要想成为狼人杀推理高手,最重要的就是多玩、多分析。一方面,要进行大量对局,加深我们对狼人杀游戏玩法的理解;另一方面,也要和不同的人对局,获得足够多的玩家信息,便于我们了解玩家。
  同样的,模型再好也需要数据支撑,数据的好坏是决定模型效果的最重要一环。一般情况下,对于已有的海量数据,我们都需要进行处理,如填补变量缺失值、组合变量、衍生变量等。
  1。特征筛选
  由于狼人杀局内信息繁多,我们只需要挑选比较有价值的信息进行分析,场外信息和无关信息需要过滤,否则会降低我们分析的严谨性和可信度,从而不被其他玩家信任,这对于自诩“高玩”的我们肯定是太不能接受了。
  游戏尚且如此,建模就更不能马虎了。建模中,必须要对样本特征进行严格的筛选,把对业务上有解释意义的变量纳入模型。
  否则,面对你的建模结果,别人会一脸渴(meng)求(bi)地问:身高怎么就对一个人的逾期率产生了影响?实际操作中,我们会对诸如手机号、设备所在经纬度这样的变量进行剔除,选择个人兴趣偏好、多头得分等有解释意义的变量进入模型。
  2。样本与标签选择
  苦练之下,终有所成,我们的狼人杀技术已经相当厉害了。正准备一展才华时,才发现他们要玩斗地主。慌乱之下,被地主打的落花流水,郁闷难当。
  总结经验,就是先明确要玩什么,再去做准备。
  建模也是一样。我们的建模是基于信贷场景下的。并且,根据不同的业务需求,建模所需准备也不同。对于贷前、贷中和贷后三个场景,我们对于“狼人”的定义和认知也是不同的。
  贷前阶段,我们不知道借贷者是否是“狼人”,只是用模型去判断他的身份,避免“引狼入室”,但总会有遗漏;贷中和贷后阶段,我们发现了那些溜进来的“狼人”,这时,就需要对他们坏的程度进行确定,以采取进一步的手段和措施。
  这里,发现“狼人”和判断“狼人”有多坏需要用到不同维度的信息,这就要求在建模中要选择同业务需求相一致的样本数据。
  模型基础之二5:算法
  终于,我们愉快的进行了几场狼人杀游戏。并且发现,每个人的思考逻辑、分析角度都不太一样。有的人只根据当前轮次的发言进行分析,有的人则倾向于将多轮次的发言综合起来分析,也有人选择划水,使得分析的结果也各不相同。
  面对同样的业务需求,我们也可采用不同的建模方法。当然,不同建模方法之间互有优劣,具体如何采用,需要结合实际,妥善选择。信贷建模最为常用的当属LR,但其在大数据应用方面稍显逊色。实际中,我们更倾向于使用GBDT进行建模。
  模型评估6:谁是“神预言家”
  愉快的时光总是短暂的,游戏结束了。但这是否是几场高质量的对局?谁会是那个“神预言家”?
  一般而言,需要通过多次对局、甚至和不同玩家多次对局才能判断玩家的推断能力。该玩家在某局推测的准确性多高?是否在不同局中都能保持这样的准确率?
  模型完成后,也需要验证其准确性和稳定性,看它在其他样本(测试集、跨时间窗口样本)上的效果是否准确、稳定。
  如果效果不好,则需要考虑重新调整样本(变量再筛选、再组合等)、模型参数,直到模型表现好为止。很多时候,这并不是一蹴而就的事,需要多次反复进行。
  模型之痛7:巧妇难为无米之炊
  经过废寝忘食的练习,我们终于成为了狼人杀高手。本以为会在游戏中练就火眼金睛,铲除狼人,带领队友走向胜利,却发现,己方全是“猪队友”,身为平民的我,无法获取足够信息,导致判断失误,痛输对局。或许此时,我们已经不能再玩低端局了。
  虽然我们可能对建模方法的使用了如指掌,但没有足够有效的数据,我们也很难训练出一个好的模型。当前虽然是大数据时代,但对于很多小微企业、甚至很多大企业而言,如何获得数据都是他们所无法解决的痛点,即便掌握优秀的建模技能,但缺乏数据验证,也难以做出好的模型。

谁是狼人:模型的建立与应用相信很多小伙伴们都玩过狼人杀的游戏,今天,作者将从狼人杀这款游戏出发,来和大家一起谈讨下数据与模型。数据挖掘1:谁是狼人玩过狼人杀的小伙伴们知道,狼人杀的魅力就是妥……互联网大厂的新年礼盒,让人羡慕到变形礼物代表了一份心意,表达了一份情谊,新年快到啦,你的礼物已经准备好了吗?春节将至,各公司争奇斗艳的舞台已经搭好了!朋友圈里的年会“特展”如火如荼,年会规模、节目质量……餐饮行业的融资困局如何破解?这些互联网公司探索出三条路径餐饮行业自身的特殊性决定了其难以获得传统金融机构的资金支持,如何破解餐饮金融困局一直以来都是互联网金融行业的一大难题,但是,在互联网力量地不断探索下,当前已有三条解决问题的路径……90的人所理解的“差异化”都是错误的当你发现你的品牌陷入同质化困境中时,有什么办法能够突出重围呢?本文将会为你介绍以下三种方法:逆向战略、改变类别、敌意品牌。什么是差异化?“差异化就是跟别人产生不一样……商业计划书:投资人更看重的是你项目的未来本篇文章为大家介绍了在商业计划书中,第六个模块下,我们应该展现给投资人看到些什么。今天我们进入到整个商业计划书的第六个模块,就是对未来的规划。我们的前面五个模块分别……个推大数据报告:短视频APP行业研究报告研究背景:互联网上的内容从文字、图片到视频不断迭代。2017年,短视频成为内容领域最疾速的风口之一,也是资本界争相抛出橄榄枝的对象。这个行业新贵辈出,BAT也相继入场,个……佩奇们的贺岁档和媒介场春节将近,一年一度的电影贺岁档也即将敲响锣鼓。从公布即将上映的电影中来看,2019年贺岁档可以说是佳片云集,你是否对此也正满怀期待呢?德国媒介理论学家鲍里斯格罗伊斯在他的……同样是刷屏,为什么一条可以转型而你的不能如果不能沉淀自有数字化社交资产,你的用户就会在广域的流量池中和你渐行渐远。01:同样是刷屏的文章,为什么大家知道《疫苗之王》的同时,也知道了兽爷,但并不知道《这块屏……风口难造,Vlog这把火要怎么烧?2018年短视频兴起,Vlog这种视频博客的形式也进入大家视野。但目前的情况来看,不论是平台还是用户,都还在摸索阶段;谁会成为第一个掘金者呢?欧阳娜娜、吴磊、王源这些明星……用KANO模型打造你的购物清单人的需求可以分为三种:基本型需求,期望型需求和兴奋型需求。KANO模型是一种可以针对用户需求分类和优先排序的工具,如果你苦于无法控制自己的购物欲,不妨试试用KANO模型来打造你……2019短视频的增量,可能会出现在Vlog身上2018年抖音的崛起,大多数人的目光都落在了短视频上。而Vlog这种形式也逐渐被大家认知。2019年,会不会是vlog的突破呢?对于许多国外用户和留学生而言,vlog已经……ReProduct:从消费者企业和设计者的角度,重新思考“产什么叫做“ReProduct(重塑产品)”:实际上就是从创新突破、把握市场脉搏、用体验作饵以价格筛选消费者。蓦然回首,惊觉站在年前的最后一周。在大家忙着准备“年货”……
高通要用5G改善生活方式,万兆级毫米波连接为实现目标打下基础越来越感觉到,生活在一个科技爆炸的时代是多么幸运的一件事情。想喝一杯香浓的咖啡,会有专属的5G机器人“咖啡师”为你送上;想在书海里徜徉,先进的AR技术可以带你直接进入文字的世界……5G胶原科技“美丽出圈”!创福康精彩亮相西安皮肤科年会2020年新冠黑天鹅突袭,疫情之下,全国皮肤科年会以线上创新形式上演。2021年,中华医学会第二十七次全国皮肤性病学术年会,首次以线上线下“双结合”的形式,近日于西安国际会议中……五月移动5G套餐客户超2。2亿总用户达9。4亿站长之家(ChinaZ。com)6月21日消息:今天,中国移动发布了截至到2021年5月的运营数据。截至到5月份,中国移动5G套餐客户超过2。2亿,当月,中国移动移动客户数净增……一加NordN2005G将获得一次Android大版本更新和9to5Google报道称,一加OnePlusN2005G智能机目前正处于奇怪的“半发布”状态。上周美国运营商TMobile已经揭示了它的存在,但一加官网尚未刷新。感兴趣的朋友……5G行业应用照进现实,高通展示300项技术成果,仅是冰山一角2021年是5G技术和应用加速普及的一年,如果你留心观察就会发现,自2019年我国5G开始商用以来短短两年的时间,我们的生活已经因为5G的到来而悄然发生了很多的变化。无论是随处……GalaxyZFold3将以W225G登陆国内市场:外观有改报告称,三星即将于8月推出GalaxyZFold3,这款可折叠手机将会在全球市场发售。而在中国市场,三星还有望继续和中国电信独家合作推出GalaxyW225G手机。去年,Gal……中国移动旗下NZONES7Pro5G正式发布今年6月,我国5G商用牌照发牌正好迎来了两周年,5G产业蓬勃发展的成果有目共睹。据相关数据显示,目前我国在5G基站建设数量、5G套餐用户数量以及5G手机终端连接数量均处于世界前……屏下相机加持!三星“心系天下”W225G首曝:中国特供多年以来,三星在中国市场及就存在一款独一无二的手机系列,那就是与中国电信联手打造的心系天下”系列,其主要面向的是企业、事业单位的中高层社会精英。在折叠屏尚未研发成功之前,……小红书可以使用微信小程序?不要总想着搞个大新闻。。。。昨天有媒体发了一个小红书可以跳转微信的小程序的文章,并且冠上了大生态开放流量闸口的title。。。。所以这篇文章在小红书品牌方的圈里瞬间就炸了。。。。虽然还是假期,但是来……微盟616背后的三大私域标杆玩法和四大主流趋势截至昨晚(6月16日)24点,第二届616微盟零售购物节(以下简称微盟616),整体活动曝光人次达2。5亿,“潮流星球”线上直播间观看人次60万,“潮流星球”线下快闪店吸引3万……这个四线城市3人团队30平小花店,靠私域年入百万!盗美人是一家在四线城市江苏淮安的30平小花店,自2017正式创立以来便实现年入百万,并连年保持上升态势,且有80以上营收来自线上私域。回顾盗美人的发展,是一个不断探索的过……完整拆解元气森林布局私域全流程,太值得每个品牌借鉴了!案例拆解目的:小程序旗舰店关注人数在各销售平台中粉丝量最多,达598。1w(具体销售额不清楚,单从粉丝数看小程序相比其他平台流量更大)。我将重点对元气森林微信端的裂变转化留存复……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界