童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

数据挖掘过程中要避免的11大错误

7月19日 赤雷榭投稿
  1。缺乏数据(LackData)
  对于分类问题或预估问题来说,常常缺乏准确标注的案例。
  例如:
  欺诈侦测(FraudDetection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。
  信用评分(CreditScoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。
  2。太关注训练(FocusonTraining)
  IDMer:就象体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂。
  实际上,只有样本外数据上的模型评分结果才真正有用!(否则的话,直接用参照表好了!)
  例如:
  癌症检测(Cancerdetection):MDAnderson的医生和研究人员(1993)使用神经网络来进行癌症检测,惊奇地发现,训练时间越长(从几天延长至数周),对训练集的性能改善非常轻微,但在测试集上的性能却明显下降。
  机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优,这样做的结果通常会导致过度拟合(overfit)。
  解决方法:
  解决这个问题的典型方法是重抽样(ReSampling)。重抽样技术包括:bootstrap、crossvalidation、jackknife、leaveoneout等等。
  3。只依赖一项技术(RelyonOneTechnique)
  IDMer:这个错误和第10种错误有相通之处,请同时参照其解决方法。没有对比也就没有所谓的好坏,辩证法的思想在此体现无遗。
  “当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子。”要想让工作尽善尽美,就需要一套完整的工具箱。
  不要简单地信赖你用单个方法分析的结果,至少要和传统方法(比如线性回归或线性判别分析)做个比较。
  研究结果:按照《神经网络》期刊的统计,在过去3年来,只有16的文章中做到了上述两点。也就是说,在独立于训练样本之外的测试集上进行了开集测试,并与其它广泛采用的方法进行了对比。
  解决方法:
  使用一系列好的工具和方法。(每种工具或方法可能最多带来510的改进)。
  4。提错了问题(AsktheWrongQuestion)
  IDMer:一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实际项目中我们却几乎不看这个指标。为什么?因为那不是我们关注的目标。
  项目的目标:一定要锁定正确的目标
  例如:
  欺诈侦测(关注的是正例!)(Shannon实验室在国际长途电话上的分析):不要试图在一般的通话中把欺诈和非欺诈行为分类出来,重点应放在如何描述正常通话的特征,然后据此发现异常通话行为。
  模型的目标:让计算机去做你希望它做的事
  大多数研究人员会沉迷于模型的收敛性来尽量降低误差,这样让他们可以获得数学上的美感。但更应该让计算机做的事情应该是如何改善业务,而不是仅仅侧重模型计算上的精度。
  5。只靠数据来说话(Listen(only)totheData)
  IDMer:“让数据说话”没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如果数据工具就可以解决问题的话,还要人做什么呢?
  投机取巧的数据:数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。
  经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常常不可信。
  6。使用了未来的信息(AcceptLeaksfromtheFuture)
  IDMer:看似不可能,却是实际中很容易犯的错误,特别是你面对成千上万个变量的时候。认真、仔细、有条理是数据挖掘人员的基本要求。
  预报(Forecast)示例:预报芝加哥银行在某天的利率,使用神经网络建模,模型的准确率达到95。但在模型中却使用了该天的利率作为输入变量。
  金融业中的预报示例:使用3日的移动平均来预报,但却把移动平均的中点设在今天。
  解决方法:
  要仔细查看那些让结果表现得异常好的变量,这些变量有可能是不应该使用,或者不应该直接使用的。
  给数据加上时间戳,避免被误用。
  7。抛弃了不该忽略的案例(DiscountPeskyCases)
  IDMer:到底是“宁为鸡头,不为凤尾”,还是“大隐隐于市,小隐隐于野”?不同的人生态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。
  异常值可能会导致错误的结果(比如价格中的小数点标错了),但也可能是问题的答案(比如臭氧洞)。所以需要仔细检查这些异常。
  研究中最让激动的话语不是“啊哈!”,而是“这就有点奇怪了”
  数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个大的业务问题。
  例如:
  在直邮营销中,在对家庭地址的合并和清洗过程中发现的数据不一致,反而可能是新的营销机会。
  解决方法:
  可视化可以帮助你分析大量的假设是否成立。
  8。轻信预测(Extrapolate)
  IDMer:依然是辩证法中的观点,事物都是不断发展变化的。
  人们常常在经验不多的时候轻易得出一些结论。
  即便发现了一些反例,人们也不太愿意放弃原先的想法。
  维度咒语:在低维度上的直觉,放在高维度空间中,常常是毫无意义的。
  解决方法:
  进化论。没有正确的结论,只有越来越准确的结论。
  9。试图回答所有问题(AnswerEveryInquiry)
  IDMer:有点像我爬山时鼓励自己的一句话“我不知道什么时候能登上山峰,但我知道爬一步就离终点近一步。”
  “不知道”是一种有意义的模型结果。
  模型也许无法100准确回答问题,但至少可以帮我们估计出现某种结果的可能性。
  10。随便地进行抽样(SampleCasually)
  降低抽样水平。例如,MD直邮公司进行响应预测分析,但发现数据集中的不响应客户占比太高(总共一百万直邮客户,其中超过99的人未对营销做出响应)。于是建模人员做了如下抽样:把所有响应者放入样本集,然后在所有不响应者中进行系统抽样,即每隔10人抽一个放入样本集,直到样本集达到10万人。但模型居然得出如下规则:凡是居住在Ketchikan、Wrangell和WardCoveAlaska的人都会响应营销。这显然是有问题的结论。(问题就出在这种抽样方法上,因为原始数据集已经按照邮政编码排序,上面这三个地区中不响应者未能被抽取到样本集中,故此得出了这种结论)。
  解决方法:“喝前摇一摇!”先打乱原始数据集中的顺序,从而保证抽样的随机性。
  提高抽样水平。例如,在信用评分中,因为违约客户的占比一般都非常低,所以在建模时常常会人为调高违约客户的占比(比如把这些违约客户的权重提高5倍)。建模中发现,随着模型越来越复杂,判别违约客户的准确率也越来越高,但对正常客户的误判率也随之升高。(问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了)
  解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。
  11。太相信最佳模型(BelievetheBestModel)
  IDMer:还是那句老话“没有最好,只有更好!”
  可解释性并不一定总是必要的。看起来并不完全正确或者可以解释的模型,有时也会有用。
  “最佳”模型中使用的一些变量,会分散人们太多的注意力。(不可解释性有时也是一个优点)
投诉 评论

木星最清晰特写照画面曝光木星神奇的极光唯美画面中国时尚网9月5日讯据外媒报道,美国宇航局公布木星北极与其南部极光的第一批珍贵高清照片。这是人类有史以来看到的最清晰的木星特写照,由木星探测器“朱诺号”首次从最近距离……【JOJO带你逛起点】齐聚一堂,拥抱互联网!!8月29日30日,起点学院产品经理实战训练营深圳站又开课()啦啦啦。起点学院深圳150808期学员们群情激昂的场景还历历在目,新的一期训练营又来了,本期授课导师刘滔(六年互联网……数据挖掘过程中要避免的11大错误1。缺乏数据(LackData)对于分类问题或预估问题来说,常常缺乏准确标注的案例。例如:欺诈侦测(FraudDetection):在上百万的交易中,可能只有……在没人看书的年头,如何卖出100万本纸质书?《从0到1:开启商业与未来的秘密》,据信它已经成为图书界现象级的事件。从2月9日出版3个月后,它的销量已经超过100万。它的出版者把它归结到“两会精神”上,这多多少少让人……微信吞不下四大门户微信如何消化整个移动阅读需求,这是个大命题。每日2亿次好友分享和1。8亿次朋友圈分享,微信已事实上成为新闻和原创内容的最主要传播途径。那么问题来了,微信未来是像当初……要切入家装O2O,传统装修光剪了辫子还不够易经里面有句话:君子豹变,小人革面。翻译下就是时势一旦发生变化,甭管是蓄势待发的君子还是见风使舵的小人,都得折腾点不一样的东西出来。比如辛亥革命一声炮响,乡绅汤师爷赶紧咔嚓了自……中国城市交通O2O高速飞行,又一场巨头的游戏如今中国的城市经济正在飞速发展,但与此同时也带来了许多严重的交通问题。一时间,出行难成为了各大中小城市市民共同面临的难题,城市交通O2O的兴起却在某种程度上极大缓解了出行难的问……互联网金融的6种模式!互联网金融是依托于云计算、大数据、电商平台和搜索引擎等互联网工具而产生的一种新兴金融模式,具有融资、支付和交易中介等功能。互联网金融的逐渐兴起,是对传统金融行业的有益补充和延伸……新生代来临网络文化将不再属于互联网网络文化与互联网相伴而生,从最初名词的数字化,如“我爱你(520)”,到后来的表情符号的兴盛,从最初的QQ空间装修,到现在星罗于互联网各个角落的“次元文化”,网络文化其实是新生……【娱见】腾讯视频和搜狐视频即将结成姻亲?注:据鞭牛士微信号报道,搜狐视频和腾讯视频在13日下午将有一场新闻发布会,且主题极有可能是腾讯与搜狐的视频部门结盟。这无疑是今年互联网视频圈内的另一枚重磅炸弹。信息的真实性如何……网络时代,内容搬运工越来越多“我们都成了精神上的移民”。沃尔特李普曼这位写了36年专栏,一生写下14000篇文章的杰出新闻评论家曾经是无数新闻从业者的榜样。时过境迁,没有人继承这位大师的衣钵。……O2O到底补贴了谁?尘归尘、土归土,最终仍是靠谱的公司胜出如果你在北京望京SOHO或是中关村附近,中午出门不用带钱。带着手机扫码,就有吃有喝,还能再赚几十块。还有一家叫一亩田的公司,一个月内两次刷爆我微信朋友圈。先是《南方周末》……
主播福利!淘宝直播618面向各层级主播新增百万流量包站长之家(ChinaZ。com)5月24日消息:618大促活动正式开启,淘宝直播宣布618推出“主播成长任务礼包”,助力不同主播在大促中获得爆发性增长。据悉,淘宝直播针对……TikTok推出TikTokLIVE订阅服务站长之家(ChinaZ。com)5月24日消息:本周,TikTok推出TikTokLIVE订阅服务,将为用户提供专用的聊天、定制表情、徽章等。根据TikTok在其账户上发……网红女主播雪梨成被执行人宸帆电商90万股权被冻结站长之家(ChinaZ。com)5月24日消息:企查查数据显示,近日,杭州宸帆电子商务有限责任公司新增股权冻结信息,被执行人为网红朱宸慧(雪梨),冻结权益数额90万元。冻结期限……带货“新兵”,快递企业奔向直播间最近在抖音快手等各大平台,频频刷屏各地邮政分公司的直播间。直播间的主播们或穿邮政制服、或在“邮政快递”大大的logo墙前,声嘶力竭地推销产品:“左上角点一下关注,有粉丝福……抖音:截至5月17日“三亚尾波冲浪”主题达2。5亿次播放站长之家(ChinaZ。com)5月24日消息:日前,巨量引擎发布三亚生活服务业务在抖音的数据报告。报告显示,2021年5月2022年4月间,三亚的搜索高峰到来。2022……商家必读!快手电商发布活动期间“跨店满返”退款说明站长之家(ChinaZ。com)5月24日消息:最近,有商家反馈,买家参与满减活动的订单申请的退款只退回了部分款项,不知道什么原因。为此,快手电商作出具体的说明。据了解,……大牌奢侈品,“翻车”在直播间从高端急救包到数字藏品,再到虚拟时装秀,疫情期间的奢侈品品牌一改往日“高冷”的形象,纷纷开始用潮流化、年轻化的方式抓住消费者的眼球。有的品牌通过线上渠道进行了一系列富有创意的内……快手眼红了!效仿刘畊宏,分走7亿流量拿下7。4亿观看人次,快手想挑战刘畊宏过去一个月,刘畊宏成了中国互联网最受瞩目的人。背靠抖音的他,强势拿下近7000万粉,并掀起一阵全民健身的热潮。如此庞大的……最火农民工高小健,30天抖音涨粉170万,带货超3500万元不是“垫底辣孩”这样的颜值系,不是“刘畊宏”这样的才艺系,一位来自湖南农村的农民工“高小健”却在近30天的时间里,在抖音累计涨粉170万,带货3521万元。视频中,“高小……拆解抖音seo的赚钱玩法,做外包服务一单5。8w利润(黑)早在18年前我就是一名个人站长,靠百度seo吃饭,做垃圾单页面站群赚到了第一桶金,seo圈子里有一句名言叫做“有搜索框的地方就有seo”,所谓seo也没有想象中的那么神秘,一切……快手2022第一季度财报:营收210。7亿元同比增长23。8站长之家(ChinaZ。com)5月24日消息:今日,快手发布了2022年一季度财报。财报显示,一季度快手营收210。7亿元,同比增长23。8,市场预期205。99亿元。净亏损……抖音来客启动迁移工作将不再沿用企业号站长之家(ChinaZ。com)5月24日消息:据“抖音生活服务商业观察”消息,抖音生活服务商家经营平台“抖音来客”启动迁移工作,在商家激活“抖音来客”后,企业号商家抖音后台数……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界