数据挖掘中易犯的十大错误及解决方法
0。缺乏数据(LackData)
对于分类问题或预估问题来说,常常缺乏准确标注的案例。
例如:
欺诈侦测(FraudDetection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。
信用评分(CreditScoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。
1。太关注训练(FocusonTraining)
IDMer:就象体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂。
实际上,只有样本外数据上的模型评分结果才真正有用!(否则的话,直接用参照表好了!)
例如:
癌症检测(Cancerdetection):MDAnderson的医生和研究人员(1993)使用神经网络来进行癌症检测,惊奇地发现,训练时间越长(从几天延长至数周),对训练集的性能改善非常轻微,但在测试集上的性能却明显下降。
机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优,这样做的结果通常会导致过度拟合(overfit)。
解决方法:
解决这个问题的典型方法是重抽样(ReSampling)。重抽样技术包括:bootstrap、crossvalidation、jackknife、leaveoneout等等。
2。只依赖一项技术(RelyonOneTechnique)
IDMer:这个错误和第10种错误有相通之处,请同时参照其解决方法。没有对比也就没有所谓的好坏,辩证法的思想在此体现无遗。
“当小孩子手拿一把锤子时,整个世界看起来就是一枚钉子。”要想让工作尽善尽美,就需要一套完整的工具箱。
不要简单地信赖你用单个...
(全文)增强网络支付安全意识培养良好支付习惯近日,由中国银行业协会银行卡专业委员会主办的“银行卡网络支付安全宣传月”活动,自9月4日拉开宣传序幕以来,受到了社会各方的积极响应。目前,25家成员银行已积极参与宣传活动,华夏……
网络安全专家解析网络诈骗腾讯安全专家陆兆华日前做客深圳市民文化大讲堂,带来一场题为《如何防范网络诈骗》的讲座。据了解,陆兆华系国内研究移动安全的专家之一,专注于移动安全的行业研究、黑色产业链研究……
网络信息诈骗常用手段有哪些?网络信息诈骗常用手段有哪些?为了更好预防网络信息诈骗,那么网络信息诈骗常用手段有哪些?下面佰佰安全网一一为您讲解:(一)中奖信息诈骗。犯罪嫌疑人群发大量彩票中奖、电……
网络购物需要警惕的购物诈骗方式网络购物需要警惕的购物诈骗方式随着网络购物越来越受大众青睐,网上购物遭遇诈骗的群众举报案件也呈上升趋势。佰佰安全网在此列举三类陷阱,提醒大家在网上购物时保持警觉:网……
生活中常见的网络诈骗案例有哪些?生活中常见的网络诈骗案例有哪些?网络诈骗常见案例一:赵先生在网上订购了一台售价仅为680元的苹果牌笔记本电脑,按照销售电话与卖方取得联系后,卖方以各种名义让赵先生先后五次……
网友们需要警惕七大杀毒误区网友们需要警惕十大杀毒误区十大杀毒误区一:发现Cache中有病毒与CMOS中没有病毒一样,Cache中也是根本不可能存在病毒的。我们知道,程序执行时,数据流是……
2014杀毒软件排行榜最好用的杀毒软件排名2014杀毒软件排行榜最好用的杀毒软件排名世界知名评测机构AVTEST最新发布的《XP漏洞防护评测报告》成绩,参与测试的10款全球不同区域流行的安全软件排定座次。成绩如下……
记事本杀毒的步骤方法如何使用记事本来杀毒?大家都知道电脑中毒了,就得使用电脑杀毒。区不知道其实杀毒很简单,小小的一个记事本就能帮上你的忙!今天佰佰安全网小编就为网友们了解一种神奇的杀毒方法,那就是记事本杀毒。到底是怎么……
什么是蠕虫病毒,如何清除电脑中的蠕虫病毒?什么是蠕虫病毒,如何清除电脑中的蠕虫病毒?蠕虫病毒是自包含的程序(或是一套程序),它能传播它自身功能的拷贝或它的某些部分到其蠕虫病毒他的计算机系统中(通常是经过网络……
什么是QQ粘虫,危害,传播途径有哪些,怎么进行查杀QQ粘虫是一种病毒,就是用一个虚假的QQ登陆页面来骗你,从而把你的QQ号码盗走!危险性极大!小伙伴们一定得注意,严重防范!QQ粘虫主要通过两个渠道传播,如下:QQ粘虫传播途径:……
数据挖掘中易犯的十大错误及解决方法数据挖掘中易犯的十大错误及解决方法0。缺乏数据(LackData)对于分类问题或预估问题来说,常常缺乏准确标注的案例。例如:欺诈侦测(FraudDete……
大数据时代数据对于决策的重要性一、统计现象可能是病态的;我们经常得到一些用户的消费或者娱乐行为,但是这些行为可能是病态的。这里我就举两个病态的习惯现象作为例子说明。有些用户具有一种病态的消费习惯,习惯……