童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

在数据清理中,更好的数据胜过更高级的算法

1月13日 霸鲸观投稿
  数据清理的步骤和技术因数据集而异,我们没有办法在一篇文章中穷尽所有会出现的问题。这篇文章介绍了数据清理的一些常见步骤,例如修复结构性错误,处理丢失的数据以及过滤观察值。
  更好的数据更高级的算法
  数据清理是每个人都要做的事情之一,但很少有人专门讨论这件事,原因很简单,这不是机器学习的“最性感”的部分。而且,没有什么可供挖掘的隐藏技巧和秘密。
  但事实上,数据清理可能会加快或中断整个项目进程,专业的数据科学家通常在此步骤上花费很大一部分时间。
  他们为什么要这么做呢?机器学习中存在一个很简单的事实:
  更好的数据胜过更高级的算法。
  换句话说,输入垃圾数据,得到的也是垃圾结果。
  如果我们的数据集经过了正确的清洗,那么即使是简单的算法也可以从中得到深刻的启发!
  不同类型的数据需要不同的清洗方法,但是本文中阐述的系统方法可以作为一个很好的学习起点。
  删除不需要的观测结果
  数据清理的第一步是从数据集中删除不需要的观测结果,包括重复或不相关的观测结果。
  1。重复的观测结果
  重复的观测结果最常见于数据收集期间,例如:
  合并多个来源的数据集时
  抓取数据时
  从客户其他部门接入数据时
  2。不相关的观测结果
  不相关的观测结果实际上与我们要解决的特定问题不符。
  例如,如果我们仅为单户住宅构建模型,则不希望对其中的公寓也进行观测。
  这时候,我们也可以在上一步的探索性分析中判断出来。我们可以查看类别特征的分布图,以查看是否有不相关的类存在。
  在做工特征工程之前,我们也可以检查是否存在不相关的观察结果。
  修复结构性错误
  结构性错误是在测量、数据传输或其他的“不良内部管理”过程中出现的错误。
  例如,我们可以检查拼写错误或大小写不一致的问题。这些主要和分类特征有关。
  这是一个例子:
  从上图中可以看到:
  “Composition”与“composition”相同
  “asphalt”应为“Asphalt”
  “shakeshingle”应为“ShakeShingle”
  “asphalt,shakeshingle”也可能只是“ShakeShingle”
  替换错字和大小写不一致后,整个分类变得更加整洁:
  最后,检查标签错误的类,即实际上应该相同的类。
  例如:如果“NA”和“NotApplicable”显示为两个单独的类,则应将其合并。
  例如:“IT”和“informationtechnology”应该是同一个类。
  过滤不需要的异常值
  异常值可能会导致某些模型出现问题。例如,线性回归模型对异常值的鲁棒性不如决策树模型。
  通常,如果我们有合理的理由要删除异常值,则可以提高模型的性能。
  但是,在证明异常值无用之前,我们永远不要仅仅因为它是一个“大数字”就删除它,因为这个数字可能对我们的模型有很大帮助。
  这一点很重要:在删除异常值之前必须要有充分的理由,例如不是真实数据的可疑度量。
  处理缺失的数据
  在机器学习应用过程中,数据缺失看上去是一个很棘手的问题。
  为了清楚起见,我们不能简单地忽略数据集中的缺失值。由于大多数算法都不接受缺失值,因此,我们必须通过某种方式来处理这一点。
  1。“常识”在这里并不灵验
  根据我们的经验,处理丢失数据的两种最常用的推荐方法实际上都不怎么有用。
  这两种方法分别是:
  删除具有缺失值的观测值
  根据其他观察结果估算缺失值
  删除缺失值不是最佳选择,因为删除观察值时会删除信息。
  缺失值本身可能会提供一些参考
  在现实世界中,即使缺少某些功能,我们也经常需要对新数据进行预测
  插入缺失值也不是最佳选择,因为该值最初是缺失的,但如果我们将其填充,无论插入缺失值的方法多么精确得当,总是会导致信息丢失。
  同样,“遗漏”本身几乎总是有用的,我们应该告诉算法是否存在缺少值。
  即使我们重新建立了模型来估算值,也没有添加任何实际信息这样做仅仅在增强其他功能已经提供的模式。
  丢失数据就像丢失了一块拼图。如果将其放下,就好像在假装不存在拼图槽;如果进行估算,那就像是试图从拼图上的其他地方挤一块儿进去。
  简而言之,自始至终,我们都应该告诉算法,缺少值是因为缺少可提供信息。
  具体怎么做呢?告诉算法该值一开始就已丢失。
  2。缺少分类特征的数据
  处理分类特征缺失的数据的最佳方法是简单地将其标记为“缺失”!
  这样做实质上是在为该特征添加新的类。
  告诉算法缺少该值。
  满足了技术需求,即要求没有任何缺失值。
  3。缺少数字数据
  对于缺少的数字数据,应标记并填充值。
  使用缺失的指示变量标记观察结果;
  为了满足没有任何缺失值的技术需求,用0填充原始丢失值。
  通过标记和填充,从本质上讲,我们可以让该算法估算缺失的最佳常数,而不仅仅是用均值填充。
  
投诉 评论 转载

服务设计视角下的办公区域垃圾分类设计优化本文主要是讨论下,在办公区域单次丢弃垃圾量少分类易落地、公司同事反馈迅速可以快速优化方案。19年7月1日,《上海市生活垃圾管理条例》正式实施。随后上海开始了垃圾分类的“热……从洛客贾伟“布道”,看新设计思维如何与分享时代叠加本文以设计师贾伟的事例与设计思想为内容,向我们讲述了新设计思维如何与分享时代叠加。伴随移动互联网对大众生活的迅速改变,消费者用户的需求已经开始逆向影响到每一个产业链条环节……产品设计复盘:以MeYou在家早教应用为例笔者复盘了自己做的一款假想早教app,其中的许多产品设计想法值得借鉴与参考。近几年,随着家庭教育重要性的普及,越来越多的新手家长步入家庭早教的行列。本文就是从作者自……天下产品一大抄用户习惯已经被培养,产品也长得越来越像,有的地方可以“抄”,有些地方一定要有独特的创新点。18世纪末,面对英国工业革命后大量输出的质优价廉的棉布,欧陆各国惊恐万分,因为这……FMS财务管理系统:应付结算本篇文章中,笔者对应付结算各个部分进行了梳理和分析,与大家分享。前面相继介绍了财务系统的组成、财务数据流转、应收管理、质保金、预付款、费用管理以及合同管理。我个人觉……界面交互设计总结(二):常规功能类区别于运营活动类的界面交互设计的,就是常规功能类的界面交互设计,两者之间既有不一样的地方,也有相似的地方,本期就围绕后者,结合我在实战中的经验,进行一下分析总结。常规功能……淘宝商品详情页加搜索框的意义是什么?本文从用户行为角度进行分析,从用户购买情境中推导出手淘在商品详情页加搜索框的意义。淘宝在8。11。1的版本中做了一项比较大的交互修改,即在商品详情页顶部增加了搜索框,如下……数据传输:移动产品的3种现象级信息传输方案笔者从信息分类出发,对数据传输进行了分析并总结了三种主要的现象级方案,供大家参考与学习。信息传输好比产品的血液流动。产品经理有必要大致了解数据传输的边界、场景、基本……在数据清理中,更好的数据胜过更高级的算法数据清理的步骤和技术因数据集而异,我们没有办法在一篇文章中穷尽所有会出现的问题。这篇文章介绍了数据清理的一些常见步骤,例如修复结构性错误,处理丢失的数据以及过滤观察值。更……微信展露B面:几经折腾的“看一看”“看一看”能否解微信内容困局?最近,微信又开始折腾“看一看”了,更准确来说,是折腾其中的“朋友在看”栏目。要知道,此前“朋友在看”栏目一直是微信好友“在看”的公众号……界面交互设计总结(一):运营类什么是界面交互设计这个话题,早就已经被反复说了很多次了,但是继续深入下去如何做一个好的界面交互设计,却鲜有大范围的深入讨论。就着这个方向,我会分两期深入分析总结一下,实战中的界……如何设计一套好用的自适应流控方案?自适应流控是指根据当前流量对象的数据特征及预定义的规则,自动调整方法、顺序、参数或条件,以期与预定义目标相适应的过程。什么是自适应流控?流控,是流量控制的简称。在不……
产品经理的取舍如何华丽丽地成为某一领域的高手?你想要的工具产品社区化信息都在这里了写给产品经理和设计师的用户体验知识3从工作模式谈起,产品经理如何协调需求与资源?起点学院深圳站:产品的未来在这里,不信,你看看互联网产品是如何利用人性做文章的【微信群讨论】选一线互联网公司还是去创业团队?看看别人的产品产品新人答疑手册(沟通)产品实战训练营笔记整理移动视频客户端对比分析爱奇艺与搜狐视频没有鸡血,看看导致创业公司失败的5个主要原因

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界