范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

机器怎么样(机器周期)

  【新智元导读】在机器学习深入工业界时,实际操作并没有想象中那么简单。要部署任何项目,都需要经过完整的生命周期,而这个周期对于开发机器学习模型至关重要。此文深入全面总结了从零开始到正式上线过程中的所有步骤,并总结了各个步骤的常用工具。
  在这个「人人AI」的时代,很多人都会或多或少接触过机器学习(ML)。
  似乎每一家需要数据的公司,都在尝试利用人工智能和机器学习来分析他们的业务并提供自动化解决方案。
  「《财富》的商业洞察板块(Fortune Business Insights)预计,到2027年,机器学习的市值将达到1170亿美元。」
  机器学习的火爆,使得许多没有相关背景的新手也纷纷跨入该行业。当然,这本身确实是一件好事,然而,我们也需要明白,将机器学习项目整合到实际生产环境中,其实远没有想象的那么容易。
  图:Algorithmia公司基于750家企业得出的2020企业ML使用状态图像
  「Algorithmia公司经过调查表示:55%从事机器学习模型的企业尚未将其投入生产」
  在这里可以一提的是,Algorithmia是一家提供简化机器学习的平台的创业公司,它在2017年6月已经从谷歌那里完成了一项价值1050万美元的a轮融资。
  许多人似乎认为,如果有了训练模型所需的数据和计算资源,实现机器学习项目是相当简单的。
  但是,其实这是大错特错的——
  这种假设很可能会导致在没有部署模型的情况下,消耗大量的时间和金钱成本。
  图:机器学习生命周期的朴素假设
  在本文中,我们将深入详细地讨论机器学习项目的生命周期实际上是什么样子的,以及周期内每个阶段可以用到的一些工具。没有那么简单:机器学习生命周期一览
  在现实中,机器学习项目并不简单,它是一个在改进数据、模型和评估之间循环往复的过程,并且永远不会真正完成。
  这个循环对于开发机器学习模型至关重要,因为它侧重于使用模型结果和评估来细化数据集。此外,高质量的数据集是训练高质量模型最可靠的方法。
  这个循环的迭代速度,决定了你需要花费的成本。幸运的是,有一些工具可以帮助你在不牺牲质量的情况下,加速这个循环。
  图:机器学习生命周期的一个真实例子
  与任何系统非常相似,即使是已经部署的机器学习模型,也需要不断的被监控、维护和更新。我们不能只是部署一个模型,然后忘记它,期望它在接下来的时间里,像在测试集上一样,在现实世界中有着很好的表现。
  部署在现实世界环境中的机器学习模型需要被更新——因为我们会发现模型中的偏差,或者添加新的数据源,或者需要额外的功能等等。
  而这些都会将整个项目带回到数据、模型和评估周期中。
  下一节,我们将深入探讨机器学习生命周期的每个阶段,并重点介绍各个阶段可以用到的当下流行的工具。阶段一:数据部分
  图:机器学习周期的数据部分
  虽然大家的最终目标是一个高质量的模型,但训练一个好的模型的关键之一,在于传递给它的数据的数量。
  机器学习生命周期中,数据方面的相关步骤是:
  1、数据收集
  第一步,是在不管最终的数据质量的情况下,先收集尽可能多的原始数据。在这部分原始数据中,只有一小部分数据会被注释,这也是大部分成本的来源。
  而当模型性能出现问题时,根据需要添加大量数据是很有用的。
  下面是常用的公共数据集列表:
  https://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f
  2、定义注释模式
  这个环节,是生命周期里数据阶段最重要的部分之一,而它却经常被忽视。
  如果构造了不良的注释模式,那么会出现不明确的类和边缘案例,从而使训练模型变得更加困难。
  例如,目标检测模型的性能很大程度上取决于大小、定位、方向和截断等属性。因此,在注释期间将目标大小、密度和遮挡等属性囊括其中,有助于模型可以学习到数据中的关键信息。
  下面两个是有助于这个过程的常用工具:
  Matplotlib, Plot - 帮你发现数据中的Plot属性
  Tableu -可以帮助你更好理解数据的分析平台
  3、数据注释
  给数据注释是一个冗长乏味的过程,每次都要连续数小时地执行相同重复的任务,这也是注释服务蓬勃发展的原因之一——很多人并不想亲手花大量时间在注释上。
  而这样会导致注释者可能犯了很多错误:虽然大多数注释公司都会说明最大误差率(例如2%的最大误差率),但更大的问题是,如果定义不当的注释模式,会导致注释者以不同的方式标记样本。
  然而,注释公司的团队很难发现这一点,所以你需要自己检查。
  下面是常用的各种注释服务:
  Scale, Labelbox, Prodigy - 流行的注释服务
  Mechanical Turk - 众包注释
  CVAT - DIY的计算机视觉注释
  Doccano - NLP专用注释工具
  Centaur Labs -医疗数据标签服务
  4、改进数据集和注释
  在尝试改进模型性能时,你可能会花费大量的时间。
  如果模型正在学习的过程中,但性能却不佳,那么罪魁祸首几乎总是包含偏差和错误的训练数据集,这些偏差和错误限制了模型的性能上限。
  改进模型通常会涉及到硬样本挖掘(比如如果模型在数据集A上表现不好,那么就在训练数据中添加类似于数据集A的新数据)、根据模型了解到的偏差重新平衡数据集,以及更新注释模式以添加新标签和改进现有标签。
  下面是常用的改进数据集和注释的工具:
  DAGsHub - 数据集版本控制
  FiftyOne - 将数据可视化并找出错误
  阶段二:模型部分
  图:机器学习生命周期中的模型部分
  即使在这个过程中的输出是「看起来很重要的模型」,但其实,在整个循环当中,这部分所需要花费的时间是最少的。
  图:在工业界,花费在数据集上的时间比花在模型上的时间更多
  探索现有的预训练模型
  这个环节的目标是用尽可能多的可用资源,给建立模型的过程一个最好的开始。
  「迁移学习」是当今深度学习的核心内容:我们可能不会从头开始创建一个模型,而是对一个已存在的模型进行微调,而该模型是在相关任务上预先训练好的。
  例如,如果你想创建一个口罩检测模型,那么你可能会从GitHub下载一个预先训练好的人脸检测模型,因为这个人脸检测模型发展更成熟,更流行,也有更多的前期工作铺垫。
  下面是该环节常用的工具和方法:
  FiftyOne model zoo - 使用一行代码,即可下载和运行模型
  TensorFlow Hub - 训练过的ML模型仓库
  modelzoo.oo - 为包含了各种任务和库预先训练的深度学习模型
  构建训练循环
  你的数据可能并不会和用来预训练的数据完全属于同一类型。
  比如,对于图像数据集,在为模型设置训练pipeline时,需要考虑输入分辨率和对象大小等因素。
  此外,你还需要修改模型的输出结构,以匹配标签的类和结构。PyTorch lightning就提供了一种简单的方法,使用这种方法,即可用有限的代码扩大模型训练。
  下面是该环节常用的工具:
  Scikit Learn - 构建和可视化经典机器学习系统
  PyTorch, PyTorch Lightning, TensorFlow, TRAX - 流行的深度学习Python库
  Sagemaker - 在Sagemaker IDE中建立和训练机器学习系统
  实验跟踪
  在整个周期内,这一环节可能需要多次迭代。
  你最终会训练出很多不同的模型,所以你需要仔细地跟踪模型的不同版本,以及训练时用到的超参数和数据,这将极大地帮助你保持事情的条理性。
  在这个过程中,常用的工具有:
  Tensorbord,Weights

盖3多少钱(自己盖楼房大概要多少钱)最近常有读者加我问小编,请问你一套3层高的自建房多少钱?30万够建一套房子么?今天小编就带大家来全方位的算算建一套自建房别墅究竟要多少钱?正常一套三层的农村自建房别墅,占地面积12住酒店别人能查到吗(身份证住宾馆查询软件)住酒店别人能查到吗(身份证住宾馆查询软件)公民入住资料属于个人隐私,在系统里输入。共享平台只能查询基本信息。所以只要你拿的是开房登记的身份证去查询都可以查到的,如果有需要,没有时间怎样查到对方在哪里住过酒店(住宾馆别人能查到吗)怎样查到对方在哪里住过酒店(住宾馆别人能查到吗)可以住的,需要住宾馆,代好你的身份证,能住酒店么我们俩都是女的。我在携程上面订了一个四星级酒店之前没注意看我想问问我才16有身份证能改微信号怎么改(微信号怎么改能通过)如果说有什么功能让我们朝思暮想的话,修改号绝对是其中之一。在刚推出时,为了方便记忆或留下(该死的)回忆,我们往往会设置一些有特殊含义的号。比如前男女友的生日电话尾号姓名缩写,又或者怎么监视微信聊天记录不会被发现(微信聊天记录会被监控吗)会被监视聊天记录不会,聊天内容属于用户的通信秘密和个人隐私,不会监测用户的聊天记录,腾讯更不会通过监测用户聊天记录来推送广告视频聊天记录会被监控吗视频聊天不会被监控,但是特殊情况可海子为什么卧轨(谢烨)麦家说有一种人,他们常常可以在困难和苦楚中找到意想不到的乐处,并由这种乐处悄悄滋润着他们的生活心灵。续接第三篇,今天的文章是从卧轨自杀的角度去反驳的,请大家继续欣赏,谢谢!如果你是澄海是哪里的(澄海地名大全)织布澄海昔年只有土法织布,家家用麻纺线织夏布。至清代末期,开始出现机器织布。澄城人侨商高绳芝从日本神户带来四柱织布机十台及日本女工多名,创办振发布局,建址于后来县人民会堂旁(高氏宅新蔡在哪里(新蔡县怎么读)映象网讯(记者黄向阳见习记者马彬)新蔡县位于河南省东南部,豫皖两省四市六县结合部,具有悠久的历史和璀璨的文化,更是一方积淀深厚的,无数革命先烈在这片土地上为中国之崛起而奋斗,留下无房间潮湿怎么办(阴面房间潮湿怎么办)1屋里潮湿最简单的办法,经常打开窗户通风,可以将屋内的湿气吹干。2可以利用除湿剂除湿盒等多种商品,放在潮湿的屋内用来除湿,可以很有效的把屋内的湿气吸干。欢迎大家我的头条号盈盈家亲3功能性饮料(乐虎等功能性饮料,到底有什么功能?)功能性饮料(乐虎等功能性饮料,到底有什么功能?)如今,市面上功能性饮料的种类是越来越多了。比较熟悉的就有红牛脉动东鹏特饮乐虎这一类饮料统称为功能性饮料,那它到底有什么功能呢?一想到菲林格尔地板怎么样(菲林格尔强化地板怎么样)金融界网2月5日消息,今日菲林格尔开盘报8。92元,截止0934分,该股涨10报9。79元,封上涨停板。昨日(20210204)该股净流入金额100。87万元,主力净流出20。89
你的电脑遇到问题需要重新启动(戴尔电脑售后服务电话24小时)你的电脑遇到问题需要重新启动(戴尔电脑售后服务电话24小时)Win10的很多用户有时会突然遇到你的电脑遇到问题,需要重新启动的情况,有人重新启动后可以正常使用,但不久后还会出现此问平安保险电话多少(中国平安保险电话955)众所周知,平安人寿客服电话是95511,那么寿险客户遇到难题想投诉的时候,除了拨打95511,有没有其他更快更畅通的途径呢?有,最近开通了平安人寿维权专线。为了提高客户服务工作质量北京区号是多少(北京西站24小时电话)拓展资料中华人民共和国国际长途国家代码86提供各省市区直辖市政府所在地以及部分大城市的电话区号。区号的结构1在中国大陆拨打国内长途电话时,要加拨长途冠码0。例如,自上海拨长途电话至电影紧急救援导演演员阵容怎么样?个人投资合法吗?成本多少?华语第一部水上紧急救援主题电影紧急救援公布了一组与InStyle合作的时尚大片。导演林超贤与彭于晏携手并肩化身为型男现身,二人一同置身于ldquo水火rdquo之中,既映衬了大作紧濒海交锋投资有风险吗?预计多少票房,需要注意什么濒海交锋是初次聚集水兵测绘队这一特别的部队。为了保证电影创造的真实,实在,牢靠,能够ldquo展示庞大的局面,电影的选景在三亚,辽宁,珠海等地。院线电影濒海交锋是一部军事动作题材电紧急救援电影预计票房多少?收益怎么计算?电影缺投资人吗?市面上的稀缺项目市场需求还是比较大的,而国家的政策开放,大众都能参与电影投资,并不缺投资人,缺的只是好的电影项目。电影紧急救援作为首部海上救援题材的华语片,剧本完全电影反贪风暴5定档了吗?预计票房收益多少?个人怎么投资?反贪风暴可以说是香港电影中一个非常经典的IP了,目前第四部已经拿下了7。95亿的票房成绩现在反贪风暴5正在后期制作,反贪风暴4原班人马,导演林德禄,主演古天乐郑嘉颖林峯林家栋周秀娜反贪风暴5预计票房多少?投资门槛多少?项目真实吗?前,我国电影产业已步入高速发展阶段,而且我国电影市场还具有很大的发展空间。近期,有很多朋友咨询陈先生(vx18371719497)电影投资。直白来讲,电影投资是通过投资电影来获利的紧急救援总成本多少?优势有哪些?预计分红何时我是专业影投人许老师,如果你对紧急救援这部电影感兴趣想了解具体投资流程参与价值或者有人给你推荐这部电影拿不定主意,不妨听听专业人士的分析,免费咨询15266271019,让你的投资提前批次录取是什么意思(高考提前批招生好不好)随着高考的日渐临近,高三小伙伴们都在进行最后的冲刺复习,学生家长们也没闲着,都在忙着孩子的志愿报考问题。不过有些人显然已经胸有成竹,对自己未来要报考的院校心里非常有数。其中有些人在平行志愿什么意思(什么叫平行志愿投档录取)设立平行志愿的目的是保护考生的志愿,尽最大可能满足考生所填报的学校志愿。所谓平行,就是你在一个批次内填报的6个或10个(不同省份可能不同)学校志愿不是等级关系,是平等关系,但有顺序