童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

机器的深度学习究竟有多“深”?

3月19日 逆落雪投稿
  每次提起深度学习,没有接触过的人会处于一种模糊臆想状态,认为其遥不可及。本文旨在摘下深度学习“高大上”的面纱,用一些简化的模型和通俗的比喻阐述其中的概念。
  深度学习由来
  1980年福岛邦彦提出的感知机,但由于计算代价过大,,并且“神经网络”这个名词听起来和生物相关,投资者们纷纷拒绝,导致未能进行实际的应用。
  经过一段漫长的沉寂与暗中生长,2006年GeoffreyHinton等人在Science杂志上发表DeepBeliefNetworks的文章。为了能更好地骗经忽悠信徒,率先使用了“深度”这个词,从此开启了深度神经网络的新时代。
  深度学习的本源其实就是神经网络的在机器学习中的应用,它是机器学习的子集,如下图:
  机器学习
  我们日常做数学题,是已知公式(规则),拿到题目(数据)去求答案;机器学习正好相反,它是给出数据和答案,需要机器去学习规则。
  机器学习,尤其是深度学习,呈现出相对较少的数学理论,并且是以工程为向导的。
  这是一门需要上手实践的科学,想法更多地是靠实践来证明,而不是靠理论推导。
  机器学习分类:
  无监督式学习(回归、分类)
  有监督式学习(回归、分类)
  半监督式学习(聚簇)
  我们用养孩子的比喻来理解机器学习。
  无监督式学习:孩子生出来直接散养,让孩子自己去面对世界建立礼义廉耻的价值观。把小孩和猫咪狗狗放在一块,经过一段时间,他会知道猫和狗是不同类型的东西,但没有人为引导,他不知道“猫”“狗”这样明确的定义。
  由于事物具有多面性和复杂性的特点,仅通过有限的特征进行无监督式学习,容易出现与人类期望不符的结果,例如“长头发的人和长头发的狗”,如下图。这种方式是把具有相似性的事物归为一类(聚簇),分离结果只能通过特征的表象,缺点是结果容易跑偏,不符合期望。
  (图片来源于网络)
  有监督式学习:和无监督式学习相反,孩子出生后,虎爸虎妈手把手教学,兴趣班叠加补习班,任何事情都直接给出正确答案。
  经过一系列应试教育,孩子成绩非常优秀(有监督学习的识别率普遍比无监督高许多)。但一旦遇到稍微超纲的问题,立马懵逼,这就是“过拟合”。而且,标签的获取常常需要极大的人工工作量,所以这种方式多用于有明确结果的数据有限的集合。
  半监督式学习介于以上两者之间,小时候亲力亲为教导小孩,长大后让他基于已有的基本伦理和社会道德去接触大千世界。
  所以,半监督式学习会有小部分已标注的训练集用于初始化学习,而留下一大部分未标注的训练数据让其自我学习。
  深度学习
  先回忆下中学的生物知识,神经反射接受信息的过程:感受器(肌肉)反射弧中枢神经系统。
  我们识别一个人通过模糊到具体的特征,如衣着、头发、脸、眼睛、眉毛等特征,每个特征由一个神经元判断,深度学习就是通过一个个特征组不断学习识别出事物。
  深度学习的“深”相对“浅”而言,优点是慢慢深入,前期容易筛选出有用的数据集,结果较准确。
  如文章开头所说,深度学习是神经网络的在机器学习中的应用,其技术定义:学习数据表示的多级方法。也可以把深度网络看做多级信息蒸馏操作:信息穿过连续的过滤器,其纯度越来越高(即对任务的帮助越来越大),即权重越高。
  权重怎么理解?
  假设我们通过衣着判断性别,分为四类:穿裤子的女生、穿裙子的女生、穿裤子的男生、穿裙子的男生。通过日常经验知道,穿裙子较大概率是女生,所以资源不应该平均分配,也就是权重不同。
  深度网络可以先提取“衣着”作为一层神经元的筛选,如果恰好筛选出为裙子,那么在筛选出来的集合里,我们已经可以大概率的认为这个样本90的概率是女性了。
  人会根据外界反馈调节自身的状态,深度学习也是。在深度学习中,衡量实际与期望误差的函数称为损失函数,根据损失函数的损失值反过来优化调整权重,以达到局部最优解。
  (深度学习的“学习”方式)
  常见的深度学习模型:
  有监督的神经网络
  神经网络(ArtificialNeuralNetworks)和深度神经网络(DeepNeuralNetworks),ANNDNN
  循环神经网络(RecurrentNeuralNetworks)和递归神经网络(RecursiveNeuralNetworks),RNN
  卷积网络(ConvolutionalNeuralNetworks),CNN
  无监督的神经网络
  深度生成模型(DeepGenerativeModels),DGM
  玻尔兹曼机(BoltzmannMachines)和受限玻尔兹曼机(RestrictedBoltzmannMachines),BMRBM
  深度信念网络(DeepBeliefNeuralNetworks),DBNN
  生成式对抗网络(GenerativeAdversarialNetworks),GAN
  不同的深度学习模型有自身的优缺点,有的擅长处理分类任务,有的擅长处理存在前后依赖关系、有序列关系的数据,有的擅长处理格状结构化的数据等等,开发会按需选择。
  对常见的损失函数“平方误差函数”、权重的自我学习“梯度下降法”(寻找局部最优解)、不同类型的深度学习感兴趣的朋友可以在知乎找资料或阅读一些相关书籍。
  深度学习应用举例
  刷资讯APP时,低俗、标题党等文章易吸引眼球但体验差,这类内容若泛滥会严重伤害用户体验,所以对这类内容应该进行打压,深度学习可以帮上忙。
  以低俗识别为例,俗即“庸俗、低俗、媚俗”,指某人某事不入流、情趣低下或微色情、low等,社会、情感、搞笑、娱乐等类别特别容易出现,低俗内容过多会影响阅读体验和流量生态的良性循环。
  如何应用深度学习找出低俗内容呢?
  第一步:定义低俗和制定标准(case辅助)
  第二步:给机器提供种子词(具有分值的关键词)分类等特征部分人为规则训练集(标题摘要正文等文本)
  (种子词示例)
  (训练集正样本示例)
  第三步:机器深度学习和调参
  例如采用CNN(卷积神经网络),深度学习中根据损失函数调整特征权重或训练样本。
  第四步:验证集的效果测评
  低俗文章的识别属于二分类评估,每个评估对象有唯一的结果,YES或NO。评估留意三大指标:准确率,精确率,召回率。
  准确率:机器识别正确的样本数样本总数(备注:正确识别包含把低俗样本识别为色情,把非低俗样本识别为非低俗两种情况);
  精确率:机器正确识别出的低俗样本数总和机器识别出的低俗样本总;
  召回率:机器正确识别出的低俗样本数总和低俗样本总数。
  (以上数据仅做理论说明,不做实际参考)
  准确率(50004011)500098。98
  精确率14018077。78
  召回率14015192。72
  低俗样本对于大盘来说,浓度很低,所以,评估准确率没有多大意义,更主要是看精确率和召回率。更多经典例子来自疾病试纸和验孕试纸(有兴趣的朋友可以查阅一下),所以统计的时候需要注意本体的对象。
  第五步:上线或反馈badcase
  当模型效果达预期(召回率和精确率呈现负相关,最佳组合可用FScore求得,见文末)即可上线做“苦工”,若不达预期,根据badcase继续优化。
  附:FScore,〔0,1〕,值越大表示效果越好
  F1Score:召回率和精确率同等重要
  FScore:召回率和精确率不同等重要
  F2:召回率的重要程度是准确率的2倍
  F0。5:召回率的重要程度是准确率的一半
  (大于0)
  关于FScore,详细可查阅:https:stats。stackexchange。comquestions221997whyfbetascoredefinebetalikethat221999221999
  参考文献:《DeepLearningwithPython》〔美〕弗朗索瓦肖莱著;张亮译
投诉 评论

德州扑克:AI打牌也能完胜人类了笔者从完美信息博弈类游戏的理论出发,分析了AI打德州扑克为何能打赢人类?前段时间,受周围朋友的影响,喜欢上了德州扑克,享受和牌友心理博弈的过程,也享受“赌博”带来的快感。……如何评测一个智能对话系统(二)本章我们介绍了目前业界比较流行的智能对话评测方法,包括人工评测和自动评测。阐述了不同评测方法的优势与不足,并解释了人工评测在智能对话评测任务中的重要性和必要性。enjoy……对话机器人的个性设计指南本文讨论了对话机器人的个性设计为何如此重要,以及如何定义角色个性、展示角色个性。单曲循环着呆在客厅,在夜深的时候开始码字。上海是真的入冬了,想到去年十二月初的时候还下起了……如何让AI机器人的对话更加自然?本文翻译了国外作者AnnaPrist在Medium发布的《HowtomakeyourChatbotSoundNatural》,提炼了设计机器人对话的注意点。并结合译者的体验分析……机器人技术Robotics2。0(1):AI重新定义机器人本文将揭开新世代AI机器人的神秘面纱,并分析AI机器人将如何影响我们的未来。人工智能开启了新一代机器人技术Robotics2。0,最大改变是从原先人工编写程序而来的自动化……AI识别技术,在改变全球流媒体文章从AI识别技术出发,对其应用进行了分析探究。AI识别技术的商业应用以视频推荐和广告投放为主,作者对其未来发展进行了展望,与大家分享。话说,最近这高质量网综也太多了吧,……2020,AI算法市场能火起来吗?对于AI算法市场来说,2020年,它将在探索中等待,也在等待中探索。2019的存量只剩一个多月,各种年度总结即将蜂拥而至。回头看看这一年的AI发展,或许八个字的总结十分合……如何设计和管理AI产品?什么是AI和ML?为什么AI产品管理比一般软件更困难?在《AI开发指南:机器学习产品是什么?》文章当中,我们讨论了管理AI产品所需要的基础认识和挑战。对产品经理(P……微软的傲慢与偏见Cortana小娜失败根源本文介绍了微软语言交互产品Cortana的发展历程以及逐渐消弭背后,微软的傲慢与偏见。“Hi,Siri,给我讲个笑话”“天猫精灵,今天天气怎样”“小度,为我导……AI开发指南:机器学习产品是什么?为什么管理机器学习(ML)产品比一般软件困难?实验是关键!关于管理AI产品,我认为最重要的几件事:机器学习(ML)产品管理比一般软件更具挑战性,因为它涉及更多的不确……机器的深度学习究竟有多“深”?每次提起深度学习,没有接触过的人会处于一种模糊臆想状态,认为其遥不可及。本文旨在摘下深度学习“高大上”的面纱,用一些简化的模型和通俗的比喻阐述其中的概念。深度学习由来……AI为什么解不了“原创保护”这道综合题?原创保护是所有文字从业者都越来越重视的一个问题,但由于诸多因素,原创保护一直是处在雷声大雨点小的阶段,观众们议论纷纷,但是实际举证上却艰难重重。在AI技术越来越发达的今天,原创……
亿级APP收入连续翻倍的产品思路(2):如何增加新用户在增加新用户的过程中,能帮你口碑传播的是“爸爸”,在应用商店这个万花丛中找到你的用户是“情人”,共同发展换量的是“伙伴”。继上文《亿级APP收入连续翻倍的产品思路(1):……沦为流量附庸的社交电商,亟待破局的新物种本文笔者从多个角度分析和探讨了社交电商的发展方向,也给我们带来了一些思考:流量与社交电商真的是密不可分?社交电商的发展除了流量还有其他的破局点吗?在流量见顶的背后其实是人……数据是什么?产品人如何认识数据?说起数据,我们并不陌生。有火热不绝于耳的互联网大数据,有用来支撑结论所需的数据论证,还有做运营做方案要用到的数据统计等,无一不围绕着数据。尽管我们如此熟悉数据这个词,知道很多领……隐私保护升级,大数据金融会死吗?大数据金融与隐私保护看来相悖,逐渐升级的隐私保护,大数据金融还能走多远?近期,经侦突查个别大数据公司,全行业谈虎色变,心里都没底这是杀鸡儆猴呢,还是顺藤摸瓜、一网打尽呢?……“下半场”商业方法论:局限、模式、基因和常识本文主要讨论“下半场”的商业方法论的局限、商业的模式、企业的基因、行业的常识,并主要着墨于这几个问题的存在性和两面性。enjoy作者:陆树燊来源:公众号“行者慎思”……【天天问每周精选】第89期:周杰伦新歌上线,为什么单曲收费,来了,来了,他来了,他带着新歌和奶茶走来了。单曲刚出来不到一小时,微博爆了,QQ音乐崩了,朋友圈刷屏了跟风赶来的小问却发现单曲要付费购买,但是高清MV却是随便看,像一种“……你没有创造产品,只是翻译了产品如果产品经理的工作职责仅仅就是写写文件、画画原型、背背锅、吵吵架,那叫自我堕落。Sheln首席产品官翟锦修产品本身是什么并不重要,重要的是消费者认为你的产品是什么……再论微信生态:小程序、直播、微信支付的数据和八卦关于小程序、微信直播、微信支付的一些信息,文末有彩蛋之前发了一篇关于微信生态的数据和八卦的文章,貌似反响不错,今天就继续唠嗑一下微信相关的那点事吧。如果大家觉得有帮……快手入局、头条加码:斗鱼虎牙还能保住游戏直播双雄的地位吗?经过激烈厮杀后,斗鱼虎牙成功在游戏直播行业站稳了脚跟,形成双雄争霸的局面。不过对于游戏直播这块肥肉,短视频巨头始终虎视眈眈。作为游戏和直播的交叉点,游戏直播行业的发展历程……客户关系管理常用术语解释大全文章例举了关于客户关系管理相关的专业术语,由浅入深,供对CRM感兴趣的同学参考和学习。工欲善其事,必先利其器。这里,老周将CRM常用术语和名词做一个收集和整理,以飨读者。……Costco中国应该如何走出独具特色的商超之路?日益庞大的中国中产阶级,与美国最广泛的中产阶级之间,Costco应该如何考量国情,走出一条独具“中国特色社会主义”的Costco之路?Costco又是否能打破外资零售“巨头”在……在平凡的日子里,我遇到了人生的扳道工人生很奇妙,你遇到一个人、看到一本书、听过一个故事,也许人生就此不同。这人、这书、这故事就像铁路扳道工,不经意间让你的人生列车向着完全不同的方向驶去。我和人人都是产品经理的故事……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界