童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

AI产品之路:机器学习(一)

7月3日 罗刹长投稿
  文章分享了关于机器学习的一些知识,希望能够给各位PM带来收获。
  2017年可以说是人工智能爆发的一年,传统互联网红利消失,熟知的大厂BAT都在人工智能上布局,作为一名互联网PM,深知技术的变革必然带来新机会。可对大多数互联网PM而言,面对ML(机器学习)、DL(深度学习)、NLP(自然语言处理)以及的各种概念以及底层所需的各种数学知识,不懂技术似乎让人望而却步了。
  可事实并非全然如此,AI是手段,最终的目的也是要找到现实中可以落地和商业化的场景,去实现他的价值,虽然目前来看仍然是技术主导。不过可以确信的一点是,要进入这个领域,对底层知识和技术的要求是必然要高于互联网PM的水平。
  本人目前是一名互联网PM,刚好上学得是相关专业,有点数学底子,也层自己撸过代码设计实现“基于BP前馈神经网络的图像识别”,打算进入未来进入AI领域,最近开始重新学习并搭建AI的知识框架,希望能分享出来大家一起来了解AI这个看起来“高大上”的东西。
  首先,按照李笑来老师和罗胖的说法,学一个领域的知识,就是两件事(1)找概念(2)搭框架。特别是对于很多对概念都不了解的同学,一定要有个“知识地图”,如下:
  看到这个脑图,一些童鞋经常混淆的问题就明白了
  机器学习是什么
  深度学习是什么
  机器学习与深度学习的区别是什么
  机器学习监督学习方式的“回归思想”
  下面我们一一来说
  1。机器学习
  概念定义(个人理解):通过大量已知数据(可能被标注,也可能无标注)去训练算法模型,总结出某种数据之间的映射关系(即规律),最终可以对未知数据实现智能处理(分类、识别、预测等)
  举个例子,比如我这里有大量苹果和桃子的图片,并且每张图片都打上对应的种类标签,然后把这些图片喂给模型,让模型不断学习优化。训练结束后,我们又找一些没有打标签的苹果和桃子图片扔给这个模型,让他自己去做分类识别是苹果还是桃子,这就是一个完整的机器学习过程(有监督)。而所谓的“映射关系”,即“苹果图片”对应“苹果标签”,“桃子图片”对应“桃子标签”
  2。基本概念
  (1)学习方式
  学习方式分为有监督学习和无监督学习,有监督学习即我们会再把数据给模型训练之前,进行人工的预先处理,打标签(学名:特征提取)。监督学习又分为回归与分类。
  而无监督学习,就是无需通过人为的预先处理,直接把数据给算法,无监督学习对应的方法为“聚类”
  (2)学习过程
  训练集(训练样本):我们在训练算法模型时给他的数据
  验证集:用训练样本训练好以后,我们还要用训练样本之外的数据,去检验这个算法模型的实际效果
  误差:如何检验效果呢?在MLDL里,就是通过“误差”的大小去判断(至于具体怎么计算,下一篇会讲到)
  欠拟合:模型不能在训练集上获得足够低的误差
  过拟合:训练误差与测试误差(在验证集的误差)差距过大,那么这个模型就不是好模型,因为只能用在训练样本上。而对其以外的数据都没有好的效果
  泛化性:训练好的模型在其他数据上的使用情况,如果效果也很好,那就是泛化性好
  那么问题来了,怎样才算合适的拟合呢?
  其实在整个过程中,随着时间推移,算法的不断优化,在训练样本和测试样本的误差都在不断下降;但如果学习时间过程,训练集的误差持续下降,而验证集的误差却开始上升了。原因是模型为了在训练集上效果更好!已经开始学习训练集上的噪音和不需要的细节了。所以要找到合适的“拟合”,最好是找到训练误差还在下降,而测试误差刚好开始上升的那个“点”
  3。机器学习与深度学习的区别
  很多不知道的人,可能仅仅知道他们是包含关系,深度学习属于机器学习,但其实远远不止如此。。(这样太模糊了),从脑图可以看出,其实机器学习在方法上可以有很多种,比如:逻辑回归、决策树、朴素贝叶斯、线性回归、SVM支持向量机等,他们都属于机器学习,而我们也看到,最下面有一个“神经网络”,他们的等级与上面列举是属于一类的。
  而神经网络这概念,可以分为“浅层神经网络”与“深层神经网络”
  “浅层神经网络”中最经典的一个网络也就是“BP前馈神经网络”
  “深层神经网络”,大概可以理解为我们所谓的“深度学习”(DeepLearning),而深层神经网络,下面又分为很多网络结构,如DNN、CNN、RNN
  但这里要注意区分的是,深浅的区别不仅仅是“网络层数”的区别,更重要的是,“深度学习”(深层神经网络)较其他所有机器学习最厉害的一点:
  他可以进行数据的特征提取“预处理”(省去了数据人工标注的大麻烦,同时可以对更多维和复杂的特征进行向量的提取和空间向量的转换,方便后续处理),而这也是他为什么要很多层的原因,因为其中多出来的网络层数,都是要用来进行数据特征提取预处理的
  相信到一步,结合上面的脑图,我们就能分清“机器学习”与“深度学习”的真正区别了,不是简单的包含关系。
  4。回归
  个人觉得回归作为了解机器学习过程,是一个很好的入门了解。
  所谓“回归”,看起来很深奥,其实并不是这样。我举个栗子:
  y2x这个一元函数,假设我们现在不知道他的斜率w2,而我给你5数据y2,4,6,8,10,对应的x分别为1,2,3,4,5。你是不是会自动假设,那他们之间是2倍的对应关系?没错!你“自动假设他们有某种对应关系”的这个过程,就叫“回归”;而你假设他们的关系是“2倍”,这就是“线性回归”了。
  所以回归的定义(个人理解):我们看到大量事实或数据中,假设他们之间存在着某种对应关系。而机器学习中的回归(监督学习)要做的就是:尝试去让计算机找到大量数据之间这样的对应关系,那怎么找呢?
  我们先假设一个关系吧:ywxb,其中w为权值、b为偏置,w为1Xn矩阵向量,x为nX1的矩阵向量(这几个概念就不做数学解释了,而为什么x不是实数而是矩阵,那是因为我们在现实世界的数据中,可能有N多个维度。而不仅仅是一维就可以描述这个数据特征的)
  现在我要评判一个橘子的“好坏程度”,y代表“好坏程度”,而且都是打过标签的。x为一个三维矩阵向量分别代表【大小、颜色、形状】。那么代入公式:
  yw1X大小w2X颜色w3X形状(这里先假设b为0吧)
  那么现在的任务就是分别找到合适的w1,w2,w3的值来准确描述橘子的“好坏程度”与“大小、颜色、形状”的关系。那么怎样确定是否合适呢?
  通过“损失函数”Loss来定义(这里数学公式就不列了),Loss的含义就是把样本中所有x都代入“假设公式”wxb中(这时候w与b的值几乎肯定是不准确的),然后得到值与真实的y值做比较的差值,就是损失函数Loss。那么Loss越小,说明这时候的w与b的值越接近真实的“线性关系”。所以我们最终机器学习的目的,就是求解出让Loss越小(当然无限接近于0最好)的对应的w与b的值,求出来之后,也就是机器学习模型“训练结束”!之后就是用验证集去验证是否会过拟合,来检验模型的泛化能力
  当然这里要做几点说明了:
  (1)这只是最为最为简单的一个机器学习栗子说明,着重了解一下机器学习中回归的基本思想
  (2)这里我们并没有说怎么去寻找让Loss最小(或符合条件)的对应w与b的映射关系,后面我在分享“BP前馈神经网络的梯度下降时”会简单介绍这个求解基本思想过程
  (3)如果你分析的数据本身是非线性关系,而你假设他们是线性关系并用对应的模型去训练,那么结果一定是“欠拟合”的(所以对于欠拟合的一另一个表达:你的想法不符合这个世界的现实)
  上面的关于机器学习的一些基本概念的分享,后续持续更新,希望能和大家一起走在AI的路上!
投诉 评论 转载

支付小结:谈谈支付系统的对账关于支付系统的对账,作者做了相关的分析总结,希望能够给你带来帮助。对账,我们一般称为勾兑,支付系统的对账,包含着两个层面:支付系统内部间的对账,支付系统一般是分布式……如何设计一个好的【扫码】界面?如何设计一个好的【扫码】界面?作者分享了自己的一些想法。由于最近公司的产品要做扫码功能以辅助web端完成订单支付,所以就研究了一些主流APP中的扫码页面,这里就从页面元素……AI产品之路:机器学习(一)文章分享了关于机器学习的一些知识,希望能够给各位PM带来收获。2017年可以说是人工智能爆发的一年,传统互联网红利消失,熟知的大厂BAT都在人工智能上布局,作为一名互联网……产品设计:如何提升内容的点击?如何更好的设计来提升内容的点击呢?文章为你分享。最近在负责一个大版本,主要为书城首页改版,由原来的按标签自动推荐改为推荐位手动推荐,前前后后设计了好几稿还是不太满意。如何……从用户反馈,看简书APP最近在系统地学习一套产品经理课程。有一个模块是通过用户反馈发现问题,课间思考作业是以简书为例,整理简书在Appstore的点评情况。恰好我也是简书的用户,同时手机上也装了“简书……阿里3分钟破100亿,AliExpress给了出海电商哪些启文章主要对双十一的重要一员,国际版淘宝AliExpress,展开解读。3分01秒,100亿!13点09分49秒,1207亿!超过2016年双11全天成交额!1……APP设计篇:如何让你的设计更精致?文章通过图片、文字、色彩、图标、留白这几个维度来解剖APP设计,为你挖掘那些微妙的细节。当我们打开一个APP时,从视觉层面分析,影响用户对APP整体感官体验的元素主要有:……招才猫积分系统项目总结玩转积分系统,纷纷钟稳日活,促留存。移动互联网领域在产品中搭建积分系统,利用小积分的杠杆作用,可有效提升APP留存率,同时在用户忠诚度、活跃度以及品牌美誉度等方面都会获得……浅析后台产品的实现过程本文主要介绍后台产品从01的产品实现过程。最近在负责公司的一个后台项目,本人是技术转型开发,之前负责的也多数是后台管理系统,希望跟大家分享一些个人心得。后台产品一般都是办……智能POS:全链路思考和设计实践以智能POS项目为例,谈谈设计师如何拥有全链路的视角以及全链路视角下的设计实践。作为国内最大的生活服务平台,美团不仅要提供给消费者优质的服务,同时也要服务好数百万的商家。……电商开放平台产品设计(3):供应商开放平台前面讨论过“商品开放平台”、“店铺开放平台”,这次重点讨论下“供应商开放平台”作为开放平台系列的结尾。提到供应商,就不得不说说采购。供应商和采购系统密不可分,采购模式一般……浅谈产品生态的力量:淘系vs京东、微信vsQQ本文作者认为,优秀的产品和伟大的产品,差距就在于是否可以演化出产品生态。互联网产品千千万,却仅有为数不多可以从单一的产品演变成繁华的生态,这些“生态”不仅通过直观的产品功……
国外创新网站欣赏之动态效果的信息图表篇阿里巴巴内部资料交互设计全档案酷站欣赏:50款优秀的配色方案涨姿势!聊聊中英文排版谈手势驱动的移动界面设计高大上的扁平化交互设计交互设计师是做什么的?我要如何了解“她”Android界面与交互设计原则微交互:细节设计成就卓越产品APP解构重构。勿忘初心捕捉用户的文艺神经清明活动设计小结
野菜草莓手工折纸教程警察与小偷好客山东,单县大衣哥村子五一节饺子宴感动四海宾朋五年级《单式折线统计图》教学反思七夕情人节对情人的思念写元旦的作文700字热议聚热点网 千兆路由器选择哪个好点?宝宝早上应该先吃饭还是先喝奶?顺序决定娃的健康,父母别忽视经典人生励志座右铭集锦38条信任,与别人如何无关第一次煮面条

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界