童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

数据产品必备技术知识:机器学习及常见算法,看这一篇就够了

2月6日 程染筱投稿
  大家都知道,产品经理需要懂技术,毕竟产品经理经常要和开发同学相爱相杀。不一定要精通,但至少不要让这块成为沟通的障碍。懂点技术,实际工作中也能少被开发同学“忽悠”,讲道理时不会畏手畏脚,更有底气。对于数据产品经理来说,不仅要懂技术,还要懂更多的技术。本文分享了数据产品经理必备的那些技术知识。
  产品都要懂:什么是程序?程序如何组装成功能?服务端客户端数据交互是咋样的?数据库是啥?里面的表、关系结构、字段、字段类型是啥?常见的技术名词如接口、同步异步、重构等等又是指啥?
  除了这些,数据产品还要懂数据相关的技术,比如说数据仓库,机器学习数据挖掘,大数据框架或者常用的数据开发工具hadoop、hive、spark等等这些。所以,从某些角度而言,数据产品比其他产品门槛要更高点。
  本文主要梳理机器学习及常见算法。
  一、什么是机器学习
  机器学习有下面几种定义:
  机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
  机器学习是对能通过经验自动改进的计算机算法的研究。
  机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
  上述来自维基百科,有点晦涩。
  机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
  其实这个过程,一个成语就可概括:举一反三。
  此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。
  机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考的题目)?
  事实上,机器学习的一个主要目的,就是把人类思考归纳经验的过程,转化为计算机通过对数据的处理计算得出模型的过程。
  二、机器学习术语
  训练:数据通过机器学习算法进行处理,这个过程在机器学习中叫做“训练”。
  模型:处理的结果可以被我们用来对新的数据进行预测,这个结果一般称之为“模型”。
  预测:对新数据的预测过程在机器学习中叫做“预测”。
  特征:即数据的属性,通过数据的这些特征可以代表数据的特点。
  标签:对数据的预测结果。
  特征和标签,结合下面的内容更好了解。
  三、机器学习常见算法
  先说算法,其实算法是个很大的概念,除了机器学习算法,还有很多非机器学习算法,如编程里解决排序的快排、堆排、冒泡,也是算法。只是机器学习太火了,一提算法,多想到的是机器学习算法。
  1。决策树
  决策树,一种预测模型,代表的是对象属性与对象值之间的一种映射关系。
  一般来讲通过学习样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。
  这里举一个简单的例子:比如说,样本数据为用户的行为信息,同时已知每个用户的分类信息,假设分类为流失用户、非流失用户。
  然后我根据多个样本数据训练出的多种多样的模型,下面画了一个简单的决策模型,其中事件可以是:是否有过订单,被赞次数超过5次等等这种(事件不是啥专有名词哈,我这里是为了偷懒不去举例,而用它代替)。
  此外,为了验证哪个模型更准,可以再用一组新的样本数据作为测试数据,套入模型,看看模型跑出的分类和实际分类误差多少,从此来衡量模型的准确性。
  这里引入一下训练样本和测试样本,很多训练过程都是这样处理的,样本数据划分为训练样本和测试样本,训练样本用来生成模型,测试样本用来验证准确性。
  同时这里面的用户的行为事件就是“特征”,分类(是否为流失用户)就是“标签”。
  回顾一下:
  特征:即数据的属性,通过数据的这些特征可以代表数据的特点。
  标签:对数据的预测结果。
  至于模型是怎么训练生成的,具体算法啥样,就不介绍了(其实是我也写不清楚)。
  决策树在实际工作中基本应用于给人群分类,最好的应用场景是要把人群分类,并找到不同类别人群的不同特征,比如上面的例子,就可以做个流失模型,通过用户的行为来提前找到哪些人有流失风险,并通过专门优惠等手段挽留。也可以发现哪些关键节点导致了流失,在这些节点上加一些运营策略来减少流失。
  为了防止上图误导大家,找了其他的决策树模型示例。
  2。回归算法
  统计学来讲,利用统计方法来建立一个表示变量之间相互关系的方程,这样的统计方法被称为回归分析。
  回归算法就可以理解是研究不同变量相关关系的一个机器学习算法。多说一句,其实很多机器学习算法都是来自统计学。
  回归算法有两个重要的子类:线性回归和逻辑回归。
  线性回归
  这里从简单线性回归入手介绍,也就是我举得例子只是研究两个样本变量之间的线性关系。
  假设我们来研究考试成绩和复习时间的关系,数据如下:
  我想找出考试成绩和复习时间的规律,怎么找呢?
  这里就是拟合出一条直线,所以这条直线需要“穿过”所有的点,并且与各个点的距离尽可能的小。
  解释一下,简单的线性回归一般是使用“最小二乘法”来求解,最小二乘法的思想:假设我们拟合出的直线代表数据的真实值,而观测到的数据代表拥有误差的值。为了尽可能减小误差的影响,需要求解一条直线使所有误差的平方和最小。
  假设拟合出的这条直线的函数如下:
  学习成绩a复习时间b
  a、b都是直线的参数。获得这些参数以后,我就可以计算出学生的成绩。
  这个结果可能和实际有些偏离,由于这条直线综合考虑了大部分的情况,因此从“统计”意义上来说,这是一个最合理的预测。但是如果数据越多,模型就越能够考虑到越多的情况,由此对于新情况的预测效果可能就越好。所以其实机器学习准不准,很大程度看你喂的数据够不够多。
  逻辑回归
  逻辑回归是一种与线性回归非常类似的算法,属于分类算法。
  逻辑回归只是对线性回归的计算结果加上了个函数进行处理,将数值结果转化为了0到1之间的概率,根据这个概率可以做预测,例如概率大于0。5,则肿瘤是否是恶性的等等。从直观上来说,逻辑回归是画出了一条分类线,见下图(也有划出非线性分类线的逻辑回归)。
  假设我们有一组肿瘤患者的数据,这些患者的肿瘤中有些是良性的(图中的蓝色点),有些是恶性的(图中的红色点)。这里肿瘤的红蓝色可以被称作数据的“标签”。同时每个数据包括两个“特征”:患者的年龄与肿瘤的大小。我们将这两个特征与标签映射到这个二维空间上,形成了我上图的数据。
  当我有一个绿色的点时,该判断这个肿瘤是恶性的还是良性的呢?根据红蓝点我们训练出了一个逻辑回归模型,也就是图中的分类线。这时,根据绿点出现在分类线的左侧,因此我们判断它的标签应该是红色,也就是说属于恶性肿瘤。
  3。神经网络
  神经网络算法是80年代机器学习界非常流行的算法,不过在90年代中途衰落。现在,携着“深度学习”之势,神经网络重装归来,重新成为最强大的机器学习算法之一。
  神经网络的学习机理就是分解与整合。
  在这个网络中,分成输入层、隐藏层和输出层。
  输入层负责接收信号,隐藏层负责对数据的分解与处理,最后的结果被整合到输出层。
  比方说,一个正方形,分解为四个折线进入视觉处理的下一层中。四个神经元分别处理一个折线(每个处理单元事实上就是一个逻辑回归模型,逻辑回归模型接收上层的输入,把模型的预测结果作为输出传输到下一个层次)。
  每个折线再继续被分解为两条直线,然后处理,再将每条直线再被分解为黑白两个面处理。
  整个过程就是一个复杂的图像变成了大量的细节进入神经元,神经元处理以后再进行整合,最后得出了看到的是正方形的结论。
  4。SVM(支持向量机)
  从某种意义上来说是逻辑回归算法的强化:通过给予逻辑回归算法更严格的优化条件,支持向量机算法可以获得比逻辑回归更好的分类界线。但是如果没有某类函数技术,则支持向量机算法最多算是一种更好的线性分类技术。
  5。聚类算法
  聚类算法的目的则是通过训练,推测出这些数据的标签。训练数据都是不含标签的,算是典型的无监督算法,后续会介绍有无监督算法的区分。
  让我们还是拿一个二维的数据来说,某一个数据包含两个特征。我希望通过聚类算法,给他们计算分类打上标签,我该怎么做呢?
  简单来说,聚类算法就是计算种群中的距离,根据距离的远近将数据划分为多个族群。
  聚类算法中最典型的代表就是KMeans算法
  kmeans聚类的目的是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。
  Kmeans常用的场景是在不清楚用户有几类时,尝试性的将用户进行分类,并根据每类用户的不同特征,决定下步动作。(决策树也可以做这件事,但需要先定义出特征,因此在探索特征未知的领域时,聚类可能更好用一些)
  6。降维算法
  也是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。
  例如,房价包含房子的长、宽、面积与房间数量四个特征,也就是维度为4维的数据。可以看出来,长与宽事实上与面积表示的信息重叠了,例如面积长宽。通过降维算法我们就可以去除冗余信息,将特征减少为面积与房间数量两个特征。
  7。推荐算法
  推荐系统中常用到的算法包括协同过滤算法(itembase,userbase)、用户偏好算法、关联规则算法、聚类算法、内容相似性算法(contentbase),以及一些其它的补充算法。
  其中最有名的算法就是协同过滤算法,核心思想是物以类聚,人以群分。具体可以分为基于用户的协同过滤算法和基于物品的协同过滤算法。
  itembase是根据集体用户行为算出物品间的相似度,然后把与用户看过的物品或者购买过的物品最相似的物品推荐给该用户。
  userbase是根据集体行为计算用户之间的相似度,比如A跟B计算出来非常相似,则可以把B喜欢的内容,但A还没有看过,推荐给A。
  用户偏好算法是根据用户偏好算出来用户感兴趣的内容产品,然后推荐给用户。
  关联规则算法是算出物品间的支持度和置信度。最常见的应用是组合购买,啤酒和尿不湿是非常经典的例子了。
  聚类算法,可以对用户进行聚类,也可以对产品进行聚类。聚类后可以针对大类进行推荐,或者继续计算用户类和产品类之间的关系。
  contentbase是根据物品本身的属性进行关联性运算,计算出物品间的相似性,最常见的应用是同类推荐。
  四、机器学习算法分类(监督和无监督区别)
  训练数据有标签,则为监督学习算法,没标签则为无监督学习算法,推荐算法较为特殊,既不属于监督学习,也不属于非监督学习,是单独的一类。
  上述算法除了聚类、降维属于无监督学习算法,推荐是单独一类,其余都是监督学习算法。
  其实还有半监督学习算法,也就是训练数据部分有标签,部分没标签。
  总体来讲,相对对于监督学习,无监督学习如聚类算法效果差了些。但是监督学习需要标签,标签哪里来?在实际应用中,标签的获取常常需要极大的人工工作量,有时甚至非常困难。现在很多做大数据的会招人工来打标签,制定打标规则啥的。
  现在再看机器学习的概念,其实本质就是找到特征和标签间的关系。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。
  本文总算是进入尾声,主要是分享自己平常的学习总结,写下来,一个是加深自己的理解,二是希望对和我一样是算法门外汉但是又想了解学习的同学能够有所帮助。不过这篇对于专门想做算法工程师的同学可能不太合适,还是要看专业的视频经典的书籍来学习。上述算法参考了很多大神的文章,能看的懂的,自己的理解就写的多点,太晦涩的,就只是整理下来了。
  写这个数据产品技术知识系列也是有感自己当初想要了解这些,网上没找到针对产品来讲的、系统一点、通俗一点的文章,很多时候是一个概念一个概念零散的去找。
  之前的文章可以了解一下哈:
  数据产品必备技术知识:数据仓库入门,看这一篇就就够了
  大数据告诉你:如何求职数据产品经理?
投诉 评论

AI加持下的个性化教育,谁能拿下这块行业高地?AI赋能下的教育市场在资本引爆、巨头加入和巨额融资中滚滚向前,赛道不断被细分,竞争残酷程度也逐渐加剧。而在此期间,个性化教育逐步被提上最重要的位置。那在AI加持下的个性化教育,……外呼失败场景如何处理?AI技术革新了外呼行业的工作模式,机器人外呼替代了人工坐席,极大的提高了外呼的效率。各大公司也本着节省投入,提高效率的原则,快马加鞭地上了智能外呼。智能外呼在失败场景的处理,直……初入AI坑,前阿里产品老兵推荐你看这8本书。。8本书都有自己的侧重点,不同的书适合于不同方向的AI产品经理,适合想在相关领域深入学习、探索的同学研究。随着人工智能行业的崛起,越来越多的人才涌入,不少产品经理们也在寻找……如何用牛顿冷却定律计算热度?关于涉及相关热度衰减的需求,我们应该怎样对热度进行计算呢?本文希望可以给产品经理们一个思路。一、什么是牛顿冷却定律牛顿冷却定律是由英国物理学家艾萨克牛顿爵士(164……和机器人交互,哪些是本质,哪些不是自从人类发明了计算机,就持续面临着一个根本性问题:我们到底应该如何与这类机器交互?抛开具体交互形式不论,显然地,我们和机器的交互方式上经历了一个从人适应机器,到机器适应人的过程……较于深度学习,这种全新的算法似乎更佳?编者按:深度学习的如日中天遮掩了进化算法的光芒,但进化算法也有望重归大众视野,毕竟在某些领域它可比深度学习领先得多。本文译自MITTechnologyReview中原标题为”E……智能耳机史(下):品牌阶层固化与产品的三路跃迁在我们的上两篇文章中,分别介绍了2000年以来,耳机行业的三大发展趋势(数字化、无线化和智能化),以及2014年以来,智能化耳机的六大主要赛道(真无线、降噪、运动、声音增强、语……还不了解智能音箱,你就out了智能音箱已经成为互联网企业,进入人工智能领域试水的产品之一。那为什么是智能音箱?为什么智能音箱能够这么火?目前智能音箱的市场究竟是什么状况?近年来,人工智能浪潮席卷全球,……用SQL替代机器学习,这是新时代的“电风扇吹香皂盒”吗?一些布道者们把AI视为一把锤子,但这个世界上的每一个问题并不是都长得都像钉子。7月1日,在HackerNews上面有一篇文章火起来了,作者是尼日利亚的软件工程师Celes……数据产品必备技术知识:机器学习及常见算法,看这一篇就够了大家都知道,产品经理需要懂技术,毕竟产品经理经常要和开发同学相爱相杀。不一定要精通,但至少不要让这块成为沟通的障碍。懂点技术,实际工作中也能少被开发同学“忽悠”,讲道理时不会畏……你想知道的电话智能客服都在这了这是一篇关于电话智能客服的分享帖,本文简单的和大家说明电话智能客服的发展、电话智能客服设计中的难点以及具体功能设计,让大家对电话智能客服有个系统全面的了解。客服机器人的时……SQL足以解决你的问题,别动不动就是机器学习一些有趣的技术和概念如雨后春笋般冒出来机器学习、区块链、人工智能、虚拟现实、增强现实等等,而有些现有的技术则开始退居二线。不久前,我发了一个推文,说我们需要使用传统和已有……
细数中国网络文学的市场现状盘点:BAT做失败的那些短视频产品知识付费,大V出走与退场顾客感知价值理论,让K12教育更有竞争力你的坚持值得被肯定2019友盟杯数据分析大赛结果公布物联网技术如何助力企业转型升级?用提问的方式:寻找属于你的产品思维模式(下)低成本管理文件:工作电脑文件整理的一套简单方法微信封禁打卡返学费背后:在线教育的求生与求存切入大健康生态业务模式的12项关键认知网易云音乐歌单带给我的启示社交电商还能怎么玩?一场从1开始的社交裂变传播游戏58同城联合美团配送面向北京上海等十城开启网约配送人员直播招过年炸的年货面食年味十足的传统油炸面食怎么跟孙悟空学习技能?龙珠超宇宙拜师孙悟空方法看书让我陶醉伊诗贝格适合什么年龄的人适合什么肤质安踏能量环跑鞋耐磨吗炒股真正能发大财的只有一种人坚持只买一追忆往事小学作文400字我的爸爸是书迷科学家发现史前鲜花墓葬坐月子不能吃哪些调料松子虽好非人人可食

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界