机器学习关于聚类算法，你知道多少？

7月23日血海塔投稿

　　本文笔者将对聚类算法的基本概念以及常见的几类基本的聚类算法的运作逻辑以及思路，还有优缺点进行分析。
　　基本概念
　　1。定义
　　聚类就是对大量未知标注的数据集，按照数据内部存在的数据特征将数据集划分为多个不同的类别，使类别内的数据比较相似。类别之间的数据相似度比较小，属于无监督学习。
　　聚类算法的重点是计算样本项之间的相似度，有时候也称为样本间的距离。
　　2。相似度
　　距离计算公式：
　　闵可夫斯基距离（Minkowski）：
　　当p为1的时候是曼哈顿距离（Manhattan）：
　　当p为2的时候是欧式距离（Euclidean）：
　　当p为无穷大的时候是切比雪夫距离（Chebyshev）：
　　夹角余弦相似度（Cosine）：
　　余弦相似度用向量空间中两个向量夹角的余弦值，作为衡量两个个体间差异的大小。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。
　　假设两个向量a，b：
　　杰卡德相似系数（Jaccard）：
　　Pearson相关系数：
　　3。与分类算法的区别
　　相同点：
　　聚类算法和分类算法一样，都是用于样本的类别划分的
　　不同点：
　　分类算法是有监督的算法，也就是算法找到是特征属性x和类别属性y之间的关系，基于这样的关系，对样本数据x做类别的划分预测
　　聚类算法是无监督的算法，也就是说训练数据中只有特征属性x，没有类别属性y，模型是通过找x的特征信息，将数据划分为不同的类别，基于这样的划分，对于样本数据x认为和那个类别最接近来产生预测。
　　分类算法的效果要比聚类算法的好，如果可以的情况下，一般选择分类算法。
　　4。常用的聚类算法
　　KMeans、GMM高斯混合聚类、LDA（主题模型，非聚类算法，但是可以用到聚类中）
　　5。聚类算法应用场景
　　作为前期的数据处理过程的一种数据标注的方式。
　　基本的聚类算法
　　主体思想：有M个对象的数据集，构建一个具有k个簇（类别）的模型，其中M。
　　首先给定初始划分，通过迭代改变样本和簇的隶属关系，使的每次处理后得到的划分方式比上一次的好（总的数据集之间的距离和变小了）
　　1。Kmeans
　　Kmeans是一种使用广泛的最基础的聚类算法。
　　1）思路
　　假设输入样本为TX1，X2，，Xm
　　选择初始化的k个类别中心a1，a2，ak
　　对于每个样本Xi，计算Xi到aj的距离，并将Xi标记为里类别中心aj最近的类比j
　　更新每个类别的中心点aj，用每个类比的所有样本的均值代替
　　重复上面两步操作，直到达到某个中止条件
　　终止条件（迭代次数、最小平方误差MSE（样本到中心的距离平方和）、簇中心点变化率）
　　2）计算步骤
　　记K个簇中心分别为a1，a2，每个簇的样本数量为N1，N2，，NK
　　使用平方误差作为目标函数（使用欧几里得距离），计算当前划分情况下，所有样本到所有中心的距离平方和公式如下：
　　求解目标函数，我们希望的是在当前划分情况下，有一组新的a1，a2，ak，使得MSE最小，对J进行求偏导：
　　3）优缺点
　　缺点：
　　K值是用户给定的，在进行数据处理前，K值是未知的，不同的K值得到的结果也不一样；对初始簇中心点是敏感的。
　　不适合发现非凸形状的簇或者大小差别较大的簇特殊值（离群值）对模型的影响比较大。
　　优点：
　　理解容易，聚类效果不错处理大数据集的时候，该算法可以保证较好的伸缩性和高效率当簇近似高斯分布的时候，效果非常不错。
　　4）Kmeans存在的问题
　　问题：Kmeans算法在迭代的过程中使用所有点的均值作为新的质点（中心点），如果簇中存在异常点，将导致均值偏差比较严重。
　　初始解决方案：使用中位数6可能比使用均值的想法更好，使用中位数的聚类方式叫做KMediods聚类（K中值聚类）。
　　问题：Kmeans算法是初值敏感（K值的给定和K个初始簇中心点的选择）的，选择不同的初始值可能导致不同的簇划分规则。
　　初始解决方案：为了避免这种敏感性导致的最终结果异常性，可以采用初始化多套初始节点构造不同的分类规则，然后选择最优的构造规则。
　　2。二分KMeans
　　解决Kmeans初值敏感问题，二分KMeans算法是一种弱化初始质心的一种算法。
　　1）思路
　　将所有样本数据作为一个簇放到一个队列中。
　　从队列中选择一个簇进行Kmeans算法划分，划分为两个子簇，并将子簇添加到队列中。
　　循环迭代第二步操作，直到中止条件达到（主要是聚簇数量）。
　　队列中的簇就是最终的分类簇集合。
　　2）如何选择簇进行划分
　　a。对所有簇计算误差和SSE，选择SSE最大的聚簇进行划分操作：
　　b。选择样本数据量最多的簇进行划分操作。
　　3。KMeans
　　也是解决Kmeans初值敏感问题，问题产生原因是Kmeans算法一个簇中间选择了两个中心点，KMeans算法优化初始的K个中心点的方式，避免上述情况的发生。
　　1）思路
　　从数据集中任选一个节点作为第一个聚类中心。
　　对数据集中的每个点x，计算x到所有已有聚类中心点的距离和D（X），基于D（X）采用线性概率选择出下一个聚类中心点（距离较远的一个点成为新增的一个聚类中心点）。
　　重复步骤2直到找到k个聚类中心点。
　　2）缺点
　　第k个聚类中心点的选择依赖前k1个聚类中心点的值，拓展性差。
　　4。KMeans
　　解决KMeans依赖问题，主要思路是：改变每次遍历时候的取样规则，并非按照KMeans算法每次遍历只获取一个样本，而是每次获取K个样本，重复该取样操作O（logn）次，然后再将这些抽样出来的样本聚类出K个点。最后使用这K个点作为KMeans算法的初始聚簇中心点。实践证明：一般5次重复采用就可以保证一个比较好的聚簇中心点。
　　5。MiniBatchKMeans
　　解决Kmeans算法中每一次都需要计算所有样本到簇中心的距离。
　　1）思想
　　MiniBatchKMeans算法是KMeans算法的一种优化变种，采用小规模的数据子集（每次训练使用的数据集是在训练算法的时候随机抽取的数据子集）减少计算时间，同时试图优化目标函数；MiniBatchKMeans算法可以减少KMeans算法的收敛时间，而且产生的结果效果只是略差于标准KMeans算法
　　2）步骤
　　首先抽取部分数据集，使用KMeans算法构建出K个聚簇点的模型。
　　继续抽取训练数据集中的部分数据集样本数据，并将其添加到模型中，分配给距离最近的聚簇中心点。
　　更新聚簇的中心点值（每次更新都只用抽取出来的部分数据集）。
　　循环迭代第二步和第三步操作，直到中心点稳定或者达到迭代次数，停止计算操作。
　　衡量指标
　　混淆矩阵、均一性、完整性、Vmeasure、兰德系数（ARI）、互信息（AMI）、轮廓系数（Silhouette）
　　均一性
　　一个簇中只包含一个类别的样本，则满足均一性；其实也可以认为就是正确率（每个聚簇中正确分类的样本数占该聚簇总样本数的比例和）
　　完整性
　　同类别样本被归类到相同簇中，则满足完整性；每个聚簇中正确分类的样本数占该类型的总样本数比例的和：
　　Vmeasure
　　均一性和完整性的加权平均：
　　Randindex（兰德指数）（RI）
　　其中C表示实际类别信息，K表示聚类结果，a表示在C与K中都是同类别的元素对数。
　　b表示在C与K中都是不同类别的元素对数，表示数据集中可以组成的对数。
　　调整兰德系数（ARI，AdjustedRndIndex）
　　ARI取值范围〔1，1〕，值越大，表示聚类结果和真实情况越吻合。从广义的角度来将，ARI是衡量两个数据分布的吻合程度：

投诉评论

为什么越像人的自然语言交互工具，越容易让人失望？你以为自然交互工具越拟人化越能让用户感觉亲近，越受用户欢迎？其实不然。从有了Siri作为先例，拟人化已经成为了自然语言交互工具的必备能力。不论是服务于个人用户的AI……人脸识别：方式、场景、设计思路本文笔者将与大家详细讲述：人脸识别的方式、人脸识别的场景以及人脸识别产品的设计思路。当下AI行业趋势在向商业化转变，自动驾驶的量产，城市、社区智慧化改造等可见一斑。AI产……机器学习关于聚类算法，你知道多少？本文笔者将对聚类算法的基本概念以及常见的几类基本的聚类算法的运作逻辑以及思路，还有优缺点进行分析。基本概念1。定义聚类就是对大量未知标注的数据集，按照数据内部……槽位背后AI专家系统的5个阶段（下篇）上篇主要是按照专家系统发展阶段的不同，可以将ES分为如下5个阶段：基于规则的、基于框架的、基于案例的、基于模型的、基于网络的。本文先对ES的落地应用进行举例，然后讲技术发展，其……槽位背后AI专家系统的5个阶段（上篇）本文笔者着重介绍专家系统的五个发展阶段基于规则、基于框架、基于案例、基于模型和基于网络的基本逻辑及侧重点。有许多AI产品朋友经过一定阶段的学习和实践能够掌握槽位在机器人客……打造课堂教学的“想象空间”，优化智慧课堂产品近些年来，智慧课堂产品正频繁出现在校园中，主打高效教学、高效学习的智慧课堂却没有得到教师群体的青睐，归根结底还是智慧课堂产品没有达到用户的想象空间。2019年对于智慧教育……AI产品分析（二）：深扒美图秀秀中掳获万千少女芳心的“AI秘这是AI产品分析的第二期，沿着同样的思路，本期一起深扒美图秀秀掳获万千少女芳心的“AI秘籍”上一期我们一起体验了抖音里的各项黑科技，见证了抖音以短视频为载体，基于人脸关键……儿童教育型智能机器人市场、供应链分析文章是针对儿童教育型智能机器人市场做了一个市场和供应链的分析，enjoy做这个分析的背景，是因为公司尝试拓展业务线，原来主要专注于室外机器人移动底盘的开发，未来想以移动机……AI产品分析（一）：抖音黑科技背后的计算机视觉技术此次准备专门写一系列的文章介绍AI产品，以人工智能技术相关的产品体验为主，指明其后背的核心技术关键词，这是一个更加贴近工业实践的尝试。首先选取爆红大佬抖音作为第一个代表，……紧抓未来趋势，为汽车之家设计VR展厅在VR发展初期，有非常多的应用场景可以想象，几乎涉及到我们生活的方方面面。这里我们就来聊聊汽车市场，设计一个VR版本的“汽车之家”，看看VR在汽车领域可以有怎样的发展！一……想从“火神”手中抢回古建筑，AI为首的黑科技们有哪些能与不能前沿的AI技术有望被用于火灾事故中，被给予厚望的AI能发挥其优势吗？持续了5个小时的大火，将拥有850年历史的巴黎圣母院付之一炬。在这个全人类为之惋惜的时刻，我们同……AI场景，3步懂图像识别产品本文重点讲述基于成熟的第三方AI平台阿里、某度、腾讯、谷歌等等中选择一个可供使用的SDK基于Python语言实现图像识别功能的GUI界面，从而一观图像识别车型、图像识别文本产品……

<<<<<<－>>>>>>

为什么说盒马鲜生是中国的Costco？作为新生物种，需要公司创始人或管理层具有较高的格局和服务远景，以商业创新和用户价值作为最高导向。近几年全球线下零售业普遍迎来关店潮，无论是美国零售巨头沃尔玛，塔吉特，梅西……瑞幸向星巴克开火背后，“碰瓷营销”只会适得其反？瑞幸下了碰瓷营销这步错棋，但却将其当做自己“将军”的绝杀。如果瑞幸能够从为市场和消费者创造价值的角度考虑，那么现在瑞幸所做的也许就不会是以“垄断”的宣战语挑战星巴克，而应该是好……产品经理周报第19期今日头条新版本更新slogan：由“你关早做事情，不是看难不难，而是看要不要以下是本周有关产品资讯等的重点回顾：Step1：好看产品动态（1）余额宝6月6日起每日快速提现额度降……我没看到十万抖友去重庆打卡，但抖音确实是种草神器为什么抖音会是种草神奇？他到底具备一些什么样的特征？为什么你在刷抖音的时候停不下来呢？01：突然之间好多人趁着假期疯狂涌入重庆。我是重庆人，在我的记忆里，重庆……线上课程什么时候是转岗产品的最佳时期？1、从工资的角度来说，虽然你认为“金三银四”的工作机会比较多，但因有足够多的求职者应聘，用人单位的选择余地也会很大，市场整体薪资水平反而会降低。同理，毕业季也是求职高峰，会变相……正失去布道者魅力的星巴克，将被谁赶超？放眼世界，星巴克不乏模仿者，但固有的商业模式和品牌壁垒一旦形成，很难被追随者超越。1999年，星巴克在北京中国国际贸易中心开设中国大陆第一家门店，为处在喝速溶咖啡的时代的……相比滴滴，Uber司机连乘客姓名、长相、去哪都不知道原来，美国的Uber司机对乘客信息，知道的这么少。首先，为遇难者默哀，愿世界美好。关于顺风车的事儿，你应该知道了吧哎，真的是，为遇难女孩感到可惜。不久前，当我看到滴……人人都是产品经理大学生产品设计大赛初赛结果公布犹如五月火辣辣的太阳一般，伴随着高温，“人人都是产品经理”大学生产品设计大赛如火如荼地开展着。自大赛启动以来，通过线上渠道推广以及线下范围宣传相结合，大赛的影响力从武汉扩……知识付费的难题：仍不够大众化！如果知识产品像牙膏一样？作者：方军，微信公众号“方军读书会（ID：mindmeters）”互联网上的知识付费仍在快速发展，但不再是焦点话题，很多人问……便利店的山头时代：中国便利店的市场远未被发掘过去两年，在超市和大卖场的关店潮中，便利店开始逆势增长。相比于无人便利店和货架等业态的短暂风口，便利店市场则显得扎实而持久。在大家都将目光聚焦到便利蜂、盒马等明星项目时，区域便……从产品角度，解读滴滴整改措施作者14日写过《滴滴事件思考：如何提供更加安全的打车服务》，而今天滴滴官方发布了阶段整改措施，作者将从产品的角度解读这些措施，并对滴滴面向公众的问题给出自己的答案。滴滴事……Luckin咖啡为什么无法撼动星巴克？2018年入夏，上海的金融区陆家嘴最近又多了一道风景，就是无处不在的Luckin咖啡。通过资本，Luckin在短短5个月中在全国开设了525家店。最近又在我们办公楼里面的分众传……

友情链接：中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界