范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

基于距离函数的改进kmeans算法

  摘要:聚类算法在自然科学和和社会科学中都有很普遍的应用,而K-means算法是聚类算法中经典的划分方法之一。但如果数据集内相邻的簇之间离散度相差较大,或者是属性分布区间相差较大,则算法的聚类效果十分有限。本文基于离散度的思想,采用新的加权距离函数代替了传统算法的欧氏距离,在一定程度上优化了k-means算法的聚类结果。
  关键词:聚类;k-means算法;离散度
  1 概述
  在当今时代,数据可以说是最宝贵的财富,数据挖掘算法成了发掘数据财富的最有效手段,而聚类分析可以算是数据挖掘算法的重要组成部分。聚类分析是指根据物理或者抽象对象的集合相似度来分组的分析过程,目标是尽量将类似的对象归为一类。聚类源于各种领域,包括计算机科学,数学,统计学,经济学和生物学等。用于衡量不同数据元素之间的相似性,并根据相似性将数据元素归类到不同的簇中。而根据对象间相似性度量和聚类评价准则的不同,聚类方法可以分成五类:层次方法,划分方法,基于密度的方法,基于网格的方法和基于模型的方法[1]。
  K-means算法是很典型的基于距离的聚类算法,同是也是一种基于划分的算法,采用距离作为相似性的评价指标。该算法简单且易于使用,运行速度快,与其他聚类算法相比应用更加广泛[2]。但同时k-means的缺陷也十分明显。首先,算法只能求得局部最优解,无法得到全局最优;其次,算法是硬聚类,初始中心点的选择对最终结果的影响相当大;再次,对于异常点非常敏感;最后,对于簇间离散度相差较大的数据集的边界点分类效果不好。
  针对k-means的缺陷,出现了许许多多不同的改进,主要针对类别个数K的选择,初始中心点,异常点剔除,相似性度量和聚类评价准则这四个方面。对于最佳聚类数的确定,国外学者Hamerly等提出了对于簇数量的估算方法[3],可以根据簇的分布估算出K的大小,国内学者周世兵[4]等从样本几何结构的角度设计了一种新的聚类有效性指标,并在此基础上提出了一种新的确定最佳聚类数的方法;关于初始中心点的选择,朱颢东[5]等提出的使用改进的模拟退火算法来优化初始中心点,将退火算法和k-means结合在一起,较好的改进了算法对初始中心点敏感这一缺点;对于样本异常点对于分类的影响,张玉芳[6]等提出了基于取样的划分思想,直接在样本层面排除了一部分的异常点,张琳[7]等采用密度的思想,通过设定EPS领域以及EPS领域内至少包含的对象数minpts来排除孤立点,并将不重复的核心点作为初始聚类中心;最后关于k-means相似性度量和聚类评价准则,这一直是改进的主要方向,特别是对于原算法使用的欧氏距离,Mao & Jain[8]提出了Mahalanobis距离来代替,但是本身缺点也很明显。后来,先后出现了Itakura-Saito,Bregman等距离,相对于欧式距离有许多突出优点,如克服局部最优,线性时间复杂度等[9]。
  2 K-means算法的基本思想和过程
  2.1 K-means基本思想
  k-means算法是硬聚类算法,它将数据元素到中心点的某种距离作为聚类规则并迭代求极小值,是基于原型的目标函数聚类方法的代表。最原始的k-means算法用元素点到中心点的欧式距离作为相似度测度,本质是一种贪心的思想,只选择当前所能看到的最优解,所以只能得到局部最优解。算法以K为簇的数量,一旦确定在算法执行过程中就不会改变,把n个对象分为K簇,k-means的核心思想就是先从n个待聚类对象中选出K个点作为第一次聚类的初始中心点,而剩余的对象则根据相似度测度即到中心点的欧式距离分配到离得最近的簇,分配结束后计算新形成的簇的中心点。这是个迭代的过程直到中心点不再有较大的变化,达到聚类的效果。显然,k-means的几个主要的缺点,初始K值难以确定、初始中心点选择影响较大也是因此而来。
  2.2 K-means算法的基本过程
  第一步:在X中任意选择k个对象作为初始的簇中心;
  第二步:REPEAT;
  第三步:计算每个对象到每个簇中心点的距离,将每个对象分配给离得最近的簇(即最相似的簇);
  第四步:根据新的聚类计算每个簇新的中心点;
  第五步:直到每个簇的中心不再变化,或者变化小于某个阈值。
  3 改进的K-means算法
  3.1 改进的出发点
  对于数据集来说如何才算是好的划分,除了要使同一簇中的对象相似,不同簇之间的对象不相似外,还应该看聚类结果是否能揭示数据的内在联系,得到合理的可解释的数据分类[10]。但是一个数据集内的簇不可能都是分布均匀的,他们之间的离散度可能相差很大。这种情况下,传统k-means算法很难有很高的聚类正确率,特别是对于离散度比较大的簇,由于其准则函数是将各个簇的误差平方值直接相加而得到的,很容易将大离散度的簇的元素点,特别是两个簇的边界点,分配给离散度小的元素集中的簇,从而影响了聚类的质量。所以改进的出发点就在聚类评价准则。我们都知道,标准差可以用来描述组内个体间的离散程度,假设有一组数值则其标准差公式为:
  3.2 对象分配以及算法的改进
  改进后的距离公式如下所示:
  输入:含有N个对象的数据集以及簇的个数k;
  输出:在k个中心点稳定之后的k个簇;
  第一步:在数据集中随机选取k个对象作为初始的簇中心;
  第二步:REPEAT;
  第三步:使用改进之后的距离函数计算每个对象到每个簇中心点的距离,使dist()最小,将每个对象分配给离得最近的簇(即最相似的簇);
  第四步:根据新的聚类计算每个簇新的中心点并计算此簇的标准差;
  第五步:直到元素点的类别不在变化。
  从上面的算法步骤可以看出,改进后的算法和传统k-means步骤上没有什么区别,只有dist函数不一样。自然,改进后的算法时间复杂度比之传统k-means算法要高一些。
  4 试验和结果分析
  模拟试验使用的数据由MATLAB生成,包含一个数据集,数据集如图1所示:
  数据集包含两个相邻的圆形簇。所有的数据点都是用的MATLAB随机方法生成,具体的数据见表1。
  两个数据集的特点都是相邻的簇的离散度相差比较大,其中一个簇的数据元素的属性分布比较广,而且簇之间的距离比较近。分别对两个数据集上运行传统的k-means算法和改进的k-means算法。数据集二的试验结果如下所示,图3是传统k-means算法的聚类结果,图4是改进算法的聚类结果。
  对比可以看出,在模拟数据集下改进后的算法的正确率相对于传统k-means有一定的提高。
  5 结论
  参考文献:
  [3] Hand D J, Mannila H, Smyth P.Principles of data mining. MIT press,2001.
  [4] Jain A K, Mao J, Mohiuddin K. Artificial neural networks: A tutorial. Computer,1996(3):31-44.
  [5] Soman K, Diwakar S, Ajay V. Data Mining: Theory and Practice [WITH CD]. 2006: PHI Learning Pvt. Ltd.
  [8] 张玉芳,毛嘉莉, 熊忠阳. 一种改进的 K―means算法[J]. 计算机应用, 2003,23(8):31-33.
  [9] 周世兵,徐振源, 唐旭清. K-means 算法最佳聚类数确定方法[J].计算机应用,2010,30(8):1995-1998.

浅谈焚烧炉及余热锅炉额定工况下第一二烟道的热态模拟引言由于我国城市生活垃圾有水分高,热值低,未分类等特点,采用层燃方式的炉排焚烧炉对有这些特性的垃圾适应性好,在国内垃圾焚烧行业里占有很大的优势lj。焚烧炉内的气流流场情况实际测试很中国省际城镇化与生态环境的耦合协调与优化研究伴随着1978年改革开放以来,我国城镇化得到了快速发展,城市生态环境系统也受到了前所未有的挑战,快速城镇化带来生态环境问题日益引起人们的关注与重视,城镇化与生态环境之间的关系也逐渐浅析微生物反应器处理空气甲醛的影响因素随着人们生活水平的提高,大量化工产品以及能产生挥发性有机物(VOCs)的装饰品和日用品进入人们的居室和工作场所,并不断产生各种污染物质。而出于室内保温建筑节能统一空调等需要,居室和电解锰行业重金属废水削减平台的开发与应用研究锰是国民经济中重要的基础物质,是国家的重要战略资源之一,主要用于钢铁化工建材国防农业等行业,在国民经济发展中占有十分重要的地位。2000年以来,我国已成为世界最大的电解锰生产国消费关于煤矸石复垦后溶出液中污染因子的土壤吸附性能研究采煤过程中形成的地表塌陷,造成矿区大量土地破坏耕地减少,严重妨碍了地区经济的可持续发展和社会稳定煤矸石是煤炭生产和加工过程中产生的固体废弃物,煤矸石大量产生,不仅占用大量农田,而且滇池及流域环境水中磷与悬浮物的相关性研究磷是评价水质好坏的标准,是水体中生物生长需要的一种关键元素,是水体富营养化的限制因子。磷含量过多(超过0。2mgL)会使藻类过度繁殖,造成水体富营养化,使湖泊发生水华和海湾出现赤潮关于不同扰动强度对浮游藻类群落结构演替的影响三峡水库蓄水后,库区回水区水体由天然河道改变为人工水库。水库支流库湾暴发多次水华,对水库生态系统以及库区居民生产生活造成极大危害,对水华的防治迫在眉睫。库湾支流水华的发生是多种环境环境意识研究现状困境与出路环境问题和环境保护与社会中的个人息息相关。许多环境问题,归根结底都可以说是个人行为失调的结果。所以,能否合理地引导影响和改变个人的行为,使之符合环境保护的要求,是环保事业能否取得成中国流域水污染现状与控制策略的探讨论文摘要我国流域水污染十分突出,严重制约着流域社会经济和环境的可持续发展。本文简要介绍中国各流域水环境质量现状,分析当前各流域经济发展与水环境保护的关系,探讨流域水污染防治与水环境试论土建工程管理的现状与对策在现代工程管理过程中,由于工程参与人员素质参差不齐,相互之间的配合及系统的工程项目管理体系不是很完善,不能跟上其他国际先进的项目管理公司的步伐,更不容易进一步拓宽国际市场。就当下国建筑工程管理的现状摘要随着我国社会经济的快速发展,人们的生活质量不断提升,建筑工程领域得到了较为显著的发展。因此,为了紧跟时代发展的步伐,我国建筑工程管理工作进行了改革,与之前相比较,建筑工程管理不
关于SNAREs蛋白复合物与囊泡融合分子调节机制的研究进展细胞内大分子物质及颗粒性物质不能自由穿过细胞膜,必须以囊泡运输的方式进行跨膜转运,囊泡介导的转运方式,无论是正向或是逆向转运,都包括3个主要步骤,分别是外壳蛋白的选择,囊泡的出芽与分析辣椒素对P糖蛋白和细胞旁途经转运透过的作用P糖蛋白(Pgp)是限制药物从血液循环进入脑和从肠腔进入上皮细胞的重要转运蛋白1,故联合使用Pgp抑制剂可以增加药物经肠道吸收。Hamilton等首次发现维拉帕米环孢菌素A(CsA简析内窥镜在大鼠气管插管中的应用大鼠气管插管技术是进行开胸手术呼吸功能检测和气管内给药的前提条件。顺利而稳定地完成气管插管减少插管过程中的损伤能为后续实验奠定良好基础。目前常用的经口直视气管插管的方法有盲插法经口浅谈中西医结合治疗对急性缺血性脑卒中患者预后的影响缺血性脑卒中是一组高发病率高死亡率和高致残率的疾病,严重危害中老年人身体健康和生命,随着我国人口老龄化,缺血性脑卒中的危害日益加剧。如何利用我国的传统医学,为卒中患者寻求更有效的治关于急性脑梗死治疗的研究进展脑梗死(CI)是由于各种原因导致动脉管腔狭窄堵塞,出现脑组织供血供氧不足,产生脑功能障碍的CVD疾病之一。急性CI是临床最为常见CVD疾病,有着极高的发病率致残率,并且严重影响患者在基层医院开展腹腔镜胆囊切除术的经验总结作者朱小勇贺华勇陈廷均目的探讨基层开展腹腔镜胆囊切除术的方法。方法回顾分析腹腔镜胆囊切除术急性胆囊炎ObjectiveTodiscussthemethodoflaparoscopi胸外伤的临床诊断与治疗分析近年来,伴随着社会发展以及生活水平的提高,人体额外伤害在不断增加,尤其胸部创伤呈逐年上升,发生率为1015,具有伤情危急,死亡率高的特点。为提升作者所在医院的诊疗水平,更好地救治胸纤溶酶治疗急性脑血栓的临床研究影像学显示,急性脑血栓的患者其血栓部位多见于患者的颈内或椎内动脉,如果在基动脉系内导致闭塞性血栓的形成,则动脉内很容易形成微血栓。研究表明,脑血栓患者的纤溶系统存在紊乱,纤溶酶原激糖尿病酮症酸中毒诱因的临床分析1资料与方法1。1一般资料本组病例来白2006年1月2011年12月我临床收治患者,其中2例为反复多次住院患者。根据临床表现及随机血糖17mmo1L,尿酮半定量pH7。35,HC0感染性休克患者的治疗体会感染性休克因为早期的认知不够,外科手术时机的选择不确定,病死率较高。对感染性休克患者早期充分液体复苏可降低病死率,改善血流动力学状态,逆转器官功能损害并且预防多器官功能衰竭的发生。经颅多普勒在轻度认知功能障碍患者早期诊断中的应用轻度认知障碍(mildcognitiveimpairment,MCI)是指出现轻度记忆或认知功能障碍,但不影响日常生活能力,是介于正常老化和早期老年痴呆之间的一种临床状态。MCI具