专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

关于描述CRP模型中的聚类算法的论文

  本文是由上传的:基于CRP模型的聚类算法。
  【摘要】关于聚类问题现在已经有很多方法可以实现,但大多数基于有限混合模型的聚类方法需要预先估计聚类的个数,因而聚类的准确性和泛化性会受到一定影响。本文则提出了一种基于无线混合模型中国餐馆模型(CRP)的聚类方法,CRP模型是Dirichlet过程的一种表示方法,基于Dirichlet无线混合模型找出其后验分布,利用Gibbs采样MCMC方法估计出模型中各个参数以及潜在的聚类个数,并在MATLAB环境下进行一个小实验来验证聚类的效果。
  【关键词】聚类CRP模型Dirichlet过程MCMC采样
  一、引言
  聚类顾名思义就是把事物按照特定的性质或者相似性进行区分和分类,在这一过程中不指导,属于无监督分类。作为一种重要的数据分析方法,聚类分析问题在很久以前就已经为人们所研究,并且已经取得了一定成果,目前的算法已经能对一般简单的聚类问题做出很好的聚类结果。但随着大数据时代的到来,实际应用中的数据越来月复杂,如基因表达数据,交通流数据,web文档等,有一些数据还存在着极大的不确定性,有的数据可以达到几百维甚至上千维,受维度效应的影响,很多在低维空间能得到很好结果的聚类算法在高维空间中并不是十分理想。
  关于高维数据的聚类近几年一些基于有限混合模型的方法取得了很有效的成果。但是这些算法需要提前估计聚类个数的前提下,根据样本的属性进行分析分类。本文采用了一种基于Dirichlet无线混合模型的方法,利用CRP模型和Gibbs采样方法,在分析过程中找出潜在的聚类个数,实现对数据的聚类。
  二、CRP模型
  2。1关于CRP
  CRP模型是Dirichlet过程的一种表示方法,它是关于M个顾客到一家中国餐馆如何就坐问题的一个离散随机过程。具体描述如下:有一家中国餐馆,假设有无限个桌子,并且每张桌子上可以容纳无限个顾客,每一个顾客到来时可以随意选择一个餐桌,也可以自己新开一个餐桌。在CRP过程中,我们把每一位到来的顾客都当作最后一位来看待,有如下分配过程:第一位顾客到来,一定会开一个桌子自己坐下,第二个顾客到来时,以一定概率坐在第一个人开的桌子上,一定概率新开一张桌子,第三个顾客到来时,有一定概率坐在第一、二个人开的桌子上,也可以开第三张桌子以此类推,具体定义的概率如下:
  其中是狄利克雷的先验参数;c是第m个顾客选择的餐桌上已有的顾客人数。顾客选择餐桌时不仅与顾客对餐桌的个人情感有关,还与该桌上在座的顾客关系有关,如果是朋友或是认识的人就算有更好的选择顾客也可能选择与朋友坐一桌。而在CRP模型中并未考虑到顾客的情感色彩因素。
  2。2GibbsSamping
  关于Dirichlet混合模型的GibbsSampling实际上就是根据先验求后验的过程,虽然中心思想一样,但具体实现方法有很多种〔1〕,这里根据CRP的情况,选择其中一种算法,在下一节详细讲解。
  2。3参数估计
  假设有一个整体的数据集D{xi}in1,它的两个参数为z(z1,,zn),zn{1,,K},(1,K)
  其中Z为隐变量,表示样本聚类的标签,Zik代表当前第i个类有k个成员,而则是该模型的每一类的成员参数,根据贝叶斯理论,可以得出p(,zD)p0()p0(z)p(D,z),因此,参数后验分布可以通过计算其先验分布及似然函数来实现,在此基础上计算出的后验分布,并通过Gibbs采样的方法更新参数。
  其中nk代表当前坐在第k个桌子上的其他人的总数。
  2。4使用Gibbs采样的算法
  假设待处理的数据是高斯随机分布的,首先随机初始化参数z,。
  对于每一个zi才用如下采样方法:
  选择已有桌子(第K个)的概率:
  新开一个桌子(第K1)的概率:
  而对于参数,采用如下方式(每当第k个桌子上加了人,这个类的参数k就要更新):
  三、实验与结果
  本文以matlab为平台,对二维空间上一些随机分布的点进行模拟聚类测试。正如上一节所说,这里对测试数据采用高斯随机来生成,为了简化处理,生成了300个各项同向高斯分布的点,具体代码如下:
  这样就默认把这300个点分成了潜在的3个类,我们最后要求出的结果应该就是K3。实验结果发现,真正的结果与Dirichlet过程CRP模型的集中度参数有很大关系。很大的时候会不准确,我在这里让随机选取,并重复了100次,最后一次的结果是k4:
  而根据的不同取值,100次的聚类结果在36之间,其中还是以3居多:
  由此可知,对于Dirichlet先验参数的选择会直接影响到最终的聚类效果。而Dirichlet过程作为一个无线混合模型,随着数据的增多,模型的个数是呈现log增加的,即模型的个数的增长是比数据的增长要缓慢得多的。同时也可以说明Dirichlet过程是有一个马太效应在里面的,即越富裕的人越来越富裕,每个桌子已有的人越多,那么下一次被选中的概率越大,因为与在桌子上的个数成正比的,因而这种无线混合模型对于发现潜在的聚类个数会有很好的效果。
  四、总结
  基于CRP模型的聚类方法不同于先前的有限混合模型,无需预先估计聚类的个数,而是在分析过程中自动确定。聚类的结果与有关,所以选取合适的集中度参数很重要。关于CRP模型现在的研究还不是很广泛,也有一些在主题模型中的应用,比如基于CRP模型的词汇分类,实现主题模型等。相信在不远的将来,这种利用无线混合模型的聚类方法会有更多的开拓空间。
  参考文献
  〔4〕易莹莹。基于Dirichlet过程的非参数贝叶斯方法研究综述〔J〕。统计与决策。2012(04)
  〔5〕PruteanuMaliniciI,RenL,PaisleyJ,WangE,CarinL。HierarchicalBayesianmodelingoftopicsintimestampeddocuments。IEEETransactionsonPatternAnalysisandMachineIntelligence。2010
  〔6〕H。Ishwaran,M。Zarepour。MarkovChainMonteCarloinapproximateDirichletandbetatwoparameterprocesshierarchicalmodels。Biometrika。2000
  〔7〕RThibaux,MIJordan。Hierarchicalbetaprocessesandtheindianbuffetprocess。ProceedingsofInternationalConferenceonArtificialIntelligenceandStatistics。2007

雷诺护垫施工技术在河堤工程的应用摘要本文阐述了雷诺护垫施工技术原理,对雷诺护垫施工技术存在的问题进行分析,提出雷诺护垫施工技术的生态意义,希望对我国雷诺护垫施工技术应用有所帮助。关键词雷诺护垫施工技术河堤工程应用水利水电建筑施工技术及管理1施工技术的意义在水利水电工程建筑施工过程中,施工技术作为整个项目的基础,施工管理作为整个项目的保障,只有将二者有机的结合起来,才能确保水利水电工程建筑施工的有效进行,才能保证水利读民族主义有感一对民族主义概念的理解提到民族主义就会自然而然的想到民族,这说明民族与民族主义有着十分重要的联系,那么应该如何理解民族呢?众所周知民族是一个内容复杂涉及知识广泛的历史概念,不同的学中国现当代文学对电视剧的影响分析回望历史,在现当代的中国,文学的地位受到越来越严重的挑战。虽然有两次,文学成为了大众精神生活的重要组成部分,分别是上个世纪80年代,文学成为反极左思潮的一种方式,表达人们的对未来的浅析儒与道的徘徊20世纪80年代,华裔作家包柏漪写下描绘中国旧式家族百年兴衰的长篇小说春月,出版后立即引起轰动,成为美国最佳畅销书之一。90年代初,先锋派代表作家余华一反此前书写暴力血色与荒诞的人当代文学的历史意识与未来关怀分析一从白鹿原谈起白鹿原是一部优秀的小说,被认为具有厚重的思想内容复杂多变的故事情节和人物性格以及鲜明的艺术特色。但白鹿原对中国革命的表现却值得深思,可以从作品里的三个革命人物鹿兆鹏白探究关于重构中国现当代文学思潮史我国文学随着时代的发展,文学创作风格发生了很大的变化,现当代文学思潮史是人们文学研究中的一项重点内容。就目前我国现当代文学思潮史的模式来看,还存在一些问题有待解决,对现当代文学思潮关于卧式快装锅炉的金属腐蚀探讨论文关键词快装锅炉金属腐蚀0前言1锅炉定检中腐蚀情况统计和综合分析2快装锅炉金属工作的条件(2)由于未除氧,进入给水管道省煤器和锅炉筒内的水都含有一定量的氧。当水沿着这系统流动时,土壤重金属污染现状与修复技术研究进展简介土壤是人类赖以生存的主要自然资源之一,也是人类生态环境的重要组成部分。随着工业城市污染的加剧和农用化学物质种类数量的增加,土壤重金属污染日益严重,目前,全世界平均每年排放Hg约建筑工程给排水管道施工技术要点分析摘要给排水管道施工是建筑工程施工过程中的重要环节,其对于整个建筑工程的使用性能有着非常重要的影响。结合建筑工程施工现场的实际情况,进一步完善和优化建筑工程给排水管道施工技术,不断提公路路面设计摘要路面结构材料环境与经济因素一体化并以性能为中心的基础上,实现路面结构性使用性能和功能性使用性能的统一。关键词路面性能结构设计AbstractTheintegrationofth
高职高专学生就业现状与职业指导关系的探讨论文摘要文章通过对高职高专学生就业倾向的现状分析,找出当前职业指导工作中存在的问题,并有针对性地提出了进一步加强学生就业指导工作的对策,以促进学生就业的健康发展。关键词高职高专就业现状电气系统论文随着时代和经济的不断进步与发展,社会对电气行业的要求越来越高,尤其是在信息时代大环境下,自动化智能化将是电气工程发展的重要方向。下面我们来看看电气系统论文,欢迎阅读借鉴。电气自动化浅析马斯洛需求层次理论在流动人口管理中的应用论文摘要随着我国城市化进程的推进,越来越多的流动人口涌入城市。当前,我国在流动人口的管理过程中,尚存在一些问题。本文从马斯洛需求层次理论的角度展开分析,建立流动人口管理图,提出改善对策有关创业团队的论文创业团队是指在创业初期(包括企业成立前和成立早期),由一群才能互补责任共担愿为共同的创业目标而奋斗的人所组成的特殊群体。下面是小编带来的有关创业团队的论文!有关创业团队的论文1一引安全工程专业实习教学模式改革分析的论文摘要实习教学是应用型高等学校人才培养中的重要组成部分,高质量实习教学是应用型人才培养目标实现的重要保障。我校是一所煤炭行业背景的工科高校,针对实习教学存在的难题,本文提出基地仿真现落实农机购置补贴政策存在的问题和建议分析论文富平县因取富庶太平之意而得名,位于陕西省关中平原中北部,面积1242kmz,总人曰81万,是陕西省第一人曰大县,是全国商品粮生产基地县全国奶山羊之乡著名的中国柿乡,因此也是农机大县基于云计算的数字化网络教学平台的构建研究论文摘要随着云计算技术与应用模式的快速发展与成熟,各类云服务已经成为互联网未来发展的一种重要方式。本文针对数字化网络教学资源平台应用需求进行了分析,提出了基于云计算的数字化网络教学平台关于综合性券商生长思绪分析论文现在国内证券研究机构虽然经过不停探索,但由于各方面的缘故原由,其生长受到肯定水平的限定。随着证券市场和研究机构自身的不停成熟,研究机构作为券商总体生长的照料四大业务的有力后援券商最学生成绩管理信息系统设计分析的论文摘要本文详细介绍了学生成绩管理信息系统的设计思想主要功能以及实现方法,同时对学生成绩管理信息系统的设计的总体结构进行了分析。关键词MIS学生成绩管理信息系统设计学生成绩管理走入信息探讨安卓系统的手机定位软件开发与设计论文位置信息服务即LocationBasedService,简称LBS。通过由运营商所提供的无线通讯网络或GPS等外部定位方式来获取移动终端用户的具体地理坐标信息,并在GIS等地理信息砌体结构抗震的新发展论文摘要砌体结构是一种传统的墙体材料,在我国的各类建筑中仍占80以上的比例。近些年来,随着建筑业的蓬勃发展,新型墙体材料也不断涌现,如从欧美引进的混凝土小型空心砌块就是其中的一种。另外
友情链接:快好知快生活快百科快传网中准网文好找聚热点快软网