范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

关于描述CRP模型中的聚类算法的论文

  本文是由上传的:基于CRP模型的聚类算法。
  【摘要】 关于聚类问题现在已经有很多方法可以实现,但大多数基于有限混合模型的聚类方法需要预先估计聚类的个数,因而聚类的准确性和泛化性会受到一定影响。本文则提出了一种基于无线混合模型――中国餐馆模型(CRP)的聚类方法,CRP模型是Dirichlet过程的一种表示方法,基于Dirichlet无线混合模型找出其后验分布,利用Gibbs采样MCMC方法估计出模型中各个参数以及潜在的聚类个数,并在MATLAB环境下进行一个小实验来验证聚类的效果。
  【关键词】 聚类 CRP模型 Dirichlet过程 MCMC采样
  一、引言
  聚类顾名思义就是把事物按照特定的性质或者相似性进行区分和分类,在这一过程中不指导,属于无监督分类。作为一种重要的数据分析方法,聚类分析问题在很久以前就已经为人们所研究,并且已经取得了一定成果,目前的算法已经能对一般简单的聚类问题做出很好的聚类结果。但随着大数据时代的到来,实际应用中的数据越来月复杂,如基因表达数据,交通流数据,web文档等,有一些数据还存在着极大的不确定性,有的数据可以达到几百维甚至上千维,受"维度效应"的影响,很多在低维空间能得到很好结果的聚类算法在高维空间中并不是十分理想。
  关于高维数据的聚类近几年一些基于有限混合模型的方法取得了很有效的成果。但是这些算法需要提前估计聚类个数的前提下,根据样本的属性进行分析分类。本文采用了一种基于Dirichlet无线混合模型的方法,利用CRP模型和Gibbs采样方法,在分析过程中找出潜在的聚类个数,实现对数据的聚类。
  二、CRP模型
  2.1 关于CRP
  CRP模型是Dirichlet过程的一种表示方法,它是关于M个顾客到一家中国餐馆如何就坐问题的一个离散随机过程。具体描述如下:有一家中国餐馆,假设有无限个桌子,并且每张桌子上可以容纳无限个顾客,每一个顾客到来时可以随意选择一个餐桌,也可以自己新开一个餐桌。在CRP过程中,我们把每一位到来的顾客都当作最后一位来看待,有如下分配过程:第一位顾客到来,一定会开一个桌子自己坐下,第二个顾客到来时,以一定概率坐在第一个人开的桌子上,一定概率新开一张桌子,第三个顾客到来时,有一定概率坐在第一、二个人开的桌子上,也可以开第三张桌子……以此类推,具体定义的概率如下:
  其中α是狄利克雷的先验参数; c 是第m 个顾客选择的餐桌上已有的顾客人数。顾客选择餐桌时不仅与顾客对餐桌的个人情感有关,还与该桌上在座的顾客关系有关,如果是朋友或是认识的人就算有更好的选择顾客也可能选择与朋友坐一桌。而在CRP模型中并未考虑到顾客的情感色彩因素。
  2.2 Gibbs Samping
  关于Dirichlet混合模型的Gibbs Sampling实际上就是根据先验求后验的过程,虽然中心思想一样,但具体实现方法有很多种[1],这里根据CRP的情况,选择其中一种算法,在下一节详细讲解。
  2.3 参数估计
  假设有一个整体的数据集D={xi}in=1,它的两个参数为z=(z1,…,zn),zn {1,…,K},φ=(φ1…,φK)
  其中Z为隐变量,表示样本聚类的标签,Zi=k代表当前第i个类有k个成员,而φ则是该模型的每一类的成员参数,根据贝叶斯理论,可以得出p(φ,z|D) p0(φ)p0(z)p(D|φ,z),因此,参数φ后验分布可以通过计算其先验分布及似然函数来实现,在此基础上计算出φ的后验分布,并通过Gibbs采样的方法更新参数φ。
  其中nk代表当前坐在第k个桌子上的其他人的总数。
  2.4 使用Gibbs采样的算法
  假设待处理的数据是高斯随机分布的,首先随机初始化参数z,φ。
  对于每一个zi才用如下采样方法:
  选择已有桌子(第K个)的概率:
  新开一个桌子(第K+1)的概率:
  而对于参数φ,采用如下方式(每当第k个桌子上加了人,这个类的参数φk就要更新):
  三、实验与结果
  本文以matlab为平台,对二维空间上一些随机分布的点进行模拟聚类测试。正如上一节所说,这里对测试数据采用高斯随机来生成,为了简化处理,生成了300个各项同向高斯分布的点,具体代码如下:
  这样就默认把这300个点分成了潜在的3个类,我们最后要求出的结果应该就是K=3。实验结果发现,真正的结果与Dirichlet过程CRP模型的集中度参数α有很大关系。α很大的时候会不准确,我在这里让α随机选取,并重复了100次,最后一次的结果是k=4:
  而根据α的不同取值,100次的聚类结果在3-6之间,其中还是以3居多:
  由此可知,对于Dirichlet先验参数α的选择会直接影响到最终的聚类效果。而Dirichlet过程作为一个无线混合模型,随着数据的增多,模型的个数是呈现log 增加的,即模型的个数的增长是比数据的`增长要缓慢得多的。同时也可以说明Dirichlet过程是有一个马太效应在里面的,即"越富裕的人越来越富裕",每个桌子已有的人越多,那么下一次被选中的概率越大,因为与在桌子上的个数成正比的,因而这种无线混合模型对于发现潜在的聚类个数会有很好的效果。
  四、总结
  基于CRP模型的聚类方法不同于先前的有限混合模型,无需预先估计聚类的个数,而是在分析过程中自动确定。聚类的结果与α有关,所以选取合适的集中度参数很重要。关于CRP模型现在的研究还不是很广泛,也有一些在主题模型中的应用,比如基于CRP模型的词汇分类,实现主题模型等。相信在不远的将来,这种利用无线混合模型的聚类方法会有更多的开拓空间。
  参 考 文 献
  [4] 易莹莹. 基于Dirichlet过程的非参数贝叶斯方法研究综述[J]. 统计与决策. 2012(04)
  [5] Pruteanu-Malinici I,Ren L,Paisley J,Wang E,Carin L.Hierarchical Bayesian modeling of topics in time-stamped documents. IEEE Transactions on Pattern Analysis and Ma-chine Intelligence . 2010
  [6] H. Ishwaran,M. Zarepour.Markov Chain Monte Carlo in approximate Dirichlet and beta two-parameter process hierarchical models. Biometrika . 2000
  [7] R Thibaux,M I Jordan.Hierarchical beta processes and the indian buffet process. Proceedings of International Conference on Artificial Intelligence and Statistics . 2007

让工业设计步入公共设计论文在中国的经济高速发展的背景下,社会氛围更加开放多元,单纯为政治目的而进行的公共设计已不再适合如今的中国,公共设计必须跟上社会发展的步伐。通过借鉴成功的公共设计案例,明确公共设计的设斜系杆拱桥及内力分析论文摘要本文提出了斜系杆拱桥的设计思想,并采用空间有限元方法对该结构恒载内力进行了详细计算分析,初步得出了不同构件随斜度变化的内力特性。旨在对该结构形式提出初步的研究结果,期望起到抛砖自然发展观和可持续发展行政论文自然发展观和可持续发展行政论文持续发展的核心思想是人类社会目前的发展不应对保持和改善未来的生存的前景造成危害。它的提出对全球新发展战略的形成意义重大。首先,它对经典的经济发展模式提规范化管理在外科植入物灭菌中的运用论文颅脑外科手术是高风险的手术,其中很多手术需终身放置植入物,由于颅脑的特殊结构血脑屏障存在,大多数抗菌素难于通透屏障,一旦颅内感染后治疗困难且治疗费用高,会增加患者的痛苦经济负担,重教师德育教学小论文学生德育教育的内容要落到实处,要狠抓主渠道。教育他们,学生只有言行一致才算得上好的道德品质。快来看看教师德育教学小论文吧!教师德育教学小论文做个六家型班主任班主任是一个班级工作的组园林植物病虫害防治现状及发展方向农科论文摘要以化学防治为主的传统园林病虫害防治方法因其对环境污染严重,已经无法满足社会发展的需求。本文主要讲述了园林植物病虫害发生特性现行的防治方法(化学防治物理防治生物防治)及园林植物病电工技师论文之浅谈变压器浅谈变压器简介笔者早年于国企生产有线广播设备。于变压器,不敢说有多大能耐仅熟练而已。不久前刚学会上网,见有些朋友对变压器还存有陌生感神秘感。不觉技痒,将所知所能,拟成下文,抛砖引玉园林景观设计在园林绿化中的作用论文近年来,社会经济飞速发展,城市人口趋于密集,市民的生态环境条件不容乐观。园林景观规划的兴起为促进城市生态平衡美化环境提供了新途径。园林景观不仅给人们提供了休憩养生的场所,丰富了人们小学教育的论文5000字毕业前少不了的就是毕业论文。以下是小编整理的关于小学教育的论文5000字,欢迎阅读参考。小学教育的论文5000字1摘要随着课改的深入推进,小学语文教学取得了一些实质性效果,尤其是拓高速公路施工现场管理措施研究论文摘要针对现阶段高速公路工程施工中的管理现状,着重分析高速公路施工中现场管理工作的主要措施。研究方法是,作为高速公路施工中一项非常基础的工作,施工现场的管理工作既影响着高速公路工程的集束化管理对急产母婴结局的影响论文急产是指产程进展快,初产妇宫口扩张速度gt5cmh或经产妇gt10cmh,总产程lt3h1。急产产妇由于产程进展迅速子宫收缩过频产力过强产道未充分扩张等因素,可导致一系列的母体以及
让学生真正成为阅读的主体阅读说到底是一种个性化行为,仁者见仁,智者见智嘛!但我们的阅读教学常常把它变成了共性化活动大家喊着相同的口号,迈着一致的步伐,在老师这位教官的率领下,进行着军事化的密集性操炼。这哪新思路新方法,促进学生学习方式的转变基础教育课程改革是国家十五期间的重点研究项目,是全面贯彻党的教育方针的具体表现,是全面推进素质教育深化教育改革的重大课题。目前美术教育在国际教育界正日益受到重视。它是一种国民的教育职业院校教育服务成本核算探讨论文关键词职业院校教育服务成本核算论文摘要职业院校教育服务成本数据是职业院校管理者投资者政府部门学生家庭等有关各方关注的重要信息,目前职业院校还没有进行教育服务成本的核算。本文分析论发达国家高等职业教育发展情况及对我们的启示论文关键词发达国家高等职业教育启示论文摘要介绍美德英澳日等几个发达国家高等职业教育的培养模式主要特色以及对我国高等职业教育改革的启示。随着经济全球化和信息经济的兴起,国际竞争日趋激基于职业院校学生现代职业素养缺乏家庭因素的分析论文关键词家庭层面现代职业素养原因论文摘要现代职业素养具体而言,它包括学习能力管理能力创造能力团队合作能力和规则意识。学生现代职业素质的缺陷,与家长的心理品质和家庭教育方式有着密切蒙台梭利自由教育思想对我国幼儿教育教学的影响在西方历史中,最早正式提出自由教育思想的当数古希腊的亚里士多德,下面是小编搜集整理的一篇探究蒙台梭利自由教育思想对我国幼儿教育教学影响的论文范文,欢迎阅读参考。玛丽亚蒙台梭利(Ma论高校英语教学中兴趣的培养和课堂的高效性的重要性摘要新课标一直提到教学的高效性,即改变传统的填鸭式教学模式,让学生在课上课下灵活而有效地吸收知识。然而现在英语学习的时间在减少,却没能减少学生所需要掌握的知识量,甚至知识内容更多,关于大学英语课堂教学提问的有效性及其对策研究论文关键词大学英语有效提问提问策略论文摘要提问是英语课堂教学过程中的有效互动方式和重要教学手段。大学英语课堂教学提问要以是否有利于减轻学生的负担知识的掌握语言技能的形成和综合能力的简述礼貌原则对英语教学的启示论文关键词礼貌准则跨文化交际语用失误价值差异论文摘要在跨文化交际中,只有充分尊重双方的语用文化和价值规约,才可能尽量减少语用失误,达到礼貌得体成功并且最有效的交际。一Leech和顾浅析文化背景知识对英语听力理解的影响论文关键词听力教学背景知识论文摘要本文简要论述了英语听力与听力教学的重要性,分析了影响学习者听力理解能力的因素,尤其强调了文化背景知识对听力理解的影响最后提出要充分利用听力课堂,在浅谈激发学生兴趣提高教学质量论文关键词英语学习兴趣教学质量论文摘要兴趣是最好的老师。成功的教学所需要的不是强制,而是激发学生的兴趣。只有学生对学习产生了兴趣且越来越浓,学习的积极性才会越高,效果也会越好。文章