童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

隐含马尔可夫模型是什么以及如何应用

2月10日 虎狼旗投稿
  隐含马尔可夫模型最早成功的使用场景是语音识别,后来陆续成功的应用在机器翻译、拼写错误、手写体识别、图像处理、基因序列分析等很多it领域,目前也被用于股票预测和投资。
  背景介绍
  若只有两个事件Ot,St,那么,P(OtSt)P(Ot,St)P(St)。
  条件概率的意思:就是事件Ot在另外一个事件St已经发生条件下的发生概率,条件概率表示为P(OtSt),读作“在St条件下Ot的概率”。
  如果有足够多人工标记的数据,知道经过状态St有多少次(St),每次经过这个状态时,分别产生的输出Ot是什么,并分别有多少次的(Ot,St),就可以用两者的比值P(OtSt)(Ot,St)(St),估算出模型的参数。
  有限状态机
  有限状态机是一个特殊的有向图,他包括一些状态(节点)和连接这些状态的有向弧。
  地址的识别和分析是本地搜索必不可少的技术,判断一个地址的正确性,同时非常准确的提炼出相应的地理位置信息(省市区街道门牌号等)看似简单实际很麻烦。
  如:北京市大兴区欣航路与黄鹅路交叉口东150米;北京市朝阳区东坝单店西路2号院。
  这些地址写的都有点模糊,但是邮件和包裹都能收到,说明邮递员可以识别。但是,如果让一个程序员写一个分析器分析这些地址的描述,恐怕就不是一件容易的事情了。根本原因在于,地址的描述虽然看上去简单,但是它依然是比较复杂的上下文有关的文法,而不是上下文无关。
  如:北京市海淀区马连洼街道19号院。当识别器扫描到马连洼街道时,它和后面的门牌号是否构成一个正确的地址,需要看它的上下文即城市名。地址的文法是上下文有关文法中相对简单的一种,因此有很多识别和分析的方法,但最有效的是有限动态机。
  有限状态机是一个特殊的有向图,他包括一些状态(节点)和连接这些状态的有向弧。
  每一个有限状态机都有一个开始状态和一个终止状态,以及若干中间状态,每一条弧上都带有从一个状态进入下一个状态的条件。比如:在途中,当前状态是“省”,如果遇到一个词组和(区)县有关,那么就进入“区县”的状态,如果遇到的下一个词组和城市有关,那么就进入“市”的状态,如此等等。
  如果一条地址能从状态机的开始状态经过状态机的若干中间状态,走到终止状态,则这条地址有效,否则无效。比如:“北京市建国路88号”对于上面的有限状态来讲有效,而“上海市辽宁省马家庄”则无效,因为无法从市走到省。
  使用有效状态机识别地址,关键要解决两个问题:
  通过一些有效的地址建立状态机;
  给定有限的状态机后,地址字串的匹配算法。
  有了关于地址的有限状态机后,就可以用它分析网页,找出网页的地址部分,建立本地搜索的数据库。同样,也可以对用户输入的查询进行分析,挑出其中描述地址的部分。当然,剩下的关键字就是用户要查找的内容。比如:对于用户输入的“北京市建国路附近的麻辣烫”,本地会自动识别出地址“北京市建国路”和要找的对象“麻辣烫”。
  基于状态机的地址识别方法在实用中会存在一些局限:当用户输入的地址不太标准时或者有错别字的时候,有限状态机会束手无措,因为它只能进行严格的匹配。当用户希望看到可以进行模糊匹配,并给出一个字串为正确地址的可能性。为了实现这一目的,科学家们提出了基于概率的有限状态机。
  马尔可夫链
  19世纪,概率论的发展从相对静态的随机变量的研究到对随机变量的时间序列s1,s2,s3st,即随机过程(动态)的研究。随机过程要比随机变量复杂得多。
  首先,在任何时刻t,对应的状态时st,都是随机的。举个常见的例子,把s1,s2,s3st,看成是北京每天的高温,这里面每一个st都是随机的。
  其次,任意状态st的取值都可能和周围的其他状态有关。也就是说,任何一天的最高温度,与这段时间以前的温度有关的,这样随机过程就有了两个维度的不确定性。
  马尔可夫为简化这一问题,提出一种简化的假设,即随机过程中的每个状态st的概率分布,只与他的前一个状态有关即p(sts1,s2,s3st1)p(stst1)。
  比如:对于天气预报,硬性假设今天的气温只和昨天有关而和前天无关。当然这种假设未必适合所有的应用,但是至少对以前很多不好解决的问题给出了相似解。这个假设后来被命名为马尔可夫假设,而符合这个假设的随机过程称为马尔可夫过程,也称为马尔可夫链。
  在马尔可夫链中,四个圈表示四个状态,每条边表示一个可能的状态转换,边上的权值是转移概率。例如:状态m1到m2之间只有一条边,并且边上权值为1。0。这表示从m1只可能转换到m2,转移概率是100。从m2出发的有两条边:到m3和到m4,其中0。6表示:某个时刻的状态是m2,下一个时刻的状态是m3的概率是60。
  把马尔可夫链想象成一台机器,它随机地选择一个状态作为初始状态,随后按照上述规则随机的选择后续状态。运行一段时间后,就会产生一个状态序列s1,s2,s3st,。看到这个序列,不难算出某个状态的mi的出现次数以及从mi到mj的转换次数,从而估算出概率。
  隐含马尔可夫模型是上述马尔可夫链的一个拓展,在任何时刻t的状态st是不可预见的。所以我们没办法观察一个状态序列,来推测出转移概率等参数。但是,隐含马尔可夫模型在每个时刻t会输出一个符号o,而且这个符号仅与st相关。
  使用场景
  隐含马尔可夫模型最早成功的使用场景是语音识别,后来陆续成功的应用在机器翻译、拼写错误、手写体识别、图像处理、基因序列分析等很多it领域,目前也被用于股票预测和投资。
  目前国内已有的语音识别是iPhone的Siri,小米的小爱音箱能够做到的也只是能够唤醒某个软件的启动,微软的小冰目前仍然有很大的局限性。
  这是因为数据是人工标记的,这种方法是有监督的训练方法。人是无法确定产生某个语音的状态序列的,因此也就无法标注训练模型的数据。而在另外一些应用中,虽然标注数据是可行的,但是成本非常高。比如:训练中英机器翻译的模型,需要大量中英对照的语料,还要把中英文的词组一一对应起来,这个成本非常高。
  参考资料:《如何用简单易懂的例子解释隐马尔可夫模型?》
投诉 评论

消费升级下的“青春小酒”,会凉凉吗?尽管现在白酒行业已经在逐渐回暖,但是白酒年轻化仍然是一个待破的难题,年轻人的青春酒是一个伪命题吗?在经历了几年的深度调整之后,白酒行业逐渐回暖,迎来了新的复苏周期。在消费……看似有点“low”的产品,玩着玩着就改变了世界如果你是创业者,放弃过度思考,找到一个简单特定的功能去突破,说不定是个好办法。来源:华映资本微信ID:MeridianCapital移动互联网时代,社交电商已不是什……难道“价廉”就不能消费升级吗?难道“价廉”就必须用假货充斥吗文章摘自是2017年9月在网格研习社,在思考在线教育时,对拼多多的思考和反思。预告:第三篇文章将是针对最近铺天盖地的风波的理解和思考。别人火别人的,没抓住机会参与,只能嗑……对淘宝首页的几点思考我们所看到、听到或感受到的一切内容,都是表达层的东西,它背后的战略层才是值得我们每天问自己一百遍的问题,也是一个优秀的产品经理和运营人员必须具备的能力。中国电商行业从19……拼多多的主要发声者,却从不用拼多多?京东象征着高端消费群体,作者曾经因为买了天猫的平板电脑而被鄙视。没错,不是拼多多也不是淘宝,是天猫上买平板被鄙视。而拼多多自然就是低端的典范了,两者在主流媒体上的评价差距是很大……电商发展新趋势:从交易型电商到内容型电商本文从两个逻辑来分析当下电商发展的新趋势,一起来看看我们感觉到电商有三大发展趋势:过去:电商即物流,物流即电商。现在:餐饮零售化,零售餐饮化。即将:内容……C2M市场分析:反向定制模式将给企业带来什么挑战?最近这几年,C端的C2M(即反向定制)逐渐兴起。借此机会,结合之前B端行业C2M项目经验,在此与各位分享对于反向定制的市场调研报告。一、市场背景现阶段,已进入工业4……后舍、网红与社会人,你不知道的短视频正传5个维度、20年的短视频网红历史,我们搅碎了给你看,就得到了下面这个一部短视频简史和网红正传。短视频为什么多火?短视频的历史是怎么样的?用10分钟时间看完这篇短视频简史,……“互联网医疗健康”行业调研报告这是一份关于“互联网医疗健康”行业的调研报告,一起来看看报告简介:“健康”一直是我们最为关注的话题,而围绕着健康,我们能做的却少之又少,我们把所有的健康寄托于医生,……隐含马尔可夫模型是什么以及如何应用隐含马尔可夫模型最早成功的使用场景是语音识别,后来陆续成功的应用在机器翻译、拼写错误、手写体识别、图像处理、基因序列分析等很多it领域,目前也被用于股票预测和投资。背景介……6个方面分析:大宗商品供应链金融服务平台化大宗商品供应链金融服务平台如何更好的抓住链条上关键节点,更好为客户提供信息流、资金流、物流服务的同时,把控业务风险,使链条各方利益最大化?在这以反向明保理业务为例进行简单分析。……拼多多被冤枉了吗?刚刚上市的拼多多,没等到3亿多用户的掌声,却是洪水般的咒骂,一边倒的舆论以及正接踵而来的官司。这样的情况,拼多多冤枉了吗?名高引谤,树大招风。黄峥和他的拼多多大概是品咂到……
FacebookPay推出Facebook再次征战社交电商本文介绍了Facebook推出的支付工具,以及背后反映出的Facebook对社交电商梦的再次追逐。支付工具FacebookPay的出现,意味着世界社交巨头Facebook……拼多多急需李佳琦在电商直播这个领域,拼多多还能突围吗?当直播的热风刮遍各大电商平台时,拼多多似乎是个独特的存在,不慌不忙,围观在旁。然而,这份气定神闲在上周被打破。11月28……企业服务属于“BAT”的B端大蛋糕本文分析了新版“BAT”(B指ByteDance)在企业协同办公赛道的产品钉钉、企业微信,飞书,以及企业服务赛道的未来发展趋势。核心要点:随着字节跳动旗下飞书加速发……电视购物20年:盛极一时,却日渐式微2019年,电商直播与短视频逐渐成为营销行业的大热门,引爆千亿流量。然而,直播电商并不是新出现的事物,电视购物与它有着类似的模式。本文作者回顾了电视购物的发展历程,从兴起到落寞……盒马鲜生快速扩张背后的危与机经过两年的风口激荡,新零售市场逐渐趋于冷静,大浪淘沙后的生鲜市场集中度进一步提升,巨头之间的较量仍在继续。以阿里的盒马鲜生、京东的7FRESH以及永辉的超级物种为代表的新兴模式……电商直播:食品饮料如何带货?食品饮料仍有巨大的发展空间,品牌、创作者、主播、平台也将在各自的基因指导下朝向多极化发展。要说入局电商直播做哪个品类好?食品饮料无疑是最佳选择之一。因刚需、易耗、重……从互联网到硬科技的十年喧嚣这是一个最好的时代,也是一个最坏的时代。2010年前后,许多“海龟”回国后感叹最多的是,美国在搞人工智能、生物医药、新能源之类的硬科技,中国却在忙着商业模式创新。改……存量时代:直播业务的突破口在哪里?如果直播失去了社交属性,那能留下来真的是成了奇迹。ToC流量见顶的今天,直播还有机会吗?回顾2019年上半年,直播行业格局两极化趋势愈发明显。一方面各大上市直播平台……20192020内容产业趋势报告:七个黄金拐点七个机会这一次我们基于中国网民标准画像,对覆盖全国所有省级行政单位的21919名用户,进行了精准问卷调研和抽样。同时,我们也安排分析师走访全国不同地域的11个省,面对面与内容消费者做深……从人到内容,游戏直播进入第二阶段从主播带平台到平台带主播。游戏直播行业吸引用户的关键因素从人变成了内容和平台体验。平台进入内容生态的精细化运营阶段,未来鹿死谁手,还有待观察。核心要点:……你复制不了B站的社区氛围很多人希望复制B站的神话,但是你首先要复制B站的社区氛围遗憾的是,这是不可复制的。B站,全名“哔哩哔哩”,昵称“小破站”。提到B站,你会想到什么?二次元、Z世代、VLOG……“L”型新周期道阻且长,互联网新机会依然滚烫在“L”型的新周期里,并不是说任何互联网的模式都已经失效,而是要找到属于这个新周期的新机会,才能在这个时代持续发展。如果你经历过四五年前那个野蛮生长的时间,就会知道互联网……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界