童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

AIPM应该懂的自然语言处理(NLP)知识

1月21日 霸王亭投稿
  文章从NLP是什么、能做什么、目前遇到的难题三个方面,对NLP展开分析。
  NLP是人工智能的一个子领域,作为AI产品经理,我们至少要知道NLP是什么,它能做什么事,这样我们就能获得一种解决问题的思维,将遇到的问题和方法连接起来。接下来我从“NLP是什么、能做什么、目前遇到的难题”三个方面来简单介绍下NLP。
  一什么是NLP
  NLP,中文叫自然语言处理,简单来说,是一门让计算机理解、分析以及生成自然语言的学科,大概的研究过程是:研制出可以表示语言能力的模型提出各种方法来不断提高语言模型的能力根据语言模型来设计各种应用系统不断地完善语言模型。
  NLP理解自然语言目前有两种处理方式:
  1。基于规则来理解自然语言,即通过制定一些系列的规则来设计一个程序,然后通过这个程序来解决自然语言问题。输入是规则,输出是程序;
  2。基于统计机器学习来理解自然语言,即用大量的数据通过机器学习算法来训练一个模型,然后通过这个模型来解决自然语言问题。输入是数据和想要的结果,输出是模型。
  接下来简单介绍NLP常见的任务或应用。
  二NLP能做什么:
  1。分词
  中文可以分为字、词、短语、句子、段落、文档这几个层面,如果要表达一个意思,很多时候通过一个字是无法表达的一个含义的,至少一个词才能更好表达一个含义,所以一般情况是以“词”为基本单位,用“词”组合来表示“短语、、句子、段落、文档”,至于计算机的输入是短语或句子或段落还是文档就要看具体的场景。由于中文不像英文那样词与词之间用空格隔开,计算机无法用区分一个文本有哪些词,所以要进行分词。目前分词常用的方法有两种:
  基于规则:Heuristic(启发式)、关键字表
  基于机器学习统计方法:HMM(隐马尔科夫模型)、CRF(条件随机场)
  (注:在这里就不具体介绍方法的原理和实现过程了,大家感兴趣,可以自行百度了解)
  现状分词这项技术非常成熟了,分词的准确率已经达到了可用的程度,也有很多第三方的库供我们使用,比如jieba,所以一般在实际运用中我们会采用“jieba自定义词典”的方式进行分词。
  2。词编码
  现在把“我喜欢你”这个文本通过分词分成“我”、“喜欢”、“你”三个词,此时把这三词作为计算机的输入,计算机是无法理解的,所以我们把这些词转换成计算机能理解的方式,即词编码,现在普遍是将词表示为词向量,来作为机器学习的输入和表示空间。目前有两种表示空间:
  (1)离散表示:
  A。Onehot表示
  假设我们的语料库是:
  我喜欢你你对我有感觉吗
  词典{“我”:1,“喜欢”:2,“你”:3,“对“:4,“有”:5,“感觉”:6,“吗”:7}。一共有七个维度。
  所以用Onehot表示:
  “我”:〔1,0,0,0,0,0,0〕
  “喜欢”:〔0,1,0,0,0,0,0〕
  “吗”:〔0,0,0,0,0,0,1〕
  即一个词用一个维度表示
  B。bagofword:即将所有词的向量直接加和作为一个文档的向量。
  所以“我喜欢你”就表示为:“〔1,1,1,0,0,0,0〕”。
  C。Bigram和Ngram(语言模型):考虑了词的顺序,用词组合表示一个词向量。
  这三种方式背后的思想是:不同的词都代表着不同的维度,即一个“单位”(词或词组合等)为一个维度。
  (2)分布式表示:word2vec,表示一个共现矩阵向量。其背后的思想是“一个词可以用其附近的词来表示”。
  离散式或分布式的表示空间都有它们各自的优缺点,感兴趣的读者可以自行查资料了解,在这里不阐述了。这里有一个问题,当语料库越大时,包含的词就越多,那词向量的维度就越大,这样在空间储存和计算量都会指数增大,所以工程师在处理词向量时,一般都会进行降维,降维就意味着部分信息会丢失,从而影响最终的效果,所以作为产品经理,跟进项目开发时,也需要了解工程师降维的合理性。
  3。自动文摘
  自动文摘是指在原始文本中自动摘要出关键的文本或知识。为什么需要自动文摘?有两个主要的原因:
  (1)信息过载,我们需要在大量的文本中抽出最有用、最有价值的文本;
  (2)人工摘要的成本非常高。目前自动文摘有两种解决思路:第一种是extractive(抽取式),从原始文本中找到一些关键的句子,组成一篇摘要;另一种方式是abstractive(摘要式),计算机先理解原始文本的内容,再用自己的意思将其表达出来。自动文摘技术目前在新闻领域运用的最广,在信息过载的时代,用该技术帮助用户用最短的时间了解最多、最有价值的新闻。此外,如何在非结构的数据中提取结构化的知识也将是问答机器人的一大方向。
  4。实体识别
  实体识别是指在一个文本中,识别出具体特定类别的实体,例如人名、地名、数值、专有名词等。它在信息检索、自动问答、知识图谱等领域运用的比较多。实体识别的目的就是告诉计算机这个词是属于某类实体,有助于识别出用户意图。比如百度的知识图谱:
  “周星驰多大了”识别出的实体是“周星驰”(明星实体),关系是“年龄”,搜索系统可以知道用户提问的是某个明星的年龄,然后结合数据“周星驰出生时间1962年6月22日”以及当前日期来推算出周星驰的年龄,并把结果直接把这个结果显示给用户,而不是显示候选答案的链接。
  此外,NLP常见的任务还有:主题识别、机器翻译、文本分类、文本生成、情感分析、关键字提取、文本相似度等,以后有时间再为大家做简单介绍。
  三NLP目前存在的难点
  1。语言不规范,灵活性高
  自然语言并不规范,虽然可以找一些基本规则,但是自然语言太灵活了,同一个意思可以用多种方式来表达,不管是基于规则来理解自然语言还是通过机器学习来学习数据内在的特征都显得比较困难。
  2。错别字
  在处理文本时,我们会发现有大量的错别字,怎么样让计算机理解这些错别字想表达的真正含义,也是NLP的一大难点
  3。新词
  我们处在互联网高速发展的时代,网上每天都会产生大量的新词,我们如何快速地发现这些新词,并让计算机理解也是NLP的难点
  4。用词向量来表示词依然存在不足
  上述,我们讲到,我们是通过词向量来让计算机理解词,但是词向量所表示的空间,它是离散,而不是连续,比如表示一些正面的词:好,很好,棒,厉害等,在“好”到“很好”的词向量空间中,你是不能找到一些词,从“好”连续到“很好”,所以它是离散、不连续的,不连续最大的问题就是不可导。计算机是处理可导的函数非常容易,不可导的话,计算量就上来了。
  当然现在也有一些算法是计算词向量做了连续近似化,但这肯定伴随着信息的损失。总之,词向量并不是最好的表示词的方式,需要一种更好的数学语言来表示词,当然可能我们人类的自然语言本身就是不连续的,或者人类无法创建出“连续”的自然语言。
  小结:
  通过上述的内容,我们已经大概知道了“NLP是什么、能做什么以及目前存在的难题”。作为人工智能产品经理,了解NLP技术能够提高我们自己的技术理解力,在理解行业需求、推进项目开展都有非常大的帮助,其实这可以让我们获得是一种连接能力,将需求与工程师连接起来,将问题与解决方案连接起来。虽然NLP等人工智能技术存在很多不足,但我们需要调整好自己的心态,人工智能应用化才刚刚开始,必然是不够完美的,不要成为批判者,而是成为人工智能时代的推进者。
  
投诉 评论 转载

论微博吸引力,这5个用户是怎么注册微博的你是因为什么而注册微博的?自己玩微博也有段时间了,而且身边的很多朋友也都是微博用户。下面我就根据自己对身边几个朋友的了解,说说他们是怎么注册微博的,顺便说一些这几个朋友出……产品经理要警惕的四大职业病职业病和好习惯,有时只是一念之间。一产品经理的Line最近看了很多产品经理岗位的特有习惯等等。仔细想了想,恐怕产品经理特有的不仅仅有好的习惯,还有职业病。……产品项目管理二三事项目管理是产品经理所需的核心能力之一。笔者在百度、链家网、新浪跟过大小项目,现将在实践过程中积累的经验与所学习的项目管理知识整合起来与大家分享。一、项目管理拆分:大项目与……生活篇产品经理的时间管理术产品经理是一盘时间游戏,应该将这份乐趣延伸到生活之上。事实上,真正的关心最终只有一个表现:为之心甘情愿地花费时间,哪怕“浪费”时间。李笑来记得,之前写文章都习惯性开……产品经理观AI:如何通俗易懂的理解神经网络?笔者会以最通俗的说法,用最基础的数学知识给大家讲述一下什么是神经网络。提到“神经网络”这个词,多数人会联想到人工智能,这个当前互联网行业里最火热的技术。神经网络是一门既深……优秀的产品经理,应该有的情商优秀的产品经理,依然需要具备一定的情商,与人自然而舒服的展开沟通,也能够更好的促进产品工作的展开。随着社会快速的发展,中产阶级危机油然而生,大家都在多读书、多学习。俗话说……朱百宁什么样的产品,才是“坚不可摧”的产品?简单是优秀产品的本质,也是标志。前几天的《如何拥有“把握本质”的强大能力?》一文中,我们谈到了“简单(一句话说清、一张图讲透)”,是把握了事物本质的体现。在产品领域……从期货交易员到产品经理,我是如何转行的?编者按:现代社会的流动性大大增加,我们早就告别了一份工作定终身的日子,不少人在做本职工作的同时,搞搞小项目或者做兼职。工作是我们生活的一个大板块,找到自己适合并且喜欢的工作也能……AIPM应该懂的自然语言处理(NLP)知识文章从NLP是什么、能做什么、目前遇到的难题三个方面,对NLP展开分析。NLP是人工智能的一个子领域,作为AI产品经理,我们至少要知道NLP是什么,它能做什么事,这样我们……养成良好产品习惯,开发前PM要先这样做产品工作中的一个关键步骤:技术研究。技术研究会告诉你产品需要多长时间来构建以及如何构建。那么,如何开展技术研究?本文作者将结合自身经验,与你分享。enjoy你刚刚完成了一……产品之术:项目到底怎么跟?在讨论的过程中,做好主导者的角色。在推进的过程中,做好保障者的角色。在跟进的过程中,做好timer的角色,才是项目管理的核心。01项目管理核心很多人跟进项目的时候焦……我的产品方法论之需求分析(中)上篇文章推送后得到了大家的鼓励和建议,我准备趁热打铁继续上周的话题:我的需求分析方法论第二步利用四象限分析法来进行优先级排序。1:首先,我们先回顾需要与需求的的定义……
这些创意的咖啡文案,真香!最生活化的爱情短片:《22度的雪》真情短片《找到》:不断寻找,不断完美万字干货:如何写好推广文案最近很烦?不如看下这组文案。减肥文案:一懒众衫小什么是文案创意?在人们的习惯里造反我呼吁,别再让直男写文案了!写好文案的15个关键词33部爱情电影的情歌文案先不谈钱,敢问自己:是不是一个合格的文案?《绿皮书》火了,海报文案100分!人生我想和你谈谈经典简短的经典语录长寿老人的饮食爱好吃这十种食物可长寿AEB为什么没有介入?关于小鹏P7高架事故的五个问题小学六年级迎接教师节作文深色覆盖浅色100块钱能买三件这些小玩意好用又便宜前日造句用前日造句大全台湾游记随笔蟹爪兰最牛嫁接要闻财富500强企业CEO薪酬榜出炉中位数1590万美元,马斯克

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界