范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

NLP系列之任务系列(二)

  初入NLP领域,对NLP涉及的任务比较困惑,这里将NLP都有哪些任务进行简单的汇总分类。
  人类的语言以文本为主,文本由段落组成,段落由句子构成,句子再有短语或词语组成,词语由字符构成,最终目的是表达语义。所以,NLP需要处理的对象从简单到复杂,也可以说是从低级到高级依次是:
  字符->短语或词组->句子->段落->文本。
  那就衍生出NLP的基础任务:
  1. 词法分析(Lexical Analysis) :对自然语言进行词汇层面的分析,是NLP基础性工作  分词(Word Segmentation/Tokenization):对没有明显边界的文本进行切分,得到词序列  新词发现(New Words Identification):找出文本中具有新形势、新意义或是新用法的词  形态分析(Morphological Analysis):分析单词的形态组成,包括词干(Sterms)、词根(Roots)、词缀(Prefixes and Suffixes)等  词性标注(Part-of-speech Tagging):确定文本中每个词的词性。词性包括动词(Verb)、名词(Noun)、代词(pronoun)等  拼写校正(Spelling Correction):找出拼写错误的词并进行纠正
  2. 句子分析(Sentence Analysis) :对自然语言进行句子层面的分析,包括句法分析和其他句子级别的分析任务  组块分析(Chunking):标出句子中的短语块,例如名词短语(NP),动词短语(VP)等  超级标签标注(Super Tagging):给每个句子中的每个词标注上超级标签,超级标签是句法树中与该词相关的树形结构  成分句法分析(Constituency Parsing):分析句子的成分,给出一棵树由终结符和非终结符构成的句法树  依存句法分析(Dependency Parsing):分析句子中词与词之间的依存关系,给一棵由词语依存关系构成的依存句法树  语言模型(Language Modeling):对给定的一个句子进行打分,该分数代表句子合理性(流畅度)的程度  语种识别(Language Identification):给定一段文本,确定该文本属于哪个语种  句子边界检测(Sentence Boundary Detection):给没有明显句子边界的文本加边界
  3. 语义分析(Semantic Analysis) :对给定文本进行分析和理解,形成能够表达语义的形式化表示或分布式表示  词义消歧(Word Sense Disambiguation):对有歧义的词,确定其准确的词义  语义角色标注(Semantic Role Labeling):标注句子中的语义角色类标,语义角色,语义角色包括施事、受事、影响等  抽象语义表示分析(Abstract Meaning Representation Parsing):AMR是一种抽象语义表示形式,AMR parser把句子解析成AMR结构  一阶谓词逻辑演算(First Order Predicate Calculus):使用一阶谓词逻辑系统表达语义  框架语义分析(Frame Semantic Parsing):根据框架语义学的观点,对句子进行语义分析  词汇/句子/段落的向量化表示(Word/Sentence/Paragraph Vector):研究词汇、句子、段落的向量化方法,向量的性质和应用
  4. 信息抽取(Information Extraction) :从无结构文本中抽取结构化的信息  命名实体识别(Named Entity Recognition):从文本中识别出命名实体,实体一般包括人名、地名、机构名、时间、日期、货币、百分比等  实体消歧(Entity Disambiguation):确定实体指代的现实世界中的对象  术语抽取(Terminology/Giossary Extraction):从文本中确定术语  共指消解(Coreference Resolution):确定不同实体的等价描述,包括代词消解和名词消解  关系抽取(Relationship Extraction):确定文本中两个实体之间的关系类型  事件抽取(Event Extraction):从无结构的文本中抽取结构化事件  情感分析(Sentiment Analysis):对文本的主观性情绪进行提取  意图识别(Intent Detection):对话系统中的一个重要模块,对用户给定的对话内容进行分析,识别用户意图  槽位填充(Slot Filling):对话系统中的一个重要模块,从对话内容中分析出用户意图相关的有效信息
  5. 顶层任务(High-level Tasks) :直接面向普通用户,提供自然语言处理产品服务的系统级任务,会用到多个层面的自然语言处理技术  机器翻译(Machine Translation):通过计算机自动化的把一种语言翻译成另外一种语言  文本摘要(Text summarization/Simplication):对较长文本进行内容梗概的提取  问答系统(Question-Answering Systerm):针对用户提出的问题,系统给出相应的答案  对话系统(Dialogue Systerm):能够与用户进行聊天对话,从对话中捕获用户的意图,并分析执行  阅读理解(Reading Comprehension):机器阅读完一篇文章后,给定一些文章相关问题,机器能够回答  自动文章分级(Automatic Essay Grading):给定一篇文章,对文章的质量进行打分或分级
  除了上述基础任务外,NLP的高级任务有如下四类:
  1. 序列标注任务
  序列标注(Sequence labeling)是我们在解决NLP问题时经常遇到的基本问题之一。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。
  序列标注一般可以分为两类:  原始标注(Raw labeling):每个元素都需要被标注为一个标签。  联合标注(Joint segmentation and labeling):所有的分段被标注为同样的标签。
  命名实体识别(Named entity recognition, NER)是信息提取问题的一个子任务,需要将元素进行定位和分类,如人名、组织名、地点、时间、质量等。
  举个NER和联合标注的例子。一个句子为:Yesterday , George Bush gave a speech. 其中包括一个命名实体:George Bush。我们希望将标签"人名"标注到整个短语"George Bush"中,而不是将两个词分别标注。这就是联合标注。
  1.1 BIO标注
  解决联合标注问题最简单的方法,就是将其转化为原始标注问题。标准做法就是使用BIO标注。
  BIO标注:将每个元素标注为"B-X"、"I-X"或者"O"。其中,"B-X"表示此元素所在的片段属于X类型并且此元素在此片段的开头,"I-X"表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,"O"表示不属于任何类型。
  比如,我们将 X 表示为名词短语(Noun Phrase, NP),则BIO的三个标记为:  B-NP:名词短语的开头;  I-NP:名词短语的中间;  O:不是名词短语;
  我们可以进一步将BIO应用到NER中,来定义所有的命名实体(人名、组织名、地点、时间等),那么我们会有许多 B 和 I 的类别,如 B-PERS、I-PERS、B-ORG、I-ORG等。
  1.2 序列标注常用模型  Bi-LSTM
  选择双向LSTM的原因是:当前词的tag和前后文都有关。
  1.3 序列标注具体任务
  (1)分词  输入:word + tag(I:in word;E:end of word);  输出:tag of word,标签是E的后面加空格,就达到了分词的目的;
  (2)词性标注(Part-of-Speech tagging ,POS tagging)  输入:word + tag (词性:动词、名词、形容词等);  输出:词性;  模型:HMM也可以做
  (3)命名实体标注(name entity recognition, NER)  输入:word + tag(B: begin of entity,I : inside of entity,o: outside of entity);  输出:实体标注;
  (4)词义角色标注 (semantic role labeling, SRL) :  输入:word + 是不是谓语(B-Argo,I-Argo,BV );  输出:语义角色;
  2. 分类任务
  2.1 分类的具体任务
  (1)文本分类、情感分类  模型:LSTM,属于 many- to - one 的问题,最后使用 Softmax输出分类结果;
  3. 句子关系判断
  3.1 具体任务
  (1)句法分析、蕴含关系判断(entailment)  模型:语法分析树,LSTM 来对每个edges 算得分,选择得分高的edges,限制是这些edges 必须组成一个树;  模型:RNNGs 也可以做
  4. 生成式任务
  这类任务一般直接面向普通用户,提供自然语言处理产品服务的系统级任务,会用到多个层面的自然语言处理技术。
  4.1 具体任务
  (1)机器翻译(Machine Translation,MT)
  Encoder-Decoder的最经典应用,事实上这一结构就是在机器翻译领域最先提出的。
  (2)文本摘要、总结(Text summarization/Simplication)
  输入是一段文本序列,输出是这段文本序列的摘要序列。
  (3)阅读理解(Reading Comprehension)
  将输入的文章和问题分别编码,再对其进行解码得到问题的答案。
  (4)语音识别
  输入是语音信号序列,输出是文字序列。
  (5)对话系统(Dialogue Systerm)
  输入的是一句话,输出是对这句话的回答。
  (6)问答系统(Question-Answering Systerm)
  针对用户提出的问题,系统给出相应的答案。
  (7)自动文章分级(Automatic Essay Grading)
  给定一篇文章,对文章的质量进行打分或分级。

我不贪心,只希望余生每天都有你1。学会把握时机,不放弃任何自己喜欢的东西。2。在愤怒的时候也不要说气话,有些伤人的话一旦说出来就无法挽回。3。我不能给你全世界,但我的全世界都可以给你。4。我不贪心,只希望余生每笑红尘时光已然了她在闹,他在笑,时光一去不回了。叹年少时光老,流水潺潺而来到。我们的,爱情草,早已发黄无人问津了。你还在祈祷,有一天会再遇到,那遗失的美好。情难了,爱在烧,我的思念没烦恼。就像以前安家潘贵雨,好狠一女的原生家庭带给一个人的伤害是致命的,有些人终其一生都无法自愈和平复,都挺好里,苏明玉在医院的走廊里哭成了泪人。她不差钱,事业有成,依然在面对家庭矛盾时,束手无策,心力交瘁。欢乐颂里,安家在男人心里,女人和爱人,这两者是有差别的安家热播,郭涛扮演的成功商人阚文涛在婚外有了心上人,她们在一起拥有过不少风花雪月,彼此视对方为心灵伴侣。用知否的话来说,我们之间不存在谁捆绑谁,只是两颗孤寂的灵魂渐渐靠近,于茫茫人他不是不回你,他只是不爱你深陷爱情的人,常常会当局者迷,当一个人问你,他为什么总是不回我消息,他为什么总是很忙,凭什么他给我发消息,就得秒回,凭什么他找我的时候,就得随叫随到,而我需要他的时候,永远不在线这命中注定的人,都是有定数的(引人深思)真实案例分析我和他那年相亲结婚,摆了酒席,但是没有领结婚证,在一起一年多,他很爱我,这辈子我遇不到第二个他。因为身体的原因,不能自然怀孕,那时候,他爸妈已经六十多岁,迫于无奈,一次写给大龄剩女如果你结婚想要的是伴侣,就不要嫁给凑合女人这辈子,能否幸福快乐,很大程度上取决于你嫁给了什么样的男人。丈夫是妻子的命,妻子是丈夫的运。多少人,寻觅一生,未能找到真爱,直到终老多少人,爱而不得,痛苦不已多少人,和不爱自己豆瓜藤蔓绕篱笆花果须丝缀满架葡萄葡萄频繁子女多,一簇足有数十颗,无有不赞味醇美,思念也能解馋渴!哈密瓜哈蜜秧形虽平常,生育子女讲质量,偶尔与其交朋友,久怀思念不会忘。西瓜叶似花瓣难争艳,果实表面补遗憾,兄弟姐学习如铁柱磨针见真功宣传要提炼总结见真谛在学习中,一般我会先通读,通读过程我丝毫不懈怠,把经典段落或精句用红线标下来,并注明页码,进行登记梳理归类,并按逻辑分类进行抄录,方便平时研读理解,能够利用点滴时间领会掌握,这个办我是余欢水像梁安妮这样的女人,为什么大多数男人都无法抗拒?热播剧余欢水中,梁安妮这个角色极具现实主义色彩,在我们生活的周遭,这样的女性不在少数。她们往往拥有着姣好的脸蛋和身材,情商很高,在职场和男人平起平坐,手段算不上高明,但几乎没有失手到了中年,缺爱比缺钱更可悲,一个50岁女人的悔悟拜读完渡边淳一丈夫这东西一书后,对亲密关系有了更深的领悟。男人因欲望而爱,他的真爱表现在克制。女人因爱而交付,她因为足够爱一个男人,才愿意将身心完全的给予和交融。这是男女对于亲密关
每一滴眼泪都是湖泊疼痛的时候,你是一棵战栗的树待你痊愈时,你会是一片森林眼泪是生命的礼物,而你多久没流泪了,你是否已经忘记了眼泪的滋味?当你看透一些人和事,你是可以变得更纯净的,那些人和事就像过滤器享受甜,是你经历了苦有人戏语劳累一天,得一夜安眠,享受饿一上午,得一大白馒头,享受积年的光棍,忽得胖妻,享受。看来,人生的享受,很多是由苦楚牵拉出来的。不是吗?是我们经历了冬天的寒冷,才有了春天的温暖职场上不清楚这种利益交换,你凭什么升职加薪呢?职场上不清楚这种利益交换,你凭什么升职加薪呢?在职场中想要升职加薪的人太多了,但是往往能做到高位的人,也就那么几个,职场的套路很多,需要学习的东西也很多,在职场上,假如你不清楚这些如何在职场中打造自己的个人品牌?如何在职场中打造自己的个人品牌?山东猎头分享网络上的段子男生对女生说我是最棒的,我保证让你幸福,跟我好吧。这是推销。男生对女生说我老爹有3处房子,跟我好,以后都是你的。这是促销。男吉川流双向暗恋故事(36话)九月份的更新啦!有些人只拥吻影子,于是只拥有幸福的幻影。偷影子的人一代又一代人,生命就像往复的陀螺,兜兜转转。你好,旧时光此生能有一人陪伴身边,朝游夕宿,携手华发,便是最大的幸事。最令我感动的故事96年因个人看不惯事业单位做事方式辞职了,一个人南下广东打工,那时广东的加工厂林立,广东本地很多老板都是洗脚上田没有什么知识,我做为一个重点大学生,帮当地老板管理一家一百多员工的工忙着结婚的人是一种什么心态?每晚2235分,我在酒馆和你说晚安你向往烟火气的恋爱吗?在漫长的一生中,遇见心动不难,难的是遇见心定。当你的Ta拿起了锅碗瓢盆,那对方一定真的很爱你。毕竟,所有的怦然心动都会变成实成年人最大的谎言我没事。终究还是自己扛下了所有每晚2235分,我在酒馆和你说晚安成长,对于每个人来说,是必经之路。很大一部分是接受,接受世事无常,接受分道扬镳,接受突如其来的无力感,接受自己的不完美。累过也痛过哭过了,好好睡一其实爱真的不需要理由和证明什么。每晚2235分,我在酒馆和你说晚安说实话,我挺喜欢刷朋友圈的情侣们秀恩爱的。但前提是,两个人都在秀。也喜欢在阳台看着窗外淅淅沥沥的雨,听着音乐。去聆听,去感受,从心里面去发一份云祝爆炸日瘦身法孕妈产后瘦身更轻松。禾一母婴每晚2235分,我在酒馆和你说晚安为何生完小孩,我的身材就回不去了呢?怀孕生产是容易造成女人一生中肥胖的大敌,面对产后居高不下的体重,有些妈咪选择逃避,有些妈咪则已经试过不少五花八鱼在洋殃及池鱼的友情核检1hr出门就有点不顺,老鱼也习惯了。老人们说过,在家百日好,出门一时难。兴兴地上省城,却还不知道一个意外正在秦岭那边等着他。天阴着,通往客车站的6路车迟迟不来,两个中学生模样的男女