范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

深入拆解ampamp39搜索引擎ampamp39实现原理二创建索引

  通过上一篇文章我们大致了解了"搜索引擎"的基本内容,包括"搜索引擎"的作用以及基本的实现过程:    拆分非结构化数据    建立索引    搜索索引
  上期回顾:
  深入拆解"搜索引擎"实现原理一:初识 "搜索引擎"
  今天我们来拆解"  建立索引  "的过程
  以Java最经典的搜索引擎框架Lucence为例,之后的Solr以及ElasticSearch都是基于Lucence实现:
  01
  收集源文件   假设有两个源文件,以下是源文件的内容: 文件一:Students should be allowed to go out with their friends, but not allowed to drink beer. 文件二:My friend Jerry went to school to see his students but found them drunk which is not allowed.   02
  将源文件传给分词组件   分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize):   1. 将文档分成一个一个单独的单词。   2. 去除标点符号。   3. 去除停词(Stop word)。   停词 停词是指一种语言中的过渡词或语气词等,通常没有特别的意义,所以不能作为搜索的关键词,这类词汇会被分词器过滤掉。   如英语中的停词:this、a、the等。   对于每种语言的分词组件,都有一个分词集合。   注:由于Lucence由国外人员开发,最初的分词器只支持英文。之后由国内大佬开发了支持中文的分词器。   文章在经过分词器处理后得到了一些列词汇的集合,叫做‘‘ 词元 ’’:   "Students","allowed","go","their","friends","allowed","drink","beer","My","friend","Jerry","went","school","see","his","students","found","them","drunk","allowed"   03
  将词元传给语言处理组件   语言处理组件对不同语言的处理逻辑大同小异   对于英语,语言处理组件会对词元做以下几个处理: 单词转小写 将单词‘’ 缩减 ‘’为词根形式,如"cars "到"car "、去除"ing"加"e",将"ational"变为"ate",将"tional"变为"tion"等,这种操作称为:stemming 。 将单词‘’ 转变 ‘’为词根形式,如"drove "到"drive "等。这种操作称为:lemmatization 。   我们的词元经过语言处理组件得到的集合叫做词:   "student","allow","go","their","friend","allow","drink","beer","my","friend","jerry","go","school","see","his","student","find","them","drink","allow"。   04
  将得到的词传给索引组件   索引组件会做以下处理( Document ID : 文件编号 ):   1、将词组成词典:   Term   Document ID   student   1
  allow   1
  go   1
  their   1
  friend   1
  allow   1
  drink   1
  beer   1
  my   2
  friend   2
  jerry   2
  go   2
  school   2
  see   2
  his   2
  student   2
  find   2
  them   2
  drink   2
  allow   2
  2、词典排序:   Term   Document ID   allow   1
  allow   1
  allow   2
  beer   1
  drink   1
  drink   2
  find   2
  friend   1
  friend   2
  go   1
  go   2
  his   2
  jerry   2
  my   2
  school   2
  see   2
  student   1
  student   2
  their   1
  them   2
  3、合并相同的词,生成文档倒排链表:   Document Frequency 即文档频次,表示总共有多少文件包含此词(Term)   Document ID 文档编号   Frequency 即词频率,表示此文件中包含了几个此词(Term)   到这里,整个‘‘创建索引’’的过程就已经完成。   我将两篇文档的原文再复制一次:   文件一:   Students should be allowed to go out with their friends, but not allowed to drink beer.   文件二:   My friend Jerry went to school to see his students but found them drunk which is not allowed.   现在如果我们需要搜索包含‘‘allow’’的文档,直接就可以从索引中匹配第一条横向链表。   既然已经实现快速搜索   那么如何对匹配结果进行排序?   怎样判断文章的相关度,将相关度最高的结果排在首位?   我们下一篇继续拆解"搜索引擎"的搜索索引实现原理。   更多干货内容欢迎大家去我的同名公众号:浩说编程,每天进步一点点。

通用技术集团与对外经济贸易大学签署战略合作协议9月15日上午,通用技术集团与对外经济贸易大学签署战略合作框架协议。通用技术集团董事长党组书记于旭波,副总经理党组成员王旭升对外经济贸易大学党委书记蒋庆哲,校长夏文斌出席签约仪式。陕鼓集团与延长石油携手合作共谱新篇9月16日,陕鼓集团与延长石油签订了合作备忘录。双方将持续深化战略合作关系,坚持优势互补协同发展互利共赢的基本原则,强强联合,充分发挥各自优势,实现共赢发展。陕鼓集团将以智慧绿色的中国的慈善事业有哪些短板?丨品牌新事文林sir海量的消费者开始通过真金白银购买慈善公益形象较佳的品牌的产品作为支持,使得企业经营情况与品牌的慈善公益形象紧密联系在一起,这是今年野性消费等社会经济现象带给我们的思考。这2021新中产白皮书5年,累计调研10万人,我们有了100个新发现文巴九灵前天(10。25),吴晓波频道历时6个月精心策划的2021新中产白皮书(线上课程直播,赠1本纸质版)正式出炉了。这两天小巴收到了很多提问。为了带大家更全面详细地了解2021我们做了一档综艺节目,还是为了捧红它投身新国货,是未来十年少有的正确的事情之一。文巴九灵01。一个在杭州的上海人和一个在上海的杭州人2021年1月10号,上海。在虹桥火车站的一家快餐店,一个在杭州的上海人和一个在上海新消费遭遇寒流?这恰恰是进入的机会新匠人文晓匠新消费品牌的热潮,似乎如最近的天气一般遭遇了一股寒流。这股寒流的表现包括营收萎缩融资收紧ROI下降。据蓝鲨消费统计,8月份的新消费投融资事件只有127起,环比7月153起,回学习大数据必不可少的一部分Java随着大数据的盛行,想进入大数据的人才越来越多,很多Java开发师也纷纷想转行做大数据。也有很多小伙伴来问我,为何大数据要要求Java基础,今天我们就来一起聊聊学习大数据必不可少对的大数据编程入门JavaScriptJSONJSON全称为JavaScriptObjectNotation,为JS对象简谱,是一种轻量级的数据交换格式,今天小编将为大家带来大数据编程入门JavaScriptJSON。JSONHey,大数据行业跳槽面试前你需要做什么?要知道,很多人决定跳槽前其实都是迷茫的,当下决定跳槽可能会有很多想法跟原因,但是问起接下来的具体规划时可能就会显得有些迷茫和无措。我们生来都是普通的人,所以面对大数据行业这个在外人大数据编程入门JavaScriptthis关键字关键字是电脑语言里事先定义的,具有特别意义的标识符,有时候被称为保留字,今天小编将为大家带来大数据编程入门JavaScriptthis关键字,介绍在JavaScript中关键字th加米谷全面的大数据开发面试题有个小伙伴今天给我说,他在面试大数据开发的岗位,面试了好几个公司都没成功。我听他说了下面试的具体事情,给他总结了一下,大数据面试题看的不够。今天我们就来做一个大数据面试题的梳理。大
伯恩茅斯大学介绍在全息显示器中实现逼真反射和折射的新方法查看引用信息源请点击映维网在计算机生成全息图中实现反射和折射深度再现(映维网2021年10月25日)在日前举行的SIGGRAPH2021大会中,VividQ和伯恩茅斯大学大学组成的病毒面前,西贝贷款都难撑过三个月,更有无数老板吐血员工纠结今天西贝突然刷屏,不是因为东西好吃,是因为老板说疫情导致他们有2万多员工待业,即便贷款发工资也只能撑三个月。西贝是餐饮业的巨头,在全国60多个城市拥有400多家门店,去西贝吃饭,在刷爆微博墙!为什么台积电要取消华为订单?根据台湾媒体最新报道,台积电决议断供华为第四季度海思芯片,于是联发科对台积电生产的5Gsoc处理器和Asic芯片的订单持续增加,使得台积电在第四季度的7纳米产能已满。如果这样那未来今年过年,就别到处浪了春节前,武汉突然成了P2P一样的存在,人人嫌弃的不行,下面这牌子不知道哪里的,吓到写牌子的人河湖都不分。倒是武汉人自己都还挺淡定,有人表示自己准备稳坐家中,等远方亲朋欢聚。饭局年后口罩割韭菜大全你在网上或朋友圈买的口罩都寄来了吗?大概率没有。朋友圈问了近20个春节前后下单的,个个都没有,少数买到的是走的别的渠道。年前疫情刚刚引起社会重视的时候,我就在马爸爸那买了口罩,后来今年只有iPhone12S,我们还能十三香吗?iPhone12发布的时候,那时候王守义说十三香,要我们等一等2021年的iPhone。结果近日Digitimes在汇总iPhone2021款曝光信息的时候却称,这款新iPhone小年祭灶王礼送挚亲,苏宁超市五折天实惠到家2月4日是我们传统的小年。小年来了,无论是北方的腊月二十三,还是南方的腊月二十四,给家里的主厨买点啥,能够点亮对方心中的灯,让家中灶神心中暖意如春,这才对得起刚下肚的春饼,对得起挚realme真我GT首发价2799元起旗舰射门员成功了么?realmeGT手机圈中,realme一直致力于科技潮品的研发,为全球年轻人打造出了诸多智能潮玩产品,从旗下的产品中我们能看到实惠的价格强大性能迷人的外观,也正是凭借这些优势,仅2没货还是饥饿营销?停货通告发布后,泸州老窖入榜苏宁白酒悟空榜逢年过节,酒水的需求都非常大。像现在春节前夕,公司年会亲朋聚会,都少不了酒水。而白酒,在中国人的生活中更是一个重要的存在,办大事必有白酒,我们对白酒的需求,精神层面甚至更高于其物质苏宁超市年货节不打烊,飞天茅台抢购门槛居然还调低了?每天春节少不了全家人聚在一起吃顿团圆饭,不过美味佳肴一定要有好酒相伴!提起白酒中牌子最响亮的,非飞天茅台莫属!只是,虽然大家都知道飞天茅台是好酒,但是奈何1499元的原价根本抢不到米聊关停!盘点那些企鹅借鉴过的平台结局各不相同就在昨天,十年前小米推出的即时通讯APP米聊宣布关停服务器,其也在公告中表示,感谢每一位米聊用户在过去的支持与陪伴,对于此次米聊的停服给大家造成的不便,我们深表歉意,未来米聊团队也