童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

与技术有关:关于搜索引擎索引的这些概念

8月24日 菩提门投稿
  搜索引擎在我们的日常生活中很常见,在各个领域都发挥着它独特的作用。那今天我们一起从文中来了解一下关于搜索引擎索引的这些概念。
  索引其实在日常生活中是很常见的,比如:书籍的目录就是一种索引结构,目的是为了让人们能够更快地找到相关章节内容。再比如:像hao123这种类型的导航网站,本质上也是互联网页面中的索引结构,目的类似,也是为了让用户能够尽快找到有价值的分类网站。
  在计算机科学领域,索引也是非常常用的数据结构,其根本目的是为了在具体应用中加快查找速度。比如:在数据库中,在很多高效数据结构中,都会大量采用索引来提升系统效率。
  具体到搜索引擎,索引更是其中最重要的核心技术之一,面对海量的网页内容,如何快速找到包含用户查询词的所有网页?倒排索引在其中扮演了关键的角色。
  本文主要讲解与倒排索引相关的技术,通过引入简单实例,介绍与搜索引擎有关的一些基本概念,了解这些基本概念对于以后深入了解索引的工作机制非常重要。
  一、单词文档矩阵
  单词文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图1展示了其含义,图1中的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。
  图1:单词文档矩阵
  从纵向即文档这个维度来看:每列代表文档包含了哪些单词,比如:文档1包含了词汇1和词汇4,而不包含其他单词。
  从横向即单词这个维度来看:每行代表了哪些文档包含了某个单词,比如:对于词汇1来说,文档1和文档4中出现过词汇1,而其他文档不包含词汇1,矩阵中其他的行列也可做此种解读。
  搜索引擎的索引其实就是实现单词文档矩阵的具体数据结构,可以有不同的方式来实现上述概念模型。比如:倒排索引、签名文件、后缀树等方式。
  但是各项试验数据表明,倒排索引是单词到文档映射关系的最佳实现方式,所以本文主要介绍倒排索引的技术细节。
  二、倒排索引基本概念
  在这里向大家解释倒排索引常用的一些专用术语:
  文档:一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽泛些,代表以文本形式存在的存储对象。相比网页来说,涵盖更多形式。比如:Word、PDF、XML等不同格式的文件都可以称为文档;再比如:一封邮件、一条短信、一条微博也可以称为文档。
  文档集合:由若干文档构成的集合称为文档集合。比如:海量的互联网网页或者说大量的电子邮件,都是文档集合的具体例子。
  文档编号:在搜索引擎内部,会为文档集合内每个文档赋予一个唯一的内部编号,以此编号来作为这个文档的唯一标识,这样方便内部处理,每个文档的内部编号即称为文档编号。
  单词编号:与文档编号类似,搜索引擎内部以唯一的编号来表征某个单词,单词编号可以作为某个单词的唯一表征。
  倒排索引:倒排索引是实现单词文档矩阵的一种具体存储形式。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表,倒排索引主要由两个部分组成:单词词典和倒排文件。
  单词词典:搜索引擎通常的索引单位是单词,单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引项记载单词本身的一些信息及指向倒排列表的指针。
  倒排列表:倒排列表记载了,出现某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每条记录称为一个倒排项。根据倒排列表,即可获知哪些文档包含某个单词。
  倒排文件:所有单词的倒排列表往往顺序地存储在磁盘的某个文件里,这个文件即被称为倒排文件,倒排文件是存储倒排索引的物理文件。
  关于这些概念之间的关系,通过图2可以比较清晰地看出来:
  图2:倒排索引基本概念示意图
  三、倒排索引简单实例
  倒排索引从逻辑结构和基本思路上讲非常简单,下面我们通过具体实例来进行说明,使得大家能够对倒排索引有一个宏观而直接的感受。
  假设文档集合包含5个文档,每个文档包含内容如下图所示:在图3中最左端一栏是每个文档对应的文档编号,我们的任务就是对这个文档集合建立倒排索引。
  图3:文档集合
  中文和英文等语言不同,单词之间没有明确的分隔符号,所以首先要用分词系统将文档自动切分成单词序列,这样每个文档就转换为由单词序列构成的数据流。
  为了系统后续处理方便,需要对每个不同的单词赋予唯一的单词编号,同时记录下哪些文档包含这个单词,在处理结束后,我们可以得到最简单的倒排索引(参考图4)。
  图4中,“单词ID”一列记录了每个单词对应的编号,第2列是对应的单词,第3列即每个单词对应的倒排列表。比如:单词“谷歌”,其中单词编号为1,倒排列表为{1,2,3,4,5},说明文档集合中每个文档都包含了这个单词。
  之所以说图4的倒排索引是最简单的,是因为这个索引系统只记载了哪些文档包含某个单词。而事实上,索引系统还可以记录除此之外的更多信息。
  图5是一个相对复杂些的倒排索引,与图4所示的基本索引系统相比,在单词对应的倒排列表中不仅记录了文档编号,还记载了单词频率信息,即这个单词在某个文档中出现的次数。之所以要记录这个信息,是因为词频信息在搜索结果排序时,计算查询和文档相似度是一个很重要的计算因子,所以将其记录在倒排列表中,以方便后续排序时进行分值计算。
  在图5所示的例子里,单词“创始人”的单词编号为7,对应的倒排列表内容有(3;1),其中3代表文档编号为3的文档包含这个单词,数字1代表词频信息,即这个单词在3号文档中只出现过1次,其他单词对应的倒排列表所代表的含义与此相同。
  图4:最简单的倒排索引
  图5:带有单词频率信息的倒排索引
  实用的倒排索引还可以记载更多的信息,图6所示的索引系统除了记录文档编号和单词词频信息外,额外记载了两类信息即每个单词对应的文档频率信息(图6的第3列)及单词在某个文档出现位置的信息。
  图6:带有单词频率、文档频率和出现位置信息的倒排索引
  文档频率信息代表了在文档集合中有多少个文档包含某个单词,之所以要记录这个信息,其原因与单词频率信息一样,这个信息在搜索结果排序计算中是一个非常重要的因子。
  而单词在某个文档中出现位置的信息并非索引系统一定要记录的,在实际的索引系统里可以包含,也可以选择不包含这个信息,之所以如此,是因为这个信息对于搜索系统来说并非必要,位置信息只有在支持短语查询的时候才能够派上用场。
  以单词“拉斯”为例:其单词编号为8,文档频率为2,代表整个文档集合中有两个文档包含这个单词,对应的倒排列表为{(3;1;4),(5;1;4)},其含义为在文档3和文档5出现过这个单词,单词频率都为1,单词“拉斯”在这两个文档中的出现位置都是4,即文档中第4个单词是“拉斯”。
  图6所示的倒排索引已经是一个非常完备的索引系统,实际搜索引擎的索引结构基本如此,区别无非是采取哪些具体的数据结构来实现上述逻辑结构。
  有了这个索引系统,搜索引擎可以很方便地响应用户的查询。比如:用户输入查询词“Facebook”,搜索系统查找倒排索引,从中可用读出包含这个单词的文档,这些文档就是提供给用户的搜索结果。
  而利用单词词频信息、文档频率信息即可对这些候选搜索结果进行排序,计算文档和查询的相似性,按照相似性得分由高到低排序输出,此即为搜索系统的部分内部流程。
投诉 评论

逃离微信,90后的社交焦虑有这么一句话形容我们常用的社交软件:QQ上的我查无此人,微信上的我岁月静好,微博上的我放飞自我。而其实以前在微信刚流行的时候,我们的朋友圈其实很大都是展示自我的,可是现在大都数……“新零售不能脱离数字化”,30个案例带你解读企业数字化转型实如今都在讲新零售,而新零售与数字化是离不开的的,本文作者用30个案例带你解读企业数字化转型实践。个人和企业都在进行数字化变革,无论个人还是企业,都在运用社交网络和数字设备……跌掉一个星巴克后,Facebook泄密事件告诉了我们什么?Facebook数据泄密事件发生后,全球大为震惊,而只不过是过去数年来众多互联网泄密事件一个小小的案例。那么数据泄密为何会屡屡发生?对其他企业又有何警示呢?Faceboo……与技术有关:关于搜索引擎索引的这些概念搜索引擎在我们的日常生活中很常见,在各个领域都发挥着它独特的作用。那今天我们一起从文中来了解一下关于搜索引擎索引的这些概念。索引其实在日常生活中是很常见的,比如:书籍的目……从互联网公司变身为“广告公司”,来看互联网商业模式的本质互联网公司变身为“广告公司”!其实这并不奇怪。在现在的互联网时代,流量是一个极其值钱的东西,不用白不用。早上看到一则新闻,说360净利增长80的背后,正在变身为“广告公司……短视频狂奔:快手的“快”时代才刚刚开始对于当下内容产业的狂躁期,当快手的“手”伸进清华大学的时候,也许快手的“快”时代才刚刚开始!2017年短视频的火爆让整个内容产业出现了偏离的迹象,内容平台流量的偏离、内容……谷歌“产品伦理师”:科技是怎样利用你的弱点,抢夺你的注意力?编者按:手机依赖症现在已经是非常普遍的问题。我们为什么会得手机依赖症?难道真的是我们的自制力不强吗?你有没有想过,有的时候问题也许出在那些设计App的人身上?本文作者曾经是魔术……AXURE教程如何实现弹出的提示自动消失非确认的提示使用AXURE如何实现?一起从文中了解一下吧如今非确认提示大多使用的提示方式为Toast,即无需交互可自动消失,这类提示不能承载太多内容。例如:“支付成功”、……信息流产品被整顿,新闻APP为什么要加码内容质量?强调内容品质优势,人人都利用平台成为轻IP,获取“小价值”,平台获得整合势能的“大价值”,这种模式对新闻APP们再合适不过。只是,一次运营大量轻IP并不如集中培养大IP那样有经……泛90后需要什么样的社交产品?“泛90后”的这个人群,他们叛逆、标新立异、与众不同,享受当下等心态,注定与传统的那一辈不一样,那他们需要什么样的社交产品呢?最近被安利了一个词:“泛90后”,这个人群普……从微视再入局,解密短视频产品的工具、分发、社交3要素无论是重新入局的微视还是已经上瘾的抖音,根本上都是社交产品。对于抖音和微视两个产品的竞争,其实根本上还是争夺社交主导权,也是腾讯和头条的正面交手。仿若轮回,6年前,笔者由……iPhone十年,移动用户体验领域已经到达成熟阶段从最原始的iPhone开始,这10年来移动用户体验领域已经到达成熟阶段。最开始的iPhone于2007年6月发布。2008年末,当我们开始研究第一版移动报告时,大多数人还……
旧文重读张小龙为什么必须改变?核心还是加速商业化本文是作者于2017年10月发表的文章,虽是旧文,但其早已对微信公众号将订阅号改成信息流的这种模式进行了深度思考,其中的视角观点还是值得我们今日重读。enjoy近期,网上……提前8个月预判微信订阅号改版用意:再小的品牌,也有自己的阵地本文是作者发出在2017年10月22日在知乎针对当时的改版流言写的答案,从订阅号定位流变问题、与小程序的分工关系入手,分析(可能的)改版对用户、生态、对手的影响。微信iO……微信公众号改版信息流要留住你,但是用力过猛了微信想要用信息流留住用户,让微信成为用户更加离不开的产品,但很抱歉,公众号这次改版用力过猛了。6月20日下午,微信订阅号更新为信息流模式,所有的订阅号信息按照时间排序,和……我对微信公众号改版的8点看法:“我所改的,都是错的?”“人这一生,能看的微信文章数量是一定的,谁先看完谁先走。”免疫力逐渐低下的中年胖子,垂死病中惊坐起,来蹭一波热点!一、这次改版肯定不是改成了信息流,微信里的“看一看……以小红书为例,聊聊社交电商的3大阶段社交电商怎样才能更好生存呢?本文和你聊聊玩转社交电商的三大阶段。自快手俯首甘为孺子牛增加了短视频的底气,最后却被突然蹿红的抖音摘了桃子;我们已经无数次说过短视频的下半场就……微信大更新!10亿人都在看的公众号,要变成今日头条了?微信更新了!在最新的微信6。7。0版里,微信公众号第一次引入了信息流概念。本文将详细为你解说微信公众号有哪些新的变化。在年初的微信公开课Pro上,张小龙曾表示不做信息流,……3个方面分析:QQ如何应对中年困境失落已久的QQ2018年接过重启微视的大旗,从低谷到重新爬坡,QQ经历了艰难的一年。承载了大大小小几十个产品的QQ,就像一艘大船。近一年多,这艘船遭遇了巨浪后,终于重回海平面。……美团:城市的新地基本文提出了一个观点:美团是城市的新地基。为什么这样说呢?一、网上城市刘慈欣5年前的一篇文章提出:现代网络形成了人类聚集的第二个空间,这个虚拟空间与地球表面的实……问答市场用户下沉的逻辑问答市场的玩家为什么集体下沉?在流量红利日益殆尽的的移动互联战场,“用户下沉”这个关键词一度成为众多APP共同的主题,拼多多、趣头条等深谙下沉之道的产品以强悍的姿态野蛮生……为什么今年618没有想象的那么火?平台为了业绩改变营销策略,缺乏新概念打动用户,新电商业态的不断出现正在解构中心化的平台模式。6月18日凌晨,朋友圈在一片世界杯声中,偶尔夹杂着几条关于电商618大促的消息……泛谈商业产品(一):什么是商业产品?文章主要针对商业产品的五个特征来说明什么是商业产品,作者在这篇文章中尽量把自己所知道的商业产品定义清楚,一起来看看笔者最近发现一个有意思的现象:有不少同行将商业产品和To……土豆较为悲凉的前世今生,还能逆风翻盘吗?命运多舛的土豆,转型前是优酷的影子,转型后依然没有摆脱困境,未能实现梅开二度的梦想。短视频在经历草莽期之后迎来了BAT,先是腾讯旗下短视频平台微视再度出山,继而百度投资的……

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界