范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

深入拆解ampamp39搜索引擎ampamp39实现原理一初识ampamp39搜索引擎ampamp39

  "搜索引擎"对于很多大厂来说已经不是什么新鲜技术了,
  百度、淘宝等大型网站的搜索功能通常使用"搜索引擎"技术实现。
  "搜索引擎"到底做了什么?
  它和普通的数据库搜索有什么区别?
  什么情况下才需要使用"搜索引擎"?
  带着这些疑问,我们开始【对"搜索引擎"的探索】
  "搜索"的本质其实是对"数据"的处理,所以我们先从"数据讲起"数据类型
  以搜索的角度划分,数据分为两种:结构化数据、非结构化数据(全文数据)
  结构化数据:具有固定格式或有限长度的数据,就像我们用的数据库(创建字段必须指定格式)
  非结构化数据:指不定长度或无固定格式的数据,如邮件、word文档
  于是衍生出两种搜索类型
  对结构化数据的搜索:也就是我们平时用的最多的,对数据库的SQL搜索,名称、状态、创建时间等
  举个例子来说,我们假设公众号将我的文章信息存到了这样一张表中
  table: id title author filepath(文章内容的文件上传之后返回的保存路径) createtime
  当我想要查询标题中包含"搜索"的文章,一个SQL就可以SELECT * from table where title like "%搜索%"
  这样就完成了一次结构化数据的搜索,
  另一种就是对非结构化数据的搜索:即对邮件、word文档等做内容搜索
  还是上面的例子,但这次我们希望搜索文章内容中包含"搜索"的文章,你会怎么做呢?
  按照上面结构化数据的搜索思路,遍历数据库中所有的filepath,通过filePath获取到文章文件本体,将文章内容从头到尾扫描一遍,直到将所有文件都扫描完,返回匹配结果。
  这种顺序扫描法想必不用说你也能想到效率问题,如果我有成千上万个文件,每个文件包含上千字,扫描量可想而知。
  全文检索
  既然顺序扫描法不可取,我们是否可以换个思路:将非结构化的数据中的一部分信息提取出来,然后以某种规则重组,使其变得有一定的结构,然后对此结构数据建立索引并进行搜索,从而达到快速搜索的目的。
  这种将非结构化数据拆分、结构化,建立索引并对索引进行搜索的搜索方式就叫做全文检索,即"搜索引擎"的设计思想。
  就像是文字和字典的关系,字典的拼音表和部首检字表就相当于字典的索引,对每一个字的解释是非结构化的,如果字典没有音节表和部首检字表,在茫茫辞海中找一个字只能顺序扫描。
  然而字的某些信息可以提取出来进行结构化处理,比如读音,就比较结构化,分声母和韵母,分别只有几种可以一一列举,于是将读音拿出来按一定的顺序排列,每一项读音都指向此字的详细解释的页数。
  我们搜索时按结构化的拼音搜到读音,然后按其指向的页数,便可找到我们的非结构化数据——也即对字的解释。
  还记得上面搜索文章内容的问题吗,我们试着用全文检索模拟一下:
  假设现在我有100篇文章(编号0~100),我需要找出内容中包含"搜索"、"引擎"两个关键字的文章,
  首先根据这两个词汇建立索引结构:
  左边保存的是一系列字符串,称为词典 。
  每个字符串都指向包含此字符串的文档(Document)链表,此文档链表称为倒排表 (Posting List)。
  这样一来,我们只需要将"搜索"、"引擎"两个链表做合并,即可得到搜索结果。
  值得注意的是,虽然创建索引的过程和顺序扫描是一样的,但区别在于顺序扫描是每次都要扫描,而创建索引的过程仅仅需要一次,以后便是一劳永逸,仅需要搜索创建好的索引即可。
  这也是全文搜索相对于顺序扫描的优势之一:一次索引,多次使用。
  以上就是本篇的内容,通过今天的内容我们了解了"搜索引擎"到底做了什么、它和普通的数据库搜索有什么区别、什么情况下才需要使用"搜索引擎"。下期预告
  下一篇我们将深入拆解"搜索"引擎如何创建索引?为什么在输入了错别字的情况下,百度依然返回了正确的搜索结果?
  更多干活内容尽在同名公众号:浩说编程,欢迎互相交流

帝豪现金优惠1。5万综合优惠25000元深圳深意吉利汽车全系底价促销,恭迎到店品鉴!近期购帝豪优惠政策如下1。现金优享国六现金优惠至高19000元2。金融优享4500元贴息3。置换优享3000元置换补贴4用车礼用车无忧卡Python入门题032类和函数级静态变量题目实现类和函数级的静态变量。视频教程Python入门题032类和函数级静态变量代码1classPeopleType人definit(self,name)self。namename小米有品众筹被窝地暖,石墨烯360发热,开一整晚都不燥小米在十周年上发布的小米10至尊版红米K30至尊版和小米透明电视,无一不大大的博了一波眼球。多年来,小米凭借良心价高性能,圈了不少粉,并且在电商方面也有涉及,其中就有小米有品这样的每天喝上一杯美味的咖啡,中卡全自动咖啡机开箱评测CiaoBella,我是老房。CiaoBella这句开场词其实是一句意大利语,意思是你好,美女。老房曾经在意大利求学呆过几年,对他们的咖啡文化感受颇深,深知一杯好的咖啡是美好一天的手游玩家背后的靠山揭秘联发科天玑芯片背后的移动端游戏技术游戏市场,甚至说电竞市场在目前手机圈里受到了许多游戏爱好者的关注,和平精英王者荣耀,再加上这段时间刚出来的英雄联盟手游,电竞比赛层出不穷。对于游戏爱好者来说,想要模仿职业选手秀一波NodeJS在异步函数(asyncawait)中调用栈打印不全的问题我在index。ts中调用timehelper。ts中的waitForFn(),出错的调用栈是这样的Errorxxatsrchelperstimehelper。ts159atGenPython生成脑图经验踩坑和最佳实践背景为了实现对数十万长尾词进行分析,需要用脑图来有层次地展示。目的是实现类似效果Xmind赛道一开始自然是使用Xmind来实现,于是网上搜索了Xmind的SDK,找到这2位选手xm高德明镜系统你所在的城市交通出了什么问题一扫即知精细化运营对症下药8月13日,在2019互联网城市交通管理创新论坛上,高德地图发布了基于AI和大数据实现城市交通智能分析评价诊断功能的明镜系统。明镜系统就像一台针对城市的CT,能够从多个维度对影响城华为千呼万唤的自研操作系统鸿蒙OS发布明天发布的智慧屏先使用8月9日下午,华为消费者部门首席执行官余承东在东莞发布了华为自己的操作系统鸿蒙OS,英文名为HarmonyOS。余承东在表示随着全场景智慧时代的到来,华为认为需要进一步提升操作系统微博让新浪搭上了移动互联网的大船8月28日,微博十周年之际,新浪董事长兼CEO,微博董事长曹国伟向全体员工发布内部信。曹国伟表示,微博的成功让新浪赶上了移动互联网大潮,也使新浪成为了极少数主营业务转型成功的互联网新氧白皮书只有不到15的医美用户愿意为美投保其余送都不要2019年8月7日,新氧2019医美行业白皮书在北京发布。今年的白皮书显示,中国医美市场仍在高速发展。2019年4月,FrostSullivan调查显示,2017年中国医美疗程消费
升级win11后卡顿不流畅?做好这6个设置,让你的系统速度飞起来我是隔壁家老王,一个爱分享知识的创作者,愿意每天为你分享科技干货知识。可能很多小伙伴都已经用上最新的windows11系统了。那你是不是还不太习惯这个仿苹果的新系统呢?如果你秉持默为什么现在300m的宽带和以前的20m感觉速度差不多?为什么300兆的宽带感觉和以前20兆的速度差不多?这个主要的原因可能是你上网的设备和接入网络的设备都是百兆的原因。或者是你的无线接入信号影响。对于网速的体验,没有一个标准的参考说法嘲笑苹果三星快充速度慢,充电速度越快越好吗?行内人给出答案现在国产手机的充电速度是越来越快了,甚至是否支持快充已成为手机的重要宣传参数,从最开始的10W20W45W65W甚至有的厂商现在使用120W的快充,快充的名字也在变化,从闪充超级快Win11降低PC速度高达50微软只是把描述改了一下微软承认Windows11会降低PC的速度,而且在极端情况下可以降低45,这让用户非常不满。微软官方表示会在近期修复这一问题。让人没想到的是,微软已经悄悄推送了新的更新,也确实解决自然发布2022年值得关注的七大科学事件科技日报记者刘霞尽管今年新冠疫情仍然肆虐,给人类带来不少悲剧和灾难,但每朵乌云都镶有金边!新冠疫苗成为抗击疫情的有力武器迄今最强大超导量子计算机上新。。科学家们的聪明才智给予人类很你会在意折叠屏手机折痕吗,小米三星华为和OPPO,谁更优秀?近期,OPPO发布了一款折叠屏手机OPPOFindN,引发网友热议。华为即将发布新机,参考曝出的真机图片,不难看出,这也是一款折叠屏手机。市面上在售的折叠屏机型很多,并不稀奇,华为永久中立国对外宣布,宁愿亏损276亿,也要绕开华为自建5G作为永久中立国的瑞典,在最近的民意调查中,瑞典国内超过80的人,拒绝使用华为的5G设备来建设当地的网络。而瑞典方面也是绝定,即便是亏损276亿,接下来也要绕开华为,自己展开5G建设华为无法被自由出货后,联发科发展强劲,外媒高通终于慌了为了遏制华为的发展,美方不仅不允许台积电继续为华为代工芯片,并且禁止第三方向华为出售芯片,这等于将华为的后路全部堵死,华为也至此陷入了芯片紧缺的危机之中。华为无法被自由出货无疑给国好饭不怕晚!再等等,华为Mate50Pro在路上临近尾声,智能手机市场也开始慢慢地恢复平静。回顾这一年竞争要比以往激烈不少,高端市场一年两更已成为家常便饭,而中低端市场也有不少猛将入局。但唯一遗憾的是,华为顶级旗舰Mate50系捅破内幕!挺高通拒华为的联想,终于登顶头条联想曾经作为国货之光,其美誉响彻世界,可自从柳传志提出股改之后,作为其主要股东的中科院逐渐被冷落,最终联想还通过未知手段拿掉了中科院所有股权,至此以后,倪南光院士与联想彻底断绝关系华为P60Pro渲染图搭载麒麟芯片强势回归,依然是iPhone强劲敌手手机厂商之间的竞争是越来越激烈,最主要的变化是各大手机厂商在手机外观上的设计更加白热化。其中作为代表的机型应当是华为手机,因为华为手机在外观上的设计非常出众,尤其是相机镜头外观先后