范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

ElasticSearch原理及应用

  ElasticSearch是一个分布式、基于RESTful风格的数据搜索和分析引擎。ElasticSearch的底层全文检索基于Lucene实现,其灵活的数据存取和分析方式、良好的性能和稳定性使其在大数据存储和分析领域被广泛使用。
  ElasticSearch的概念和原理
  Lucene
  ElasticSearch的底层存储基于Lucene实现,Lucene是Apache软件基金的一个开源子项目,是一套全文检索引擎架构,提供了完整的文本分析引擎、数据查询引擎和数据索引引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以便在目标系统中实现全文检索的功能,或者以Lucene为基础建立一套完整的全文检索引擎。
  倒排索引-Inverted Index
  倒排索引表中的每一项都包括一个属性值和具有该属性值对应记录的地址。由于不是按照记录来确定属性值的,而是由属性值来确定记录的位置的,因此被称为倒排索引。
  带有倒排索引的文件被称为倒排索引文件(Inverted File)。倒排索引的索引对象是文档或者文档集合中的单词,倒排索引文件被用来存储这些单词在一个文档或者一组文档中的位置。
  Lucene的架构
  Lucene是一个高并发、高吞吐、可扩展的全文检索库。它基于Java实现,使用方便。Lucene内部的数据结构叫作文档(Document),当应用层的数据(例如,FileSystem、Web Data、DataBase等)进入Lucene时,首先会进行索引文档(Index Document)操作,按照索引规则创建倒排索引;在应用程序查询数据的时候,直接查询提前建好的倒排索引,因此其效率十分高。
  Lucene的全文检索流程
  创建索引:获取文档、构建文档对象、文档分词和创建索引;
  查询索引:调用查询接口、创建查询、执行查询和结果返回。
  创建索引流程:
  (1)获取文档:获取文档的过程即数据采集的过程。Lucene中的文档指要索引和搜索的原始内容。文档内容可以是互联网上的网页、数据库中的数据、磁盘上的日志文件等。
  (2)构建文档对象:当获取文档内容后,需要根据文档内容构建文档(Document)对象,每个文档对象都包含一个唯一的文档id和多个Field,每个Field中都存储着不同的文档内容。例如,将磁盘上一个包含一篇文章的TXT文件当成一个Document,则Document中包含多个Field。每个Field都包含不同的内容,比如file_name(文件名称)、file_path(文件路径)、file_size(文件大小)、file_content(文件内容)。
  (3)分析文档:分析文档的过程是将原始内容创建为包含Field的文档(Document)并对Field的内容进行分析的过程。分析文档的过程需要对原始文档执行提取单词、大小写转换、去除标点符号、去除停用词等操作,然后生成最终的语汇单元。语汇单元中的每个单词都被叫作一个Term,不同的Field拆分出来的相同单词是不同的Term。Term中包含两部分:一部分是文档的Field名称,另一部分是单词的内容。
  4)创建索引:创建索引指对所有文档分析得出的Term都进行索引并记录该Term在每个Document中出现的次数的过程。
  查询索引流程:
  查询索引即根据用户输入的关键字,从索引(Index)中进行搜索的过程。查询索引的具体过程为:根据关键字搜索索引,根据索引找到对应的文档,从而找到要搜索的内容。
  (1)用户查询接口:全文检索系统提供的用户搜索界面,实现用户搜索关键字或关键词的提交,以及搜索完成后搜索结果的展示。
  (2)创建查询对象:用户在输入关键字执行搜索之前,需要先构建一个查询对象。查询对象中可以指定要搜索的文档Field、关键字等。
  (3)执行查询:根据查询语法在倒排索引词典表中分别找出对应搜索词的索引,从而找到索引对应的文档链表。搜索过程为在索引中查找Field为fileName且关键字为Lucene的Term,然后根据Term找到对应的文档id列表。
  (4)返回查询结果:将查询的文档id列表返回到用户查询接口。
  ElasticSearch的特点
  (1)高容量:ElasticSearch集群支持PB级数据的存储和查询。
  (2)高吞吐:ElasticSearch支持对海量数据近实时的数据处理。
  (3)高可用:ElasticSearch基于副本机制支持部分服务宕机后仍可正常运行和使用。
  (4)支持多维度数据分析和处理:除了支持全文检索,ElasticSearch还支持基于单字段精确查询和多字段联合查询等复杂的数据查询操作。
  (5)API简单易用:ElasticSearch API简单易用,除了支持REST API,还支持Java、Python等多种客户端形式,且查询方式简单灵活。
  (6)支持插件机制:ElasticSearch支持插件式开发,基于ElasticSearch可以开发自己的分词插件、同步插件、Hadoop插件、可视化插件等。
  ElasticSearch的应用场景
  (1)全文检索
  (2)分布式数据库
  (3)日志分析:通过Logstash等日志采集组件,ElasticSearch可实现复杂的日志数据存储分析和查询,最常用的组合是ELK(ElasticSearch+Logstash+Kibana)技术组合。
  (4)运维监控:运维平台可以基于ElasticSearch实现大规模服务的监控和管理。(5)BI系统:ElasticSearch广泛应用于BI(Business Intelligence,商业智能)系统,例如按照区域统计用户的操作习惯等。
  ElasticSearch的数据模型
  ElasticSearch的数据模型由Index(索引)、Type(类型)和Document(文档)组成。索引是一组具有共同特征的文档集合。每个索引都包含多个类型,每个类型都包含多个文档,每个文档都包含多个Field。
  ElasticSearch分布式架构
  ElasticSearch基于分布式的架构能够支撑PB级数据的搜索和分析。ElasticSearch分布式架构的核心内容包括集群节点角色、集群选举原理、集群状态、数据路由规则、数据分片和副本策略等。
  集群节点角色
  ElasticSearch集群节点角色包括:
  MasterNode(主节点):主要负责集群节点状态的维护、索引的创建删除、数据的Rebalance、分片的分配等工作。MasterNode不负责具体数据的索引和检索,因此其负载较低,服务比较稳定。当MasterNode宕机时,ElasticSearch集群会自动从其他MasterNode中选举出一个Leader继续为集群提供服务。为了防止在选举过程中出现脑裂现象,常常需要设置discovery.zen.minimum_master_nodes=N/2+1,其中N为集群中MasterNode的个数。建议集群中MasterNode的个数为奇数,如3个或者5个。一个节点只包含MasterNode角色的配置如下。
  在一般生产环境中,为了保障MasterNode的稳定运行,不建议在MasterNode上配置数据节点。
  DataNode(数据节点):DataNode是集群的数据节点,主要负责集群中数据的索引创建和检索,具体操作包括数据的索引、搜索、聚合等。DataNode属于I/O、内存和CPU密集型操作,需要的计算资源较大,如果资源允许,则建议使用SSD以加快数据读写的效率。
  设置一个节点为DataNode的配置如下。
  IngestNode(提取节点):IngestNode是执行数据预处理的管道,它在索引之前预处理文档。通过拦截文档的Bulk和Index请求,然后加以转换,最终将文档传回Bulk和Index API,用户可以定义一个管道,指定一系列预处理器。如果集群有复杂的数据预处理逻辑,则该节点属于高负载节点,建议使用专用服务器。
  CoordinatingNode(协调节点):CoordinatingNode用于接收客户端请求,并将请求转发到各个DataNode上。各个DataNode在收到请求后,在本地执行请求操作,并将请求结果反馈给CoordinatingNode,CoordinatingNode在收到所有DataNode的反馈后,进行结果合并,然后将结果返回客户端。
  TribeNode(部落节点):允许TribeNode在多个集群之间充当联合客户端,用于实现跨集群访问。在5.4.0版本以后,TribeNode已经被废弃,并不建议使用,其替代方案为cross-cluster Search。
  数据路由规则
  ElasticSearch的数据路由(Routing)规则用于确定文档存储在哪个索引(Index)的哪个分片(Shard)上。根据路由规则,ElasticSearch将不同文档索引到不同索引的不同分片上。在查询文档的时候,ElasticSearch根据路由规则找到该索引及其对应的分片并查询该文档。
  上述公式简述为文档所在分片等于routing的Hash值除以主分片数量(number_of_primary_shards)的余数。这也是为什么ElasticSearch索引的主分片数量在确定后就不能再修改的原因,因为如果主分片数量发生变化,则之前路由的所有分片都会失效。在使用时,所有API(get、index、delete、bulk、update以及mget)都接收一个叫作routing的路由参数,通过这个参数应用程序可以自定义文档到分片的映射。一个自定义的路由参数可以用来确保所有相关的文档(例如所有属于同一个用户的文档)都被存储到同一个分片中。
  文档分片和副本策略
  ElasticSearch文档分片的原则如下。
  (1)ElasticSearch中的每个索引都由一个或多个分片组成,文档根据路由规则分配到不同分片上。
  (2)每个分片都对应一个Lucene实例,一个分片只能存放Integer.MAX_VALUE-128=2147483519个文档。
  (3)分片主要用于数据的横向分布,ElasticSearch中的分片会被尽可能平均地分配到不同节点上,当有新的节点加入时,ElasticSearch会自动感知并对数据进行relocation操作(例如,有2个节点,4个主分片,那么每个节点都将会分到2个分片,当再增加2个节点后,ElasticSearch会自动执行relocation操作,这时每个节点都将会分到1个分片),relocation保障了集群内数据的均衡分布。
  ElasticSearch文档副本的策略如下。
  (1)ElasticSearch的副本即主分片(Primary Shard)对应数据的副本分片(Replica Shard)。
  (2)为了防止单节点服务器故障,ElasticSearch会将主分片和副本分片分配在不同节点上。ElasticSearch的默认配置是一个索引包含5个分片,每个分片都有1个副本(即5 Primary+5 Replica=10个分片)。
  ElasticSearch的写操作流程
  ElasticSearch的写操作
  ElasticSearch的写操作主要包括索引的创建和删除,以及文档的创建、删除、更新等操作。ElasticSearch首先会在主分片上执行写操作,当主分片上执行成功时,根据集群的数据一致性要求,将在其他副本分片上执行写操作,只有达到一致性要求的节点都执行成功后才向客户端发送成功响应。
  (1)客户端向Node-1发送新建、查询或者删除文档的请求。节点根据文档的_id为1确定文档属于分片1。
  (2)因为分片1的主分片P-1被分配在Node-3上,所以请求会被转发到Node-3。
  (3)在Node-3的主分片上执行请求,如果执行成功,则将请求同时转发到Node-1和Node-2的副本分片R-1上执行。
  (4)当所有副本分片都报告执行成功时,Node-3才向协调节点报告执行成功。
  (5)协调节点向客户端报告成功。当客户端收到成功响应时,文档更新已经在主分片和所有副本分片上都执行成功。
  ElasticSearch的读操作流程
  ElasticSearch在处理读取请求时,协调节点在每次收到客户端请求的时候都会通过轮询所有副本分片来达到负载均衡。当检索时,被索引的文档可能已经在主分片上,但是还没有同步到副本分片。在这种情况下,副本分片可能会报告文档不存在,但是主分片可能会成功返回文档。一旦索引请求成功返回用户,文档在主分片和副本分片上都是可用的。
  (1)客户端向Node-1发送文档读取请求。
  (2)协调节点Node-1根据文档的_id来确定文档属于分片1。分片1的文档数据存在所有3个节点上。在这种情况下,它将请求转发到Node-2。
  (3)Node-2在本地执行查询操作并将查询结果返回到Node-1。
  (4)Node-1(此时Node-1为CoordinatingNode角色)接收Node-2的查询结果,如果查询到请求对应的文档,则将该文档返回客户端。如果在Node-2上未查询到对应的文档数据,则Node-1会继续向其他节点发送文档读取请求,直到查询到文档对应的数据后才返回。如果要读取的文档在所有节点上都不存在,则向客户端报告文档不存在。
  ElasticSearch的应用
  ElasticSearch广泛应用于大数据存储、日志分析、运维监控等多种场景,支持单机部署和集群部署两种方式。在API使用层面,ElasticSearch支持Java API和REST API两种方式。下面将对集群部署和API使用进行介绍。
  ElasticSearch的安装
  (1)安装Java环境,ElasticSearch建议JDK版本大于1.8。
  (2)各服务器之间互信配置。
  (3)到官网下载安装包,ElasticSearch官网的下载。
  (4)执行以下命令修改集群配置文件elasticsearch.yml。
  需要修改的核心配置如下
  (5)执行以下命令启动ElasticSearch。
  (6)在命令行输入curl http://localhost:9200查看ElasticSearch集群的状态,返回结果如下。
  通过上述接口的查询结果可以看到,ElasticSearch集群名称为elasticsearch,集群id为383fPBn4R12SR_4msaqaeQ,集群版本为7.4.2,对应的Lucene版本为8.2.0。
  ElasticSearch的配置和性能调优
  JVM性能调优
  ElasticSearch基于Java实现,默认使用的堆内存为1GB,对于生产环境需要根据系统资源对堆内存进行合理的设置以达到良好的性能表现。执行以下命令对JVM堆内存进行设置。
  如果操作系统有32GB内存,则建议将JVM堆内存的最小值和最大值都设置为16GB。
  这里将堆内存最小值(Xms)与最大值(Xmx)设置相同,防止在ElasticSearch运行过程中JVM改变堆内存大小,引起JVM内存震荡。
  需要注意的是,ElasticSearch除了使用JVM堆内存,其内部Lucene还需要使用大量非堆内存。ElasticSearch内部使用Lucene实现全文检索。Lucene的段分别存储在单个文件中,因为段是不可变的,对缓存友好的,所以在使用段数据时操作系统会把这些段文件缓存起来,以便更快地访问。同时,Lucene可以利用操作系统底层机制来缓存内存数据,加速查询效率。
  Lucene的性能取决于与操作系统交互的速度,而这些交互都需要大量的内存资源(非JVM堆内存),如果把全部内存都分配给JVM堆内存,则将导致Lucene在运行过程中因资源不足而性能下降。一般建议将系统的一半内存分配给JVM堆内存,另外一半内存预留给Lucene和操作系统。比如有32GB内存,可以把16GB分配给JVM堆内存,剩余的16GB预留给Lucene和操作系统。
  操作系统的性能调优
  (1)设置文件句柄:Linux中的每个进程默认打开的最大文件句柄数都是1024,对于服务器进程来说该值太小,可以通过修改/etc/security/limits.conf来增大打开的最大文件句柄数,一般建议设置为65535。
  (2)设置虚拟内存:max_map_count定义了进程能拥有的最多内存区域,一般建议设置为102400。
  (3)关闭Swap:Swap空间是一块磁盘空间,操作系统使用这块空间保存从内存中交互换出的操作系统不常用的Page数据,这样可以分配出更多的内存做Page Cache。通过Swap可以提升系统的吞吐量和I/O性能,但ElasticSearch需要一个所有内存操作都能够被快速执行的环境,服务一旦使用到了Swap内存,就会大大降低数据的存取效率,严重影响性能。
  (4)开启mlockall:打开配置文件中的mlockall开关。它的作用是允许JVM锁住内存,禁止操作系统将内存交换出去。elasticsearch.yml文件中的设置如下
  ElasticSearch API的使用
  ElasticSearch支持Java API和REST API两种方式,下面以Java API为基础介绍ElasticSearch API的基本用法。
  基于Spring Boot建立ElasticSearch项目的步骤如下。
  (1)添加pom.xml依赖:新建Spring Boot项目,并在pom.xml中添加如下ElasticSearch依赖。
  (2)application.yml配置:在项目中添加application.yml配置文件,并在文件中配置ElasticSearch的服务地址和端口
  (3)创建索引:定义BaseElasticService类,并在类中定义创建索引的方法createIndex。具体代码如下
  上述代码中依赖的是RestHighLevelClient实例,Spring Boot会根据配置文件进行自动装配,应用程序只要在需要的时候依赖注入即可。上述代码定义了索引的创建方法createIndex,具体步骤为:定义CreateIndexRequest对象,设置索引的分片数量和副本数量,调用restHighLevelClient.indices().create()创建索引。
  (4)查询索引:在BaseElasticService类中按照如下代码定义查询索引的方法getIndex。
  (5)删除索引:在BaseElasticService类中按照如下代码定义删除索引的方法deleteIndex。
  (6)使用索引API:创建测试类ElasticsearchTest,并在类中添加测试用例IndexAPITest,测试上述(3)~(5)的代码定义的createIndex、getIndex和deleteIndex方法。
  上述代码在测试类ElasticsearchTest中依赖注入BaseElasticService,并调用createIndex、getIndex和deleteIndex方法实现索引的创建、查询和删除。
  (7)新增文档:在BaseElasticService中添加如下新增文档的方法。
  上述代码定义了向ElasticSearch中添加文档的方法add,具体步骤为:定义IndexRequest对象,设置文档id,设置文档数据,执行创建索引操作,返回创建结果。
  (8)批量新增文档:在BaseElasticService中添加批量新增文档的方法。
  上述代码定义了批量新增文档方法batchAdd,具体步骤为:定义BulkRequest对象;遍历List,将文档id和文档内容封装到BulkRequest;批量提交插入操作;返回插入结果。
  (9)查询文档:在BaseElasticService中添加如下查询文档的方法。
  上述代码定义了文档查询方法search,具体步骤为:定义SearchRequest对象,设置SearchSourceBuilder,执行查询,获取查询结果,将查询结果的数据存入List,返回查询结果。
  (10)删除文档:在BaseElasticService中添加如下删除文档的方法。
  上述代码定义了deleteBatch方法用于根据文档id批量删除文档,具体步骤为:定义BulkRequest对象;遍历List,将Index和待删除文档id封装到BulkRequest;执行批量删除操作。
  (11)执行文档的新增操作测试:在DocumentAPITest中添加文档的新增测试用例,并按照如下代码测试文档的新增操作。
  上述代码定义了添加文档测试用例AddAPITest,添加文档分为单个文档添加和批量文档添加。需要注意的是,上述代码将Map的数据结构转换为JSON字符串后作为文档内容添加到ElasticSearch。
  (12)执行文档的查询操作测试:在DocumentAPITest中添加文档的查询测试用例,并按照如下代码测试文档的查询操作。
  (13)执行文档的删除操作测试:当文档不再被需要时,应用程序可以执行如下代码根据文档id删除文档。

早春到,来泉城赏花吧!泉城济南,作为以泉而傲的北方城市来说,早春是乍暖还寒的。各种花草像是排着队开的,先是蜡梅花,沁人心扉的香气从千佛山上飘下来,接着趵突泉五龙潭大明湖,渐渐地整个城到处都可以嗅到她的芳梦幻西游2月15日159级账号价格统计以及经验衰减表梦幻西游2月15日159级账号价格统计(截取当天藏宝阁最低价格)159级垃圾空号最低价2438元159级物理系人物3修25最低价6350元159级物理系人物3修25,宠修攻法双20退休后,才发现一个朋友也没有,往往说明了两个问题俗话说贫在闹巷无人问,复在深山有远亲。一个人在富有的时候,无论你到哪里身边都有会有一些人围绕着你一个人如果贫困了,就算你身边有很多的人,这些人也会渐渐的离你远去。人往往都是这样,往强强对决,红米K60死磕一加Ace2,3000块钱到底选谁?自从有了百亿补贴之后,一加的底气也足了,在产品的定价上也更加激进了。一加今年可以说是来势汹汹,而且针对性很强。一加的目标只有一个,用性价比抢夺市场份额,同时将2023年的焊门员红米百业开春海南开海季近海鱼少了,渔民如何闯深海渔民张家盛正月初九就从位于海南儋州的白马井南司码头出海了。他嚼着槟榔,驾驶着一艘十余米长的渔船从码头出发,向大海方向缓缓开去。白马井镇是海南省儋州市的渔业重镇,白马井南司码头是儋州中国白酒产量连续6年下降,高端化角逐不断加剧在经历了白酒产量自2017年首次下降后,截至2022年中国白酒累计产量已连续六年下跌。近日,国家统计局数据显示,2022年112月,全国白酒累计产量671。2万千升,同比下滑5。6私募也迎小阳春!百亿大佬杨东新品卖出27个亿,外资巨头桥水旗下产品被秒杀记者穆玥编辑又出爆款产品了!据中国基金报,近期,由百亿私募宁泉资产担当投资顾问的信托计划宁泉兴益系列产品,投资起点50万元,封闭期两年,2月6日到2月17日在兴业银行渠道销售,截至突发!千亿市值公司实际控制人之一去世!旗下拥有控股公司超400家2月16日,温氏股份(300498。SZ,19。44元股,总市值1274。1亿元)公告,公司实际控制人之一温子荣于2月16日因病去世。温子荣直接持有公司股份985万股,占公司股份总A股跳水的原因找到了!接下来市场怎么走?2月17日大盘走势预判先说跳水的原因一是一份协议,二是突然停飞,三是获利兑现开始调仓。其实这就是一个连贯性的情绪爆发,由消息的引子导致集体恐慌的结果。没什么好说的,一点五十三分提示之前做的加法先落袋,留贾跃亭已订机票本周就能回国?知情人士给出答案CNMO新闻2月16日,有消息称,贾跃亭已订东航机票,将于本周从美国纽约飞回国内。2月15日晚,法拉第未来(FaradayFuture)有关负责人对上述消息不予置评。不过,有接近法深度蒋卫平的江湖豪赌大赚200多亿,蒋卫平在2022年站上了人生巅峰。蒋卫平,今年68岁,其先后在成都机械厂,四川省九三学社和中国农业机械西南公司工作,1997年下海创业,04年通过并购正式进入锂资源
扁臀对气质影响有多大?看完这几组穿衣对比图后,你就知道了也许纤细的身材会让人步入小美女的行列,但想要迈入大美女的队伍,细腰翘臀没有可不行姐妹们可千万别小瞧臀型的重要性,知道扁臀对气质的影响有多大吗?来看看下面这些穿衣对比就知道了,差距真顺境不傲,逆境不忧,绝境不慌生活中,我们永远不知道下一刻会发生什么。面对种种人生境遇,得意不忘形,失意不失态,方能行稳致远。01顺境不傲看过一个概念,叫顺境管理,说的是人在特别顺的时候,一定要稳住自己的势头。世界上最大的愚蠢好为人师有这样一句歌词Donttalktoadogatrainingdays。它的创作,源自一则有趣的故事行人看到大雨中漫步的小狗,觉得十分可怜,便有意为其撑伞。可小狗回头抗拒,用眼神示意青未了一生相依一生相依(谭玉峰)风儿有多大我不知道雨儿有多大我不知道但我知道,这世界上最温暖的是你的怀抱你是家的折伞你是爱的源泉几月怀胎我不知道几十生人我难知晓但是我知道,在生命中最热恋的是你的晨读夜半香来巴西木开花了,香气就像是黏糊糊的面糊糊,浓度黏度厚度重度都远超别的花。半夜醒来。突然,感觉到一阵浓烈的香气以排山倒海之势猛烈撞击我的肺部。如果在海边,那就是令人头晕目眩的海啸。我想豫法品读丨一个人最大的本事认清自己朗读者郑州自贸区法院王锟认清自己的内心所爱不管什么时候,都要选择遵从自己的内心,因为只有听从内心的声音,你才能找到自己终身热爱的事情,并源源不断投入其中。每个人都有自己的活法,关键珍惜当下,是对生活最大的温柔沈从文说我们相爱一生,一生还是太短。在我们转瞬即逝的一生中,总有一份情感会穿越时光斑斓的光影,带我们找回曾经的悸动与热情。生活总有遗憾,如果能够跟曾经相爱的人重逢,你又会有怎样的心佛系养龟,其实要做的事就不多,但有一样不能落下佛系,虽然是网络用词,但表达的是一种无欲无求不悲不喜云淡风轻而追求内心平和的生活态度。现在社会生存的压力越来越大,再加上外界的环境不好,我们很多新一代年轻人都选择了躺平。我觉得这也3天新增超3000例感染者,出行的人去哪了?来源人民日报健康客户端根据国家卫健委数据统计发现,中秋假期三天,31个省(自治区直辖市)和新疆生产建设兵团累计报告新增本土确诊病例531例,本土无症状感染者2471例。假期出行。中2022年,路由器选购指南(300元以下)注根据价格分四个区间,价格选自京东自营历史最低价,运营商版本选自拼多多常购价TPLINKXDR3010易展版3000M225元功率待机功率6W,整机功率11W接口4千兆网口(支持盲Win10LTSC2021占用高怎么办?终极解决方法来了windows11虽然发布已经有一段时间了,小弟虽然不才但也是方圆几千米第一个用上win11的靓仔。但是,一定还有很多小伙伴一直在坚守Win10,就像当初坚守win7一样额,其实我