BeautifulSoup简称BS4(其中4表示版本号)是一个Python第三方库,它可以从HTML或XML文档中快速地提取指定的数据。BeautifulSoup语法简单,使用方便,并且容易理解,因此您可以快速地学习并掌握它。本节我们讲解BS4的基本语法。BS4下载安装 由于BautifulSoup是第三方库,因此需要单独下载,下载方式非常简单,执行以下命令即可安装:pip install bs41复制代码类型:[python] 由于BS4解析页面时需要依赖文档解析器,所以还需要安装lxml作为解析库:pip install lxml1复制代码类型:[python] Python也自带了一个文档解析库html.parser,但是其解析速度要稍慢于lxml。除了上述解析器外,还可以使用html5lib解析器,安装方式如下:pip install html5lib1复制代码类型:[python] 该解析器生成HTML格式的文档,但速度较慢。 "解析器容错"指的是被解析的文档发生错误或不符合格式时,通过解析器的容错性仍然可以按照既定的正确格式实现解析。BS4解析对象 创建BS4解析对象是万事开头的第一步,这非常地简单,语法格式如下所示:#导入解析包 from bs4 import BeautifulSoup #创建beautifulsoup解析对象 soup = BeautifulSoup(html_doc, "html.parser")1234复制代码类型:[python]BS4常用语法 下面对爬虫中经常用到的BS4解析方法做详细介绍。 BeautifulSoup将HTML文档转换成一个树形结构,该结构有利于快速地遍历和搜索HTML文档。下面使用树状结构来描述一段HTML文档:开课吧广场 topic.kaikeba.com
一个学习编程的网站