使用Scrapy爬取豌豆荚全网70000App,并进行探索性分析。若对数据抓取部分不感兴趣,可以直接下拉到数据分析部分。 一、分析背景 之前我们使用了Scrapy爬取并分析了酷安网6000App,为什么这篇文章又在讲抓App呢? 因为我喜欢折腾App,哈哈。当然,主要是因为下面这几点: 第一、之前抓取的网页很简单 在抓取酷安网时,我们使用for循环,遍历了几百页就完成了所有内容的抓取,非常简单,但现实往往不会这么easy,有时我们要抓的内容会比较庞大,比如抓取整个网站的数据,为了增强爬虫技能,所以本文选择了豌豆荚这个网站。 目标是:爬取该网站所有分类下的App信息并下载App图标,数量在70,000左右,比酷安升了一个数量级。 第二、再次练习使用强大的Scrapy框架 之前只是初步地使用了Scrapy进行抓取,还没有充分领会到Scrapy有多么牛逼,所以本文尝试深入使用Scrapy,增加随机UserAgent、代理IP和图片下载等设置。 第三、对比一下酷安和豌豆荚两个网站 相信很多人都在使用豌豆荚下载App,我则使用酷安较多,所以也想比较一下这两个网站的App特点。 话不多说,下面开始抓取流程。 1。分析目标 首先,我们先来了解一下要抓取的豌豆荚网页是什么样的,可以看到该网站上的App分成了很多类,包括:应用播放、系统工具等,一共有14个大类别,每个大类下又细分了多个小类,例如,影音播放下包括:视频、直播等。 点击视频进入第二级子类页面,可以看到每款App的部分信息,包括:图标、名称、安装数量、体积、评论等。 接着,我们可以再进入第三级页面,也就是每款App的详情页,可以看到多了下载数、好评率、评论数这几样参数,抓取思路和第二级页面大同小异,同时为了减小网站压力,所以App详情页就不抓取了。 所以,这是一个分类多级页面的抓取问题,依次抓取每一个大类下的全部子类数据。 学会了这种抓取思路,很多网站我们都可以去抓,比如很多人爱爬的豆瓣电影也是这样的结构。 2。分析内容 数据抓取完成后,本文主要是对分类型数据的进行简单的探索性分析,包括这么几个方面: 下载量最多最少的App总排名; 下载量最多最少的App分类子分类排名; App下载量区间分布; App名称重名的有多少; 和酷安App进行对比。 3。分析工具 Python Scrapy MongoDB Pyecharts Matplotlib 二、数据抓取 1。网站分析 我们刚才已经初步对网站进行了分析,大致思路可以分为两步,首先是提取所有子类的URL链接,然后分别抓取每个URL下的App信息就行了。 可以看到,子类的URL是由两个数字构成,前面的数字表示分类编号,后面的数字表示子分类编号,得到了这两个编号,就可以抓取该分类下的所有App信息,那么怎么获取这两个数值代码呢? 回到分类页面,定位查看信息,可以看到分类信息都包裹在每个li节点中,子分类URL则又在子节点a的href属性中,大分类一共有14个,子分类一共有88个。 到这儿,思路就很清晰了,我们可以用CSS提取出全部子分类的URL,然后分别抓取所需信息即可。 另外还需注意一点,该网站的首页信息是静态加载的,从第2页开始是采用了Ajax动态加载,URL不同,需要分别进行解析提取。 2。Scrapy抓取 我们要爬取两部分内容,一是APP的数据信息,包括前面所说的:名称、安装数量、体积、评论等;二是下载每款App的图标,分文件夹进行存放。 由于该网站有一定的反爬措施,所以我们需要添加随机UA和代理IP,关于这两个知识点,我此前单独写了两篇文章进行铺垫,传送门: Scrapy中设置随机UserAgent的方法汇总 Python爬虫的代理IP设置方法汇总 这里随机UA使用scrapyfakeuseragent库,一行代码就能搞定,代理IP直接上阿布云付费代理,几块钱搞定简单省事。 下面,就直接上代码了: (1)items。py (2)middles。py 中间件主要用于设置代理IP。 (3)。py 该文件用于存储数据到MongoDB和下载图标到分类文件夹中。 存储到MongoDB: 按文件夹下载图标: (4)settings。py (5)wandou。py 主程序这里列出关键的部分: 这里,首先定义几个URL,包括:分类页面、子分类首页、子分类AJAX页,也就是第2页开始的URL,然后又定义了一个类Getcategory()专门用于提取全部的子分类URL,稍后我们将展开该类的代码。 程序从startrequests开始运行,解析首页获得响应,调用getcategory()方法,然后使用Getcategory()类中的parsecategory()方法提取出所有URL,具体代码如下: 这里,除了分类名称catename可以很方便地直接提取出来,分类编码和子分类的子分类的名称和编码,我们使用了getcategorycode()等三个方法进行提取。提取方法使用了CSS和正则表达式,比较简单。 最终提取的分类名称和编码结果如下,利用这些编码,我们就可以构造URL请求开始提取每个子分类下的App信息了。 接着前面的getcategory()继续往下写,提取App的信息: 这里,依次提取出全部的分类名称和编码,用于构造请求的URL。由于首页的URL和第2页开始的URL形式不同,所以使用了if语句分别进行构造。接下来,请求该URL然后调用self。parse()方法进行解析,这里使用了meta参数用于传递相关参数。 最后,parse()方法用来解析提取最终我们需要的App名称、安装量等信息,解析完成一页后,page进行递增,然后重复调用parse()方法循环解析,直到解析完全部分类的最后一页。 最终,几个小时后,我们就可以完成全部App信息的抓取,我这里得到73,755条信息和72,150个图标,两个数值不一样是因为有些App只有信息没有图标。 图标下载: 下面将对提取的信息,进行的数据分析。 三、数据分析 1。总体情况 首先来看一下App的安装量情况,毕竟70000多款App,自然很感兴趣哪些App使用地最多,哪些又使用地最少。 代码实现如下: 看了上图,有两个没想到: 排名第一的居然是一款手机管理软件对豌豆荚网上的这个第一名感到意外,一是,好奇大家都那么爱手机清理或者怕中毒么?毕竟,我自己的手机都裸奔了好些年;二是,第一名居然不是鹅厂的其他产品,比入微信或者QQ。 榜单放眼望去,以为会出现的没有出现,没有想到的却出现了前十名中,居然出现了书旗小说、印客这些比较少听过的名字,而国民App微信、支付宝等,甚至都没有出现在这个榜单中。 带着疑问和好奇,分别找到了腾讯手机管家和微信两款App的主页: 腾讯手机管家下载和安装量: 微信下载和安装量: 这是什么情况? 腾讯管家3亿多的下载量等同于安装量,而微信20多亿的下载量,只有区区一千多万的安装量,两组数据对比,大致反映了两个问题: 要么是腾讯管家的下载量实际并没有那么多? 要么是微信的下载量写少了? 不管是哪个问题,都反映了一个问题:该网站做得不够走心啊。 为了证明这个观点,将前十名的安装量和下载量都作了对比,发现很多App的安装量都和下载量是一样的,也就是说:这些App的实际下载量并没有那么多,而如果这样的话,那么这份榜单就有很大水分了。 难道,辛辛苦苦爬了那么久,就得到这样的结果? 不死心,接着再看看安装量最少的App是什么情况,这里找出了其中最少的10款: 扫了一眼,更加没想到了:QQ音乐竟然是倒数第一,竟然只有3次安装量! 确定这和刚刚上市、市值千亿的QQ音乐是同一款产品? 再次核实了一下: 没有看错,是写着3人安装! 这是已经不走心到什么程度了?这个安装量,鹅厂还能用心做好音乐? 说实话,到这儿已经不想再往下分析下去了,担心爬扒出更多没想到的东西,不过辛苦爬了这么久,还是再往下看看吧。 看了首尾,我们再看看整体,了解一下全部App的安装数量分布,这里去除了有很大水分的前十名App。 很惊讶地发现,竟然有多达67,195款,占总数的94的App的安装量不足1万! 如果这个网站的所有数据都是真的话,那么上面排名第一的手机管家,它一款就差不多抵得上这6万多款App的安装量了! 对于多数App开发者,只能说:现实很残酷,辛苦开发出来的App,用户不超过1万人的可能性高达近95。 代码实现如下: 2。分类情况 下面,我们来看看各分类下App情况,不再看安装量,而看数量,以排出干扰。 可以看到14个大分类中,每个分类的App数量差距都不大,数量最多的生活休闲是摄影图像的两倍多一点。 接着,我们进一步看看88个子分类的App数量情况,筛选出数量最多和最少的10个子类: 可以发现两点有意思的现象: 收音机类别App数量最多,达到1,300多款这个很意外,当下收音机完全可以说是个老古董了,居然还有那么人去开发。 App子类数量差距较大最多的收音机是最少的动态壁纸近20倍,如果我是一个App开发者,那我更愿意去尝试开发些小众类的App,竞争小一点,比如:背单词、小儿百科这些。 看完了总体和分类情况,突然想到一个问题:这么多App,有没有重名的呢? 惊奇地发现,叫一键锁屏的App多达40款,这个功能App很难再想出别的名字了么?现在很多手机都支持触控锁屏了,比一键锁屏操作更加方便。 接下来,我们简单对比下豌豆荚和酷安两个网站的App情况。 3。对比酷安 二者最直观的一个区别是在App数量上,豌豆荚拥有绝对的优势,达到了酷安的十倍之多,那么我们自然感兴趣:豌豆荚是否包括了酷安上所有的App? 如果是,你有的我都有,你没有的我也有,那么酷安就没什么优势了。统计之后,发现豌豆荚仅包括了3,018款,也就是一半左右,剩下的另一半则没有包括。 这里面固然存在两个平台上App名称不一致的现象,但更有理由相信酷安很多小众的精品App是独有的,豌豆荚并没有。 代码实现如下: 接下来,我们看看所包含的App当中,在两个平台上的下载量是怎么样的: 可以看到,两个平台上App下载数量差距还是很明显。 最后,我面再看看豌豆荚上没有包括哪些APP: 可以看到很多神器都没有包括,比如:RE、绿色守护、一个木函等等。豌豆荚和酷安的对比就到这里,如果用一句话来总结,我可能会说:豌豆荚太牛逼了,App数量是酷安的十倍,所以我选酷安。 以上,就是利用Scrapy爬取分类多级页面的抓取和分析的一次实战。