童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

分析了豌豆荚7万款App,全是万万没想到

11月15日 寒霜坞投稿
  使用Scrapy爬取豌豆荚全网70000App,并进行探索性分析。若对数据抓取部分不感兴趣,可以直接下拉到数据分析部分。
  一、分析背景
  之前我们使用了Scrapy爬取并分析了酷安网6000App,为什么这篇文章又在讲抓App呢?
  因为我喜欢折腾App,哈哈。当然,主要是因为下面这几点:
  第一、之前抓取的网页很简单
  在抓取酷安网时,我们使用for循环,遍历了几百页就完成了所有内容的抓取,非常简单,但现实往往不会这么easy,有时我们要抓的内容会比较庞大,比如抓取整个网站的数据,为了增强爬虫技能,所以本文选择了豌豆荚这个网站。
  目标是:爬取该网站所有分类下的App信息并下载App图标,数量在70,000左右,比酷安升了一个数量级。
  第二、再次练习使用强大的Scrapy框架
  之前只是初步地使用了Scrapy进行抓取,还没有充分领会到Scrapy有多么牛逼,所以本文尝试深入使用Scrapy,增加随机UserAgent、代理IP和图片下载等设置。
  第三、对比一下酷安和豌豆荚两个网站
  相信很多人都在使用豌豆荚下载App,我则使用酷安较多,所以也想比较一下这两个网站的App特点。
  话不多说,下面开始抓取流程。
  1。分析目标
  首先,我们先来了解一下要抓取的豌豆荚网页是什么样的,可以看到该网站上的App分成了很多类,包括:应用播放、系统工具等,一共有14个大类别,每个大类下又细分了多个小类,例如,影音播放下包括:视频、直播等。
  点击视频进入第二级子类页面,可以看到每款App的部分信息,包括:图标、名称、安装数量、体积、评论等。
  接着,我们可以再进入第三级页面,也就是每款App的详情页,可以看到多了下载数、好评率、评论数这几样参数,抓取思路和第二级页面大同小异,同时为了减小网站压力,所以App详情页就不抓取了。
  所以,这是一个分类多级页面的抓取问题,依次抓取每一个大类下的全部子类数据。
  学会了这种抓取思路,很多网站我们都可以去抓,比如很多人爱爬的豆瓣电影也是这样的结构。
  2。分析内容
  数据抓取完成后,本文主要是对分类型数据的进行简单的探索性分析,包括这么几个方面:
  下载量最多最少的App总排名;
  下载量最多最少的App分类子分类排名;
  App下载量区间分布;
  App名称重名的有多少;
  和酷安App进行对比。
  3。分析工具
  Python
  Scrapy
  MongoDB
  Pyecharts
  Matplotlib
  二、数据抓取
  1。网站分析
  我们刚才已经初步对网站进行了分析,大致思路可以分为两步,首先是提取所有子类的URL链接,然后分别抓取每个URL下的App信息就行了。
  可以看到,子类的URL是由两个数字构成,前面的数字表示分类编号,后面的数字表示子分类编号,得到了这两个编号,就可以抓取该分类下的所有App信息,那么怎么获取这两个数值代码呢?
  回到分类页面,定位查看信息,可以看到分类信息都包裹在每个li节点中,子分类URL则又在子节点a的href属性中,大分类一共有14个,子分类一共有88个。
  到这儿,思路就很清晰了,我们可以用CSS提取出全部子分类的URL,然后分别抓取所需信息即可。
  另外还需注意一点,该网站的首页信息是静态加载的,从第2页开始是采用了Ajax动态加载,URL不同,需要分别进行解析提取。
  2。Scrapy抓取
  我们要爬取两部分内容,一是APP的数据信息,包括前面所说的:名称、安装数量、体积、评论等;二是下载每款App的图标,分文件夹进行存放。
  由于该网站有一定的反爬措施,所以我们需要添加随机UA和代理IP,关于这两个知识点,我此前单独写了两篇文章进行铺垫,传送门:
  Scrapy中设置随机UserAgent的方法汇总
  Python爬虫的代理IP设置方法汇总
  这里随机UA使用scrapyfakeuseragent库,一行代码就能搞定,代理IP直接上阿布云付费代理,几块钱搞定简单省事。
  下面,就直接上代码了:
  (1)items。py
  (2)middles。py
  中间件主要用于设置代理IP。
  (3)。py
  该文件用于存储数据到MongoDB和下载图标到分类文件夹中。
  存储到MongoDB:
  按文件夹下载图标:
  (4)settings。py
  (5)wandou。py
  主程序这里列出关键的部分:
  这里,首先定义几个URL,包括:分类页面、子分类首页、子分类AJAX页,也就是第2页开始的URL,然后又定义了一个类Getcategory()专门用于提取全部的子分类URL,稍后我们将展开该类的代码。
  程序从startrequests开始运行,解析首页获得响应,调用getcategory()方法,然后使用Getcategory()类中的parsecategory()方法提取出所有URL,具体代码如下:
  这里,除了分类名称catename可以很方便地直接提取出来,分类编码和子分类的子分类的名称和编码,我们使用了getcategorycode()等三个方法进行提取。提取方法使用了CSS和正则表达式,比较简单。
  最终提取的分类名称和编码结果如下,利用这些编码,我们就可以构造URL请求开始提取每个子分类下的App信息了。
  接着前面的getcategory()继续往下写,提取App的信息:
  这里,依次提取出全部的分类名称和编码,用于构造请求的URL。由于首页的URL和第2页开始的URL形式不同,所以使用了if语句分别进行构造。接下来,请求该URL然后调用self。parse()方法进行解析,这里使用了meta参数用于传递相关参数。
  最后,parse()方法用来解析提取最终我们需要的App名称、安装量等信息,解析完成一页后,page进行递增,然后重复调用parse()方法循环解析,直到解析完全部分类的最后一页。
  最终,几个小时后,我们就可以完成全部App信息的抓取,我这里得到73,755条信息和72,150个图标,两个数值不一样是因为有些App只有信息没有图标。
  图标下载:
  下面将对提取的信息,进行的数据分析。
  三、数据分析
  1。总体情况
  首先来看一下App的安装量情况,毕竟70000多款App,自然很感兴趣哪些App使用地最多,哪些又使用地最少。
  代码实现如下:
  看了上图,有两个没想到:
  排名第一的居然是一款手机管理软件对豌豆荚网上的这个第一名感到意外,一是,好奇大家都那么爱手机清理或者怕中毒么?毕竟,我自己的手机都裸奔了好些年;二是,第一名居然不是鹅厂的其他产品,比入微信或者QQ。
  榜单放眼望去,以为会出现的没有出现,没有想到的却出现了前十名中,居然出现了书旗小说、印客这些比较少听过的名字,而国民App微信、支付宝等,甚至都没有出现在这个榜单中。
  带着疑问和好奇,分别找到了腾讯手机管家和微信两款App的主页:
  腾讯手机管家下载和安装量:
  微信下载和安装量:
  这是什么情况?
  腾讯管家3亿多的下载量等同于安装量,而微信20多亿的下载量,只有区区一千多万的安装量,两组数据对比,大致反映了两个问题:
  要么是腾讯管家的下载量实际并没有那么多?
  要么是微信的下载量写少了?
  不管是哪个问题,都反映了一个问题:该网站做得不够走心啊。
  为了证明这个观点,将前十名的安装量和下载量都作了对比,发现很多App的安装量都和下载量是一样的,也就是说:这些App的实际下载量并没有那么多,而如果这样的话,那么这份榜单就有很大水分了。
  难道,辛辛苦苦爬了那么久,就得到这样的结果?
  不死心,接着再看看安装量最少的App是什么情况,这里找出了其中最少的10款:
  扫了一眼,更加没想到了:QQ音乐竟然是倒数第一,竟然只有3次安装量!
  确定这和刚刚上市、市值千亿的QQ音乐是同一款产品?
  再次核实了一下:
  没有看错,是写着3人安装!
  这是已经不走心到什么程度了?这个安装量,鹅厂还能用心做好音乐?
  说实话,到这儿已经不想再往下分析下去了,担心爬扒出更多没想到的东西,不过辛苦爬了这么久,还是再往下看看吧。
  看了首尾,我们再看看整体,了解一下全部App的安装数量分布,这里去除了有很大水分的前十名App。
  很惊讶地发现,竟然有多达67,195款,占总数的94的App的安装量不足1万!
  如果这个网站的所有数据都是真的话,那么上面排名第一的手机管家,它一款就差不多抵得上这6万多款App的安装量了!
  对于多数App开发者,只能说:现实很残酷,辛苦开发出来的App,用户不超过1万人的可能性高达近95。
  代码实现如下:
  2。分类情况
  下面,我们来看看各分类下App情况,不再看安装量,而看数量,以排出干扰。
  可以看到14个大分类中,每个分类的App数量差距都不大,数量最多的生活休闲是摄影图像的两倍多一点。
  接着,我们进一步看看88个子分类的App数量情况,筛选出数量最多和最少的10个子类:
  可以发现两点有意思的现象:
  收音机类别App数量最多,达到1,300多款这个很意外,当下收音机完全可以说是个老古董了,居然还有那么人去开发。
  App子类数量差距较大最多的收音机是最少的动态壁纸近20倍,如果我是一个App开发者,那我更愿意去尝试开发些小众类的App,竞争小一点,比如:背单词、小儿百科这些。
  看完了总体和分类情况,突然想到一个问题:这么多App,有没有重名的呢?
  惊奇地发现,叫一键锁屏的App多达40款,这个功能App很难再想出别的名字了么?现在很多手机都支持触控锁屏了,比一键锁屏操作更加方便。
  接下来,我们简单对比下豌豆荚和酷安两个网站的App情况。
  3。对比酷安
  二者最直观的一个区别是在App数量上,豌豆荚拥有绝对的优势,达到了酷安的十倍之多,那么我们自然感兴趣:豌豆荚是否包括了酷安上所有的App?
  如果是,你有的我都有,你没有的我也有,那么酷安就没什么优势了。统计之后,发现豌豆荚仅包括了3,018款,也就是一半左右,剩下的另一半则没有包括。
  这里面固然存在两个平台上App名称不一致的现象,但更有理由相信酷安很多小众的精品App是独有的,豌豆荚并没有。
  代码实现如下:
  接下来,我们看看所包含的App当中,在两个平台上的下载量是怎么样的:
  可以看到,两个平台上App下载数量差距还是很明显。
  最后,我面再看看豌豆荚上没有包括哪些APP:
  可以看到很多神器都没有包括,比如:RE、绿色守护、一个木函等等。豌豆荚和酷安的对比就到这里,如果用一句话来总结,我可能会说:豌豆荚太牛逼了,App数量是酷安的十倍,所以我选酷安。
  以上,就是利用Scrapy爬取分类多级页面的抓取和分析的一次实战。
投诉 评论 转载

视频水印竞品调研分析本文作者通过调研了二十多个短视频产品的水印设计,发现其中一些常见的设计特点,并多维度地进行拆解分析,总结出以下产品设计中的亮点。用户使用情景:当用户使用短视频时浏览到一个……谈谈微信7。0的新功能本文主要是了解微信此次大升级的变化,了解微信新功能的产品战略、产品功能、产品表现以及产品体验等,分析微信新功能的优劣势和后续发展等。微信在去年年底更新了微信7。0的版本,……从4个方面聊聊多闪2018。1。15,字节跳动发布了一款新的社交产品“多闪”,个人体验了下该产品,下文进行一下简要的梳理和分析。一、产品简介多闪是字节跳动发布的一款社交产品,目标用户……使用5W1H原则分析小程序谁是小程序的用户?用户为什么要用小程序?用户什么时候会用小程序?用5W1H的原则,来分析小程序,会得出什么不一样的结论呢?作为一个产品经理,一开始我是拒绝小程序的。……竞品分析:直播吧VS懂球帝VSPP体育中国竞技赛事服务业目前处于高度依赖成熟版权的阶段,自主创新赛事仍需要长时间的耐心培养,现阶段资源整合联动与用户平台价值挖掘是重点,良性运转是探索变现模式的关键。一、前言……在线作业产品的基本构成与逻辑分解在线作业模式已经通过市场检验切实可行,本文将会对其基本结构进行分解。在线教育产品有:在线作业、录播课、直播课、一对一教学、题库等。本文选取英语在线作业系统,涉及教师、学生……分析了豌豆荚7万款App,全是万万没想到使用Scrapy爬取豌豆荚全网70000App,并进行探索性分析。若对数据抓取部分不感兴趣,可以直接下拉到数据分析部分。一、分析背景之前我们使用了Scrapy爬取并……如何快速着手分析一个陌生行业?四个步骤入手快速了解一个行业是咨询顾问的基础能力,体现着一个人的基本学习以及商业逻辑素养,同时,它也是分析师锻炼商业思维的一种捷径。在信息高速运转的今天,我们常常要快速熟悉一个陌生的……产品分析:揭秘美柚电商模块美柚是一款女性经期记录工具,随着用户量的累积,美柚中不仅增加了内容社区板块,并且也在一步步探索社区电商的商业化之路。由于美柚的电商化产品柚子街与美柚的电商模块差别不是很大……她说:校园社交小程序的野望本文分析了最近出的一款全新的社交小程序她说,与传统社交产品相比,“她说”有什么不同呢?2019开年第一文,威廉有一阵子没有发文章了,这段时间一直忙着在微信小程序的海洋里畅……产品分析:成长中的即刻即刻APP的定位是“年轻人的兴趣社区”,意在通过“关注跟踪推送”等一系列流程,帮助年轻人达成日常的兴趣爱好。一、产品简介即刻是一款基于兴趣的信息推送工具,初衷是改善……从HOOK模型复盘:为什么“有毒”的音遇能让你上瘾?音乐社交软件“音遇”,前阵子刚以黑马之姿搅动了沉寂许久的社交领域,甚至被人预言会成为下一个抖音。本文便从HOOK模型复盘,为什么“有毒”的音遇能让你上瘾?上个月,我的室友……
先别急着动手,让我们来把你的app思路过一遍产品心理学如何做一名会讲故事的PM16年前,人民日报是这样评价“微信他爹”张小龙的无往而不利群体心理学如果是张小龙做百度贴吧产品经理纯粹理性的产品经理:如何理性做产品真实案例记一次尝试性的用户研究用户的贪嗔痴:贪婪、偏见、无情、固执、懒惰、虚荣和喜新厌旧快播王欣发家史:从宅男程序员到“流氓”的转变进行高效沟通,做“五有”产品经理好的产品经理,都是半个心理医生为什么张小龙说好产品要用完即走?
怀孕生男生女猜测生男生女的五大误区质检员年度工作计划醉里偷生,我将不惆生活随笔蘑菇养颜功效大教你7种蘑菇的吃法我们班里的大明星开发商慌了!不仅免物业费,还送车位先用睫毛夹还是睫毛膏正确使用睫毛夹方法最憋屈的5个豪华品牌,降价也卖不动,懂车的都夸好!夫妻采用安全期避孕有哪些注意事项韩国一河流突现数百条死鱼民众呼吁调查美军基地热文聚热点网 放弃自杀的原因金钱树叶子发黄怎么办根部很容易因为积水而腐烂

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界