保健励志美文体育育儿作文
投稿投诉
作文动态
热点娱乐
育儿情感
教程科技
体育养生
教案探索
美文旅游
财经日志
励志范文
论文时尚
保健游戏
护肤业界

Python项目实战某瓣热门电影分析(爬虫数据分析)

  项目需求获取某瓣前100名热门电影详细内容,包括:名称、类型、制片国家、语言、上映时间、片长、评分、评价人数。根据获取的数据分析,包括:上映时间分布情况、评分分布情况、类型分布情况项目难点获取数据时,有部分内容保存在
  下,无法直接使用Xpath获取上映时间有多个,按照国内上映时间分布,这里需要处理一下类型分布中,一个电影多个类型,需要分解处理
  这个是本文的重点。数据抓取在进行实际的数据抓取的过程中,发现数据实际保存在Json数据包中,原网页无法获取,前100名电影的实际地址。每一页只显示20个数据,且每次以20个为一组的新增。Json我们需要的url数据保存在〔subjects〕〔m〕〔url〕中,其中m为循环,每一组循环20次。代码实例获取前100名电影的实际url地址defgetmoveurl():moveurl〔〕foriinrange(0,100,20):urlfhttps:xxx。xxx。xxxjsearchsubjects?typemovietag热门sortrecommendpagelimit20pagestart{i}rresponseget(urlurl,headersheaders)。json()forminrange(20):moveurl。append(rresponse〔subjects〕〔m〕〔url〕)returnmoveurl根据每个url地址,获取相应的内容,注意br下内容、上映时间,这里全部处理,并保存excel文件。defgetdata():moveurlgetmoveurl()dfpd。DataFrame(columns〔电影名,电影类型,制片国家,语言,上映时间,片长,评分,评价人数〕)forminrange(len(moveurl)):rresopnseget(urlmoveurl〔m〕,headersheaders)。textresSelector(rresopnse)nameres。xpath(〔idcontent〕h1span〔1〕text())。get()movetyperes。xpath(span〔propertyv:genre〕text())。getall()!上映时间需要处理,以第一个时间为基准,且还要去掉()里面的内容movetimeres。xpath(span〔propertyv:initialReleaseDate〕text())。getall()movetimeMoveTime(movetimemovetime)movelenres。xpath(span〔propertyv:runtime〕text())。get()movelenMoveLen(movelenmovelen)movescoreres。xpath(〔idinterestsectl〕p〔1〕p〔2〕strongtext())。get()movepeoplenumres。xpath(〔idinterestsectl〕p〔1〕p〔2〕pp〔2〕aspantext())。get()!语言与制片地区在
  下,需要特殊处理movebrres。xpath(htmlbodyp〔3〕p〔1〕p〔2〕p〔1〕p〔1〕p〔1〕p〔1〕p〔2〕descendantorself::text())。getall()foriinrange(len(movebr)):ifmovebr〔i〕制片国家地区::countrymovebr〔i1〕?去除里面所有的空格movecountrycountry。replace(,)elifmovebr〔i〕语言::languagemovebr〔i1〕movelanguagelanguage。replace(,)!后面就不需要了breakdf。loc〔m〕〔name,movetype,movecountry,movelanguage,movetime,movelen,movescore,movepeoplenum〕df。toexcel(。result。xlsx,indexFalse)上映时间的处理(以中国上映时间为基准,其他的取消)defMoveTime(movetime):?以中国上映时间为基准,去掉()与里面中文的内容timere。sub(〔一龥〕,,movetime〔0〕)?测试时,发现有些数据不是很全面,用下列方法,多次删除无用数据timetime。strip(()。strip())。strip(r)。strip(()returntime时长处理,取消分钟和()defMoveLen(movelen):!注意时长类型byte需要修改为strlenre。sub(〔一龥〕,,str(movelen))lenlen。strip(())returnlen数据分析上映时间分布
  df2df〔上映时间〕。valuecounts()评分情况分布plt。figure(figsize(20,8),dpi80)plt。hist(df〔评分〕。values,bins20)maxdf〔评分〕。max()mindf〔评分〕。min()t1np。linspace(min,max,21)plt。xticks(t1)plt。show()电影类型分布(重点)!电影类型分布movetypedf〔电影类型〕。str。split(,)movetypemovetype。apply(pd。Series)movetypemovetype。apply(pd。valuecounts)movetype。unstack()movetypemovetype。unstack()。dropna()。resetindex()movetype。columns〔level0,type,counts〕movietypemmovetype。drop(〔level0〕,axis1)。groupby(type)。sum()。sortvalues(by〔counts〕,ascendingFalse)。resetindex()print(movietypem〔counts〕。tolist())sizemovietypem〔counts〕。tolist()namemovietypem〔type〕。tolist()colors〔steelblue,9999ff,red,indianred,green,yellow,orange〕plotsquarify。plot(sizessize,指定绘图数据colorcolors,指定定义颜labelname,指定标签valuesize,添加数值标签alpha0。6,指定透明度edgecolorwhite,设置边界框为linewidth3设置边框宽度为3)plt。rc(font,size12)设置标题plot。settitle(电影类型分布情况,fontdict{fontsize:20})去除坐标轴plt。axis(off)去除上边框和右边框刻度plt。tickparams(topoff,rightoff)plt。rcParams〔font。sansserif〕〔SimHei〕plt。rcParams〔axes。unicodeminus〕False显图形plt。show()重点提示显示中文时,出现了中文乱码的情况,这里给出处理方法plt。rcParams〔font。sansserif〕〔SimHei〕plt。rcParams〔axes。unicodeminus〕False获取br里的内容是全部的,需要根据实际情况分析,获取指定内容movebrres。xpath(htmlbodyp〔3〕p〔1〕p〔2〕p〔1〕p〔1〕p〔1〕p〔1〕p〔2〕descendantorself::text())。getall()foriinrange(len(movebr)):ifmovebr〔i〕制片国家地区::countrymovebr〔i1〕?去除里面所有的空格movecountrycountry。replace(,)elifmovebr〔i〕语言::languagemovebr〔i1〕movelanguagelanguage。replace(,)!后面就不需要了break在数据获取时,发现了一些数据缺失的情况,这里没有进行处理,后续需要修正在进行电影类型分类分析时,存在科幻感〔科幻〕同时存在的情况,这里没有处理,后续需要更正未对每个类型的评分情况,进行分析,后续需要添加,在此记录一下。

工信部2022年大数据产业发展试点示范项目申报工作启动文羊城晚报全媒体记者许张超孙晶14日,工业和信息化部印发通知称,将组织开展2022年大数据产业发展试点示范项目申报工作(以下简称试点示范)。本次申报围绕数据要素市场培育、……湖北5亿!智慧物流科技产业园备案招标备案号:22044206508905494432项目名称:智慧物流科技产业园项目所在地:高新工业园项目总投资:50000。0万元项目规模及内容:计划……关于中秋节作文400字(通用5篇)在日常学习、工作抑或是生活中,大家最不陌生的就是作文了吧,作文是人们以书面形式表情达意的言语活动。那么你有了解过作文吗?以下是小编精心整理的关于中秋节作文400字(通用5篇),……多彩的课堂六年级作文500字校园课堂是丰富多彩的,而每一种颜色在课堂里又代表什么呢?想知道吗?那么你就耐心看下去!红色在我们这个班里红色代表兴奋。你看看我们班的同学一看下节信息课,都坐在位子上……数字化时代惊叹的文化内容创造在数字产业化和产业数字化的宏观政策推动下,移动互联网、云计算、物联网、云计算、人工智能等一系列信息技术从多个角度重塑着我们生活的方方面面,引发各行各业的蝶变与重生,我们正处于数……山东人脸识别系统告诉您该如何选择人脸识别门禁系统1、抗光线干扰能力一款好的人脸识别门禁系统除了系统稳定性外,还保证在:强逆光、弱光、黑夜、雨雾天能正常使用,若是室外应用,那么产品就要具备在逆光、光线不足的情况依旧能够准……关于外公的作文爱钓鱼的外公我的外公非常喜欢钓鱼,他钓起鱼来既专心又有耐心。他有时钓不到鱼也能呆坐在河边盯着鱼竿看半天。星期五我在外公家吃晚饭,吃饱晚饭是6点了,外公拿起鱼竿说:我去钓鱼了,我好奇地……寒假里的一件事日记500字寒假里的一件事日记一:愉快的寒假结束了,回想起来真是发生了不少有趣的事,给我印象最深的一件是爸爸教我俯卧撑。记得那是寒假的第一天,我早早的起了床,练起了老师留的特殊……无价的友情作文750字他人给你微笑,我们应欣然接受,他人对你愤怒,我们应该让他随风而逝,他人给你肯定,我们应该报以微笑。还记得那是一个寒冷的冬天,但是我们却面临人生的一道坎中考,过去的三年,整……苹果公司MagSafe可能变成无线数据传输系统4月15日上午消息(李文朋)苹果公司的MagSafe目前只是无线磁力充电装置,但在未来,它可能才是无线数据传输的关键。苹果公司一直在研究如何让MagSafe像现在的Lightn……这样的画面让我流连冬日走远,万物复苏。桃李悄露花苞,蜂儿寻蜜,鱼拥觅食,多旺盛的生命力呵!这画面令我流连。枯萎middot;复苏一株显出一丝绿意的草飘摇在萧瑟的秋日里,生命悄然走向终……黄昏苍穹残鸦初一作文黄昏夕阳无限好,只是近黄昏。这已是千百年前的感慨,也许在这千百年间也有无数人在同样感慨吧!夕阳固然好,只是已接近黄昏。说话间,黄昏又已悄悄来临,夕阳斜洒下来,把人们的影子……
家里两个电视怎么共用一个网络机顶盒?如题所述家里两台电视机,如何使用一个网络机顶盒进行电视观看?首先你要解决的问题,两台电视机是可以连接一个机顶盒,但问题是,两台电视机,同时观看电视节目,是相同的,这……牵动我内心的声音品学网专稿未经允许不得转载一句句言语,滋润干涸的心田。mdash;mdash;题记那年的风秋姐姐拿着一把蒲扇,扇动了枝叶,花草。秋风轻轻的,正如那轻轻的……风雨中半命题作文风雨中,这点痛算什么,擦干泪,不要怕,至少我们还有梦hellip;hellip;人生的路漫长,坎坷泥泞荆棘密布,一路走来难免会有好多的跌倒。下面一起随品学网小编欣赏一下风雨中半……苹果M1芯片首席设计师重返英特尔,负责SoC架构设计曾在苹果全权负责Mac系统的所有架构设计、信号完整性和电源完整性的首席设计师JeffWilcox日前宣布从苹果离职,一天前他公布自己新动向:将担任英特尔院士(IntelFell……百元梅林系统wifi6路由器推荐个百元梅林系统还是WiFi6的路由器:天邑ty6201A,多多有卖刷好的到手即用。和华硕ax56u热血版配置基本相同:博通BCM6755四核处理器、128M闪存、512M内……暖暖的,很贴心生活是五彩斑斓的,而这其中,感觉到暖心,感觉到贴心,是最为重要的!面对大海,任由海风吹乱发梢,是舒畅的;和同伴一起游玩嬉戏,探索道路的奥秘,是开心的;寒冷天气,大家一起享……献给维新种子的话维新,还记得我们一年级时的打打闹闹,考试没考好也照样出去疯闹。二年级,考试没考好心里有一些微微的痛楚,而你一直名列前茅。三年级,考试没考好已经成了一种痛苦,这时我看……面包情小学作文每天在学校期间,跟老师朝夕相处,都会发生许许多多的事情。但在我的记忆中,让我印象最深刻的一件事就是那次老师给我买面包了。那是上学期的一个中午,我正准备吃饭,可打开袋子时,……有关秋游记的作文5篇秋游记作文200字太好了,终于到了秋游的时候了!我们排着整齐的队伍,一个接着一个地上了旅游大巴。出发啦!大家高兴地像绽开鲜花一样。路边各种花草仿佛在向我们招手,祝我们旅游……欣的换装被发现了ldquo;喂,是欣吗?rdquo;(猜下是哪位帅哥给欣打电话了?嘿嘿,不是帅哥呦,是欣的好朋友琪哦,还记得么前两天。欣打电话给琪,叫她来假装自己,可是这几天和妈妈大战,居然忘……走进高三优秀作文集锦走进高三在这美好的高三中,让我们奋斗吧mdash;mdash;题记在9月1日上午7:00,早自习开始的铃声音起时,我们正式步入高三了,躲也躲不开的高三。……难忘的校园生活作文欣赏当微风轻柔地托起一丝丝柳絮的时候;当太阳把它金色的光辉悄然披在一棵棵俊俏的樱花树上的时候;当美丽的花瓣在空中悠悠的打几个卷儿,再轻轻落地的时候,我们正在享受这烂漫的校园生活。走……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网