范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

Python爬虫抓取动态加载数据

  本节讲解如何抓取豆瓣电影"分类排行榜"中的电影数据(https://movie.douban.com/chart),比如输入"犯罪"则会输出所有犯罪影片的电影名称、评分,效果如下所示:剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史|战争|犯罪|西部|奇幻|冒险|灾难|武侠|古装|运动|黑色电影| 你想了解什么类型电影:犯罪 {"name": "肖申克的救赎", "score": 9.7} {"name": "控方证人", "score": 9.6} ... 电影总数量:302部123456复制代码类型:[python]确定网站类型
  首先要明确豆瓣电影网站的类型,即是动态还是静态。检查方法:右键查看网页源码—>搜索"辛德勒的名单"关键字,如下图所示:
  最终发现源码页中没有出现想要抓取的数据,只有一大堆的JS代码,由此确定该网站为动态网站。影片详情信息
  接下来,使用快捷键F12打开控制台进行抓包,点击NetWork选项卡—>XHR选项—>Preview选项卡—>刷新当前页面抓取数据包,如下图所示:
  从图2可知,我们想要抓取的数据取全部包含在当前的数据包中。当我们向下滚动鼠标滑轮时,左侧栏内的数据包会实现自动加载,这是使用Ajax异步加载技术实现的。
  通过查看数据Headers选项可以明确url地址、查询参数等信息,如下所示:
  从上图可以得知请求的基准URL(由于还未拼接查询参数,所以称之为基准URL),如下所示:"https://movie.douban.com/j/chart/top_list?"1复制代码类型:[python]
  继续滚动鼠标滑轮可知查询参数具有如下规律:type: 4  # 电影类型 interval_id: 100:90  #代表网页上滑动条的百分比(好于100%-90%的历史片) action: ""  # 空 start: 0  # 每次加载电影的起始索引值 0 20 40 60 limit: 20 # 每次加载的电影数量,1为初始值,后续加载时20固定不变12345复制代码类型:[python]
  注意:寻找规律时,后加载出来的数据包会排在最前面,除去第一个数据包外,其余数据包如下所示:影片总数量
  注意:第一个数据包反映了每个类型中电影的总数量,其url与响应信息如下:请求的URL地址 : https://movie.douban.com/j/chart/top_list_count?type=4&interval_id=100%3A90 Response信息:{"playable_count":41,"total":104,"unwatched_count":104}12复制代码类型:[java]影片类型与类型码
  影片的类型与类型码包含在电影排行榜的主界面中,如下所示:
  分析上述页面结构,然后使用正则表达式来提取想要的数据,并定义选择菜单"menu",代码如下所示:import re def get_all_type_films(self):     # 获取影片类型和类型码     url = "https://movie.douban.com/chart"     headers = self.get_headers()     html = requests.get(url=url, headers=headers).text     re_bds = r""     pattern = re.compile(re_bds, re.S)     r_list = pattern.findall(html)     # 存放所有类型和对应类型码大字典     type_dict = {}     # 定义一个选择电影类型的菜单     menu = ""     # r_list[{"剧情 , 11"},{},..]     for r in r_list:         type_dict[r[0].strip()] = r[1].strip()         # 获取input的菜单,显示所有电影类型         menu += r[0].strip() + "|"     #返回类型字典以供后续函数调用,并返回输入菜单menu     # {"剧情": "11", "喜剧": "24",...}     return type_dict, menu 12345678910111213141516171819202122复制代码类型:[python]编写完整程序
  完成上述分析后,下面开始编写Python爬虫程序,代码如下:#coding:utf8 import requests import time import random import re import json from ua_info import ua_list class DoubanSpider(object):     def __init__(self):         self.url = "https://movie.douban.com/j/chart/top_list?"         self.i = 0     # 获取随机headers     def get_headers(self):         headers = {"User-Agent":random.choice(ua_list)}         return headers     # 获取页面     def get_page(self,params):       # 将json转换为 python 数据类型,并返回       html = requests.get(url=self.url,params=params,headers=self.get_headers()).text       html=json.loads(html)       self.parse_page(html)     # 解析并保存数据     def parse_page(self,html):        item = {}         # html列表类型: [{电影1},{电影2},{电影3}...]        for one in html:             # 名称 + 评分            item["name"] = one["title"].strip()            item["score"] = float(one["score"].strip())            print(item)            self.i += 1     # 获取电影总数     def total_number(self,type_number):         # F12抓包抓到的地址,type表示电影类型         url = "https://movie.douban.com/j/chart/top_list_count?type={}&interval_id=100%3A90".format(type_number)         headers = self.get_headers()         html = requests.get(url=url,headers=headers).json()         total = int(html["total"])         return total     # 获取所有电影的类型和对应type值     def get_all_type_films(self):         # 获取类型与类型码         url = "https://movie.douban.com/chart"         headers = self.get_headers()         html = requests.get(url=url,headers=headers).text         re_bds = r""         pattern = re.compile(re_bds,re.S)         r_list = pattern.findall(html)         # 存放所有类型和对应类型码大字典         type_dict = {}         #定义一个选择电影类型的菜单         menu = ""         for r in r_list:             type_dict[r[0].strip()] = r[1].strip()             # 获取input的菜单,显示所有电影类型             menu += r[0].strip() + "|"         return type_dict,menu     # 主程序入口函数     def main(self):         # 获取type的值         type_dict,menu = self.get_all_type_films()         menu = menu + " 你想了解什么类型电影:"         name = input(menu)         type_number = type_dict[name]         # 获取电影总数         total = self.total_number(type_number)         for start in range(0,(total+1),20):            #构建查询参数             params = {                 "type" : type_number,                 "interval_id" : "100:90",                 "action" : "",                 "start" : str(start),                 "limit" : "20"             }             # 调用函数,传递params参数             self.get_page(params)             # 随机休眠1-3秒             time.sleep(random.randint(1,3))         print("电影总数量:%d部"%self.i ) if __name__ == "__main__":     spider = DoubanSpider()     spider.main()1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283复制代码类型:[python]
  输出示例:剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史|战争|犯罪|西部|奇幻|冒险|灾难|武侠|古装|运动|黑色电影| 你想了解什么类型电影:科幻 {"name": "盗梦空间", "score": 9.3} {"name": "星际穿越", "score": 9.3} {"name": "楚门的世界", "score": 9.3} {"name": "机器人总动员", "score": 9.3} {"name": "蝙蝠侠:黑暗骑士", "score": 9.2} {"name": "超感猎杀:完结特别篇", "score": 9.2} {"name": "新世纪福音战士 第0:0话 诞生之始", "score": 9.2} {"name": "少年骇客:变身之谜", "score": 9.2} ... ... 电影总数量:147部12345678910111213复制代码类型:[python]
  最后我们对抓取动态网站数据做简单地总结:
  1.确定网站是否为动态网站,通过查看源码搜索相应的关键字即可确定。
  2.动态网站主要通过异步方式加载数据。触发数据加载的JS事件主要有滚动鼠标滑轮、鼠标点击、拉动滚动条等有关动作,也有一些网站通过局部更新的方式加载数据,比如有道翻译案例。
  新闻资讯-开课吧广场_第1页

哈弗M6PLUS柳岩联名版今上市细节更时尚年轻今日晚间,哈弗M6PLUS柳岩联名版将正式上市,新车基于普通版打造,细节方面有所调整,通过简单的设计让新车变得更有新意,同时也有了一种时尚的风格更加年轻。新车详解基于简约精致运动的运用理性的标准去理解我们所处的世界这不仅是一部当下的启蒙,更像是一部关于人类进步的英雄史诗。史蒂芬平克对当前世界进行了全景式的评述,让读者了解人类状况的真相,人类面临怎样的挑战,以及该如何应对这些挑战。他呼吁我们避2022款玛莎拉蒂Levante上市售83。3892。38万日前,根据玛莎拉蒂官网信息2022款Levante正式上市。新车共推出2款配置,搭载2。0T和3。0T发动机,官方指导价区间为83。3892。38万元。其中,3。0T车型为新增的M书单推荐提升女性个人潜力的5本书如果你实在是丧到不行,又像凡尔赛式躺赢,让别人封你为YYDS,真的,不读点书都不太行。以下5本书可以完美提升你的个人潜力,思想思维层面,别再只知道看些无关痛痒的综艺和恋爱脑热播剧了书单推荐提升女性财商投资理财能力的5本书这年头不懂点理财的艺术还咋混,别张口闭口就是基金股票这些大家都会说的词,想理财会理财懂理财,想投资会投资懂投资这差了十万八千里,所以想要系统性了解理财知识,不妨读读以下5本书1。穷为什么华丽优美的文案往往无法转化为销售力?这是新媒体时代文案人必备指南。大卫奥格威将其列为奥美人必读7本书之首。为什么华丽优美的文案往往无法转化为销售力?为什么文案内容要越具体越好,笼统一些不是可以吸引更多的人吗?为什么文全民接力渡海峡杨过廉颇齐现身6月18日,2017首届中国全民健康团队接力快乐渡海峡活动取得圆满成功。近20名游泳爱好者通过团体接力的方式,历时11个多小时,从广东徐闻海安白沙滩成功游抵海口白沙门海滩。本次活动市值破2万亿美元!凭借云服务,微软市值追苹果文杨剑勇美股市场时常创历史新高,其中,科技巨头们则表现强劲。以苹果微软亚马逊谷歌为核心的四大科技巨头受到华尔街青睐,特别是苹果公司市值突破2万亿美元大关后,华尔街分析师们则开始关注翼联EDUP热烈举办父亲节观影活动父亲节前夕,深圳市翼联网络通讯有限公司(以下简称翼联EDUP)以感恩父爱致敬父亲为主题,组织全体员工热烈举办了父亲节观影活动。17日下午,全体员工齐聚一堂,为六月份的两位寿星送去了千万别让你的百兆宽带白白浪费!百兆宽带入户了,小伙伴不免得瑟一番。个破游戏,以前联通4M的时候,卡出翔。嘿嘿嘿,想不到,哥也会有今天!视频看不了,显示缓冲中,等到肚子都饿了,一部小电影还没看完,也是醉了!现在一品味巴厘岛风情百事可乐冰蓝来袭咖色可乐依旧深沉,于无人处,将百事痛饮心间。诞生于1898年的百事可乐(PEPSI),见证了风雨百年的历史变迁。没有茶的清冽酒的醇香,只在开怀畅饮中,任性自我,激荡平凡。保持时刻年
爆料红米骁龙855旗舰已敲定,5月发布价格有惊喜!随着小米9三星S10和iQOO的相继上市,正式宣告了高通骁龙855芯片被大规模应用。但面对动辄3000的骁龙855手机,仍有不少消费者大呼价格太贵买不起,希望市面上能出现性价比更高AirPods2ampx3D两台iPhone4,买爆!3月20日晚上,苹果悄无生息的在官网上架了新款AirPods和配套无线充电盒,目前已经可以预购,下周正式上市。纠结买哪代的小伙伴,可以看昨天的推文AirPods2抢手,一代二代该如iPad和iMac之后,苹果这款万众期待的产品终于更新了!在本月25日(北京时间26日凌晨1点),苹果的春季发布会将于总部史蒂夫乔布斯剧院正式召开,不过这次发布会的主角可能并不是硬件产品,根据外媒的爆料极有可能是AppleNews以及流媒外媒中国可能彻底停购波音737MAX!美国最担心的事情或发生?在掀起波音停飞潮之后,全球又开启了新一轮的多米诺骨牌效应。随着美国宣布审核波音737MAX8飞机的认证过程,加拿大和欧盟也表示将抛开美国,独立审核波音涉事机型的安全性。然而,这一次全面解析三星Spacemonitor折叠显示器那些秘密在今年1月的CES2019上,三星展出了一个全新的Spacemonitor系列显示器,极简的设计风格和精致的做工让人过目不忘,那么今天我们好好聊聊这款三星27英寸的Spacemon广播电视有线电视网络ampquot全国一网ampquot向前迈进如需转载请注明来源行业资讯据国家广播电视总局3月21日消息,国家广播电视总局今日宣布,在上午举行的全国有线电视网络融合发展战略合作签约活动上,中国广播电视网络有限公司与中国中信集团微软Office365更新全新保存页面IT之家3月22日消息去年12月,IT之家曾报道微软正在测试Office365的全新保存页面,现在微软已经面向Office365用户推送了这一更新。这是一种全新的,更快更直观的保存HMD生产的诺基亚7Plus被指向中国服务器传送数据据路透社报道,芬兰数据保护监察员周四表示,他们将针对诺基亚(Nokia)品牌手机是否违反数据规则展开调查。挪威公共广播公司NRK周四报道了HMD制造的一些Nokia7Plus机型会估值或高达1200亿美元!Uber可能在纽交所上市摘要彭博援引知情人士称,Uber最早将在4月向纽约交易所提交上市申请。此前,高盛和摩根士丹利曾对Uber的估值预期为1200亿美元,这也就意味着Uber上市将成为科技行业规模最大的柔宇9轮融资背后能发出货来吗?是骗局?还是战略?柔宇科技可谓今年争议做多的一家公司,而名声大噪的原因就是去年10月31日高调发布了全球首款可折叠柔性手机,然后本以为是一个默默修炼现在崭露头角的高手,没想到确是一个口技演员,这要追全球指纹芯片排名汇顶夺魁,FPC思立微迈瑞微均倒退2018年全球指纹芯片出货量同比下降18。8根据群智咨询(Sigmaintell)全球指纹识别芯片市场跟踪与预测报告显示,由于终端整体需求下降和3D面部识别的竞争,2018年指纹传