范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

Python爬虫抓取动态加载数据

  本节讲解如何抓取豆瓣电影"分类排行榜"中的电影数据(https://movie.douban.com/chart),比如输入"犯罪"则会输出所有犯罪影片的电影名称、评分,效果如下所示:剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史|战争|犯罪|西部|奇幻|冒险|灾难|武侠|古装|运动|黑色电影| 你想了解什么类型电影:犯罪 {"name": "肖申克的救赎", "score": 9.7} {"name": "控方证人", "score": 9.6} ... 电影总数量:302部123456复制代码类型:[python]确定网站类型
  首先要明确豆瓣电影网站的类型,即是动态还是静态。检查方法:右键查看网页源码—>搜索"辛德勒的名单"关键字,如下图所示:
  最终发现源码页中没有出现想要抓取的数据,只有一大堆的JS代码,由此确定该网站为动态网站。影片详情信息
  接下来,使用快捷键F12打开控制台进行抓包,点击NetWork选项卡—>XHR选项—>Preview选项卡—>刷新当前页面抓取数据包,如下图所示:
  从图2可知,我们想要抓取的数据取全部包含在当前的数据包中。当我们向下滚动鼠标滑轮时,左侧栏内的数据包会实现自动加载,这是使用Ajax异步加载技术实现的。
  通过查看数据Headers选项可以明确url地址、查询参数等信息,如下所示:
  从上图可以得知请求的基准URL(由于还未拼接查询参数,所以称之为基准URL),如下所示:"https://movie.douban.com/j/chart/top_list?"1复制代码类型:[python]
  继续滚动鼠标滑轮可知查询参数具有如下规律:type: 4  # 电影类型 interval_id: 100:90  #代表网页上滑动条的百分比(好于100%-90%的历史片) action: ""  # 空 start: 0  # 每次加载电影的起始索引值 0 20 40 60 limit: 20 # 每次加载的电影数量,1为初始值,后续加载时20固定不变12345复制代码类型:[python]
  注意:寻找规律时,后加载出来的数据包会排在最前面,除去第一个数据包外,其余数据包如下所示:影片总数量
  注意:第一个数据包反映了每个类型中电影的总数量,其url与响应信息如下:请求的URL地址 : https://movie.douban.com/j/chart/top_list_count?type=4&interval_id=100%3A90 Response信息:{"playable_count":41,"total":104,"unwatched_count":104}12复制代码类型:[java]影片类型与类型码
  影片的类型与类型码包含在电影排行榜的主界面中,如下所示:
  分析上述页面结构,然后使用正则表达式来提取想要的数据,并定义选择菜单"menu",代码如下所示:import re def get_all_type_films(self):     # 获取影片类型和类型码     url = "https://movie.douban.com/chart"     headers = self.get_headers()     html = requests.get(url=url, headers=headers).text     re_bds = r""     pattern = re.compile(re_bds, re.S)     r_list = pattern.findall(html)     # 存放所有类型和对应类型码大字典     type_dict = {}     # 定义一个选择电影类型的菜单     menu = ""     # r_list[{"剧情 , 11"},{},..]     for r in r_list:         type_dict[r[0].strip()] = r[1].strip()         # 获取input的菜单,显示所有电影类型         menu += r[0].strip() + "|"     #返回类型字典以供后续函数调用,并返回输入菜单menu     # {"剧情": "11", "喜剧": "24",...}     return type_dict, menu 12345678910111213141516171819202122复制代码类型:[python]编写完整程序
  完成上述分析后,下面开始编写Python爬虫程序,代码如下:#coding:utf8 import requests import time import random import re import json from ua_info import ua_list class DoubanSpider(object):     def __init__(self):         self.url = "https://movie.douban.com/j/chart/top_list?"         self.i = 0     # 获取随机headers     def get_headers(self):         headers = {"User-Agent":random.choice(ua_list)}         return headers     # 获取页面     def get_page(self,params):       # 将json转换为 python 数据类型,并返回       html = requests.get(url=self.url,params=params,headers=self.get_headers()).text       html=json.loads(html)       self.parse_page(html)     # 解析并保存数据     def parse_page(self,html):        item = {}         # html列表类型: [{电影1},{电影2},{电影3}...]        for one in html:             # 名称 + 评分            item["name"] = one["title"].strip()            item["score"] = float(one["score"].strip())            print(item)            self.i += 1     # 获取电影总数     def total_number(self,type_number):         # F12抓包抓到的地址,type表示电影类型         url = "https://movie.douban.com/j/chart/top_list_count?type={}&interval_id=100%3A90".format(type_number)         headers = self.get_headers()         html = requests.get(url=url,headers=headers).json()         total = int(html["total"])         return total     # 获取所有电影的类型和对应type值     def get_all_type_films(self):         # 获取类型与类型码         url = "https://movie.douban.com/chart"         headers = self.get_headers()         html = requests.get(url=url,headers=headers).text         re_bds = r""         pattern = re.compile(re_bds,re.S)         r_list = pattern.findall(html)         # 存放所有类型和对应类型码大字典         type_dict = {}         #定义一个选择电影类型的菜单         menu = ""         for r in r_list:             type_dict[r[0].strip()] = r[1].strip()             # 获取input的菜单,显示所有电影类型             menu += r[0].strip() + "|"         return type_dict,menu     # 主程序入口函数     def main(self):         # 获取type的值         type_dict,menu = self.get_all_type_films()         menu = menu + " 你想了解什么类型电影:"         name = input(menu)         type_number = type_dict[name]         # 获取电影总数         total = self.total_number(type_number)         for start in range(0,(total+1),20):            #构建查询参数             params = {                 "type" : type_number,                 "interval_id" : "100:90",                 "action" : "",                 "start" : str(start),                 "limit" : "20"             }             # 调用函数,传递params参数             self.get_page(params)             # 随机休眠1-3秒             time.sleep(random.randint(1,3))         print("电影总数量:%d部"%self.i ) if __name__ == "__main__":     spider = DoubanSpider()     spider.main()1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283复制代码类型:[python]
  输出示例:剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史|战争|犯罪|西部|奇幻|冒险|灾难|武侠|古装|运动|黑色电影| 你想了解什么类型电影:科幻 {"name": "盗梦空间", "score": 9.3} {"name": "星际穿越", "score": 9.3} {"name": "楚门的世界", "score": 9.3} {"name": "机器人总动员", "score": 9.3} {"name": "蝙蝠侠:黑暗骑士", "score": 9.2} {"name": "超感猎杀:完结特别篇", "score": 9.2} {"name": "新世纪福音战士 第0:0话 诞生之始", "score": 9.2} {"name": "少年骇客:变身之谜", "score": 9.2} ... ... 电影总数量:147部12345678910111213复制代码类型:[python]
  最后我们对抓取动态网站数据做简单地总结:
  1.确定网站是否为动态网站,通过查看源码搜索相应的关键字即可确定。
  2.动态网站主要通过异步方式加载数据。触发数据加载的JS事件主要有滚动鼠标滑轮、鼠标点击、拉动滚动条等有关动作,也有一些网站通过局部更新的方式加载数据,比如有道翻译案例。
  新闻资讯-开课吧广场_第1页

华为重大官宣,孟晚舟出任轮值董事长,果然,任正非还是食言了前言2021年9月25日,孟晚舟在无数国人的期盼中回到了祖国母亲的怀抱,虽然被加拿大非法扣押了一千多天,但她依旧风姿绰约,步履从容,那一身飘逸的红裙至今还留在我的脑海中,回国半年后再看徐新聊天记录,你会发现,大佬就是大佬,不服不行看过徐新的几次访谈,她快速灵活的思维方式,不紧不慢的说话节奏,以及对待事物能够一针见血的剖析,给我留下了深刻的印象,说实话,我很崇拜她。关于她求面包和牛奶的聊天记录截图,我有几点个Python从入门到爬虫案例实现前言嗨喽!大家好呀,这里是魔王环境使用Python3。8Pycharm模块使用requestspipinstallrequestsparselpipinstallparsel解析方红米新机曝光!天玑8000120W,大电池搭配高像素,真香红米在手机市场上又有一款新机曝光了!并且还是一款中端手机市场产品,那就是红米的note12Pro这款手机产品,现在的曝光配置也确实是非常的不错的,确实是一款接下来非常的值得期待的手小米全新顶级旗舰曝光骁龙8Plus150W快充今天上午,知名爆料博主数码闲聊站带来了关于小米一款全新机型的消息,他透露小米旗下基于高通新平台新机的150w级超百瓦大电池方案有落地机型在测试了。也就是说,这款新机将同时搭载高通新骁龙870256GB1亿像素50倍变焦,中端机沦为千元机,真香声明原创不易,禁止搬运,违者必究!消费者对手机的性能是很关注的,直接影响整部手机的体验感。苹果有着自研的A系列芯片,华为有着自研的麒麟芯片,也火出圈。不过如今的手机市场,为了更好的手机影像内卷化,三星GalaxyA535G表现出众随着全面屏5G等技术的成熟,消费者也逐渐将老旧机型淘汰,未来将迎来大规模的换机潮,这也意味着中高端手机市场也将进入稳定增长期。同时,在手机性能逐渐封顶的阶段,大家将注意力都集中在了库克怒批监管机构一些政策会损害iPhone用户隐私财联社(上海,编辑夏军雄)讯,当地时间周二(4月12日),苹果CEO蒂姆库克批评了美国和欧盟正在推进的反垄断法规,他表示,一些拟议的政策将损害iPhone用户的隐私和安全。库克周二想问下网贷催收是怎么知道别人2个小孩名字,还有老婆的名字的?其实这个很简单,只要派出所有人,哪怕你在千里之外,他也可以知道你家里几个人,叫什么,电话号码是什么,做恐怖一点,你的生活轨迹他都可能知道很多人在使用网贷的时候都会遇到一个问题,那就搭载4680电池的特斯拉ModelY来了,黑科技加持下ModelY如何呢?据悉,近日特斯拉向内部员工交付首批搭载了4680电池的特斯拉新ModelY,且标准续航版本的ModelY售价比之前的售价便宜了3000美元,为5。999万美元(折合人民币38。1万字节大佬编写菜鸟的python笔记python初学者的福音,建议收藏菜鸟的python笔记是为python初学者打造的,浓缩了遇到的问题以及解决方法与操作案例!笔记主要分为十六个模块一,热身二,开始编程三,类型与操作四,数字五,字符串六,列表七,字
职业精英圈里年薪百万的秘密!导读CCP(资本策划师)CPACFAACCAFRM,哪个才是你年薪百万的直通车?人生,只要方向对头,就不怕走得慢。在职业精英圈,你能站的位置有多高,很大程度上是由你的短板决定的。一融资融智融天下出炉记这是一套特别定制的茶具大宋官窑吉祥如意杯。杯弄圆润,线条流畅,釉色深邃。以如意为柄,整体似吉字,是为吉祥如意杯。而更大的亮点为,两个茶盏及一个茶杯分别上书融资融智融天下,或可简称为毕生磨一剑将资本策划师CCP进行到底中国资本策划杂志蓉姿夏天资本策划师(CCP)企业融资实战策划专家资本运作实战高手,是中国资本策划研究院院长朱耿洲博士30年来殚精竭虑创新研发毕生追求的事业。究竟是什么力量与信念,促融资策划实战专家朱耿洲博士融资策划实战专家朱耿洲博士融资破局从如何破解中小企业融资难谈起著作者2017年中国企业培训特殊贡献奖获得者!2014年中国企业教育杰出人物奖获得者!2010年中国培训界杰出贡献奖获800场次磨炼资本策划师(CCP)正式亮剑六月荷花香满湖,红衣绿扇映清波。六月的花朵瑰丽绽放,六月的学子激情豪迈。六月是一个缤纷多彩的季节,中国资本策划研究院也在六月里收获自己的丰硕果实6月23日,中国资本策划研究院院长朱新年交好运,从一部realme真我V15国潮锦鲤手机开始2021年1月7日,中国,深圳全球成长最快智能手机品牌realme真我召开鲤跃龙门主题发布会,正式推出真我V15国潮锦鲤手机。延续realme品牌潮玩基因,真我V15国潮锦鲤手机与Vlog手机华为nova8系列发布,3299元起是不是你的菜2020年12月23日,华为nova8系列手机正式发布。作为深受年轻人喜爱的手机品牌之一,华为nova8系列此次延续其强大的前置视觉实力强悍的设计性能以及独特的设计美学,带来业内首图说国潮锦鲤手机真我V15,包装盒内这个秘密你一定要知道外观设计上再次越级,携手国家宝藏将国潮与科技完美融合,打造出独一无二的锦鲤色,成为业内首款将国潮设计引入科技的手机,这就是今天我们要说的主角,首批售价1399元起的真我V15锦鲤手大促够猛,三星GalaxyZFold25G成赠礼首选又是一年年末,还赶上双十二大促,每年的这个时候,让燕山派推荐手机作为送亲朋新年礼物的朋友都会很多,今年也是一样,不过今年还有所不同。因为各款手机的差异不大,所以往年燕山派要在众多机游戏手机中的战斗机,联想拯救者电竞手机2Pro发布4月8日,联想召开了以冷快为主题的新品发布会,拯救者电竞手机2Pro正式亮相。拯救者作为专属于热血玩家的电竞品牌,致力于为玩家带来极致游戏体验。联想中国区手机业务部总经理陈劲表示如3000元内唯一超曲屏5G手机,荣耀V40轻奢版评测3月23日,在荣耀V40发布两个月之后,在ID设计上践行极致创新,采用前后3D双曲面设计的荣耀V40轻奢版终于也来了。作为同属荣耀V系列下的全新产品,荣耀V40轻奢版延续了荣耀V4