范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

Python协程asyncio极简入门与爬虫实战

  作者:读者投稿
  来源:早起Python
  在了解了  Python  并发编程的多线程和多进程之后,我们来了解一下基于 asyncio  的异步IO编程--协程01、协程简介
  协程(Coroutine)又称微线程、纤程,协程不是进程或线程,其执行过程类似于  Python  函数调用,Python  的 asyncio  模块实现的异步IO编程框架中,协程是对使用 async  关键字定义的异步函数的调用;
  一个进程包含多个线程,类似于一个人体组织有多种细胞在工作,同样,一个程序可以包含多个协程。多个线程相对独立,线程的切换受系统控制。同样,多个协程也相对独立,但是其切换由程序自己控制。 02、一个简单例子
  我们来使用一个简单的例子了解协程,首先看看下面的代码: import time def display(num):     time.sleep(1) print(num) for num in range(10):     display(num)
  很容易看得懂,程序会输出0到9的数字,每隔1秒中输出一个数字,因此整个程序的执行需要大约10秒 时间。值得注意的是,因为没有使用多线程或多进程(并发),程序中只有一个执行单元(只有一个线程在 执行),而  time.sleep(1)  的休眠操作会让整个线程停滞1秒钟,
  对于上面的代码来说,在这段时间里面 CPU是闲置的没有做什么事情。
  我们再来看看使用协程会发生什么: import asyncio async def display(num): # 在函数前使用async关键字,变成异步函数 await asyncio.sleep(1) print(num)
  异步函数不同于普通函数,调用普通函数会得到返回值,而调用异步函数会得到一个协程对象。我们需要将协程对象放到一个事件循环中才能达到与其他协程对象协作的效果,因为事件循环会负责处理子程 序切换的操作。
  简单的说就是让阻塞的子程序让出CPU给可以执行的子程序。
  03、基本概念
  异步IO是指程序发起一个IO操作(阻塞等待)后,不用等IO操作结束,可以继续其它操作;做其他事情,当IO操作结束时,会得到通知,然后继续执行。异步IO编程是实现并发的一种方式,适用于IO密集型任务
  Python  模块 asyncio  提供了一个异步编程框架,全局的流程图大致如下:
  下面对每个函数都从代码层面进行介绍
  async : 定义一个方法(函数),这个方法在后面的调用中不会被立即执行而是返回一个协程对象;async def test(): print("hello 异步") test() # 调用异步函数  输出:RuntimeWarning: coroutine "test" was never awaited
  coroutine : 协程对象,也可以将协程对象添加到时间循环中,它会被事件循环调用;async def test():    print("hello 异步") c = test() # 调用异步函数,得到协程对象-->c  print(c)  输出:
  event_loop : 事件循环,相当于一个无限循环,可以把一些函数添加到这个事件中,函数不会立即执行, 而是满足某些条件的时候,函数就会被循环执行;async def test():    print("hello 异步") c = test() # 调用异步函数,得到协程对象-->c loop = asyncio.get_event_loop() # 创建事件循环  loop.run_until_complete(c) # 把协程对象丢给循环,并执行异步函数内部代码  输出:hello 异步
  await : 用来挂起阻塞方法的执行;import asyncio def running1():     async def test1():         print("1")         await test2()         print("2")     async def test2():         print("3")         print("4")     loop = asyncio.get_event_loop()     loop.run_until_complete(test1()) if __name__ == "__main__":     running1()
  输出:
  task : 任务,对协程对象的进一步封装,包含任务的各个状态;async def test():    print("hello 异步") c = test() # 调用异步函数,得到协程对象-->c loop = asyncio.get_event_loop() # 创建事件循环  task = loop.create_task(c) # 创建task任务  print(task) loop.run_until_complete(task) # 执行任务  输出: > # task hello 异步 # 异步函数内部代码一样执行
  future : 代表以后执行或者没有执行的任务,实际上和task 没有本质区别;这里就不做代码展示;
  首先使用一般方式方法创建一个函数: def func(url):    print(f"正在对{url}发起请求:")    print(f"请求{url}成功!") func("www.baidu.com")
  结果如下所示: 正在对www.baidu.com发起请求: 请求www.baidu.com成功04、基本操作
  创建协程对象
  通过  async  关键字定义一个异步函数,调用异步函数返回一个协程对象。
  异步函数就是在函数执行过程中挂起,去执行其他异步函数,等待挂起条件( time.sleep(n) )消失后,再回来执行,接着我们来修改上述代码:async def func(url):    print(f"正在对{url}发起请求:")    print(f"请求{url}成功!") func("www.baidu.com")
  结果如下: RuntimeWarning: coroutine "func" was never awaited
  这就是之前提到的,使用async关键字使得函数调用得到了一个协程对象,协程不能直接运行,需要把协程 加入到事件循环中,由后者在适当的时候调用协程;
  创建task任务对象
  task任务对象是对协程对象的进一步封装; import asyncio async def func(url):    print(f"正在对{url}发起请求:")    print(f"请求{url}成功!") c = func("www.baidu.com") # 函数调用的写成对象--> c loop = asyncio.get_event_loop() # 创建一个时间循环对象  task = loop.create_task(c)  loop.run_until_complete(task) # 注册加启动  print(task)
  结果如下: 正在对www.baidu.com发起请求: 请求www.baidu.com成功!  result=None>
  future的使用
  前面我们提及到future和task没有本质区别 async def func(url):    print(f"正在对{url}发起请求:")    print(f"请求{url}成功!") c = func("www.baidu.com") # 函数调用的写成对象--> c   loop = asyncio.get_event_loop() # 创建一个时间循环对象 future_task = asyncio.ensure_future(c)  print(future_task,"未执行")  loop.run_until_complete(future_task) # 注册加启动  print(future_task,"执行完了")
  结果如下: >未执行 正在对www.baidu.com发起请求: 请求www.baidu.com成功!  result=None> 执行完了
  await关键字的使用
  在异步函数中,可以使用await关键字,针对耗时的操作(例如网络请求、文件读取等IO操作)进行挂起,比如异步程序执行到某一步时需要很长时间的等待,就将此挂起,去执行其他异步函数 import asyncio, time async def do_some_work(n): #使用async关键字定义异步函数   print("等待:{}秒".format(n))   await asyncio.sleep(n) #休眠一段时间    return "{}秒后返回结束运行".format(n) start_time = time.time() #开始时间 coro = do_some_work(2) loop = asyncio.get_event_loop() # 创建事件循环对象  loop.run_until_complete(coro) print("运行时间: ", time.time() - start_time)
  运行结果如下: 等待:2秒 运行时间: 2.00131201744079605、多任务协程
  任务(Task)对象用于封装协程对象,保存了协程运行后的状态,使用  run_until_complete()  方法将任务注册到事件循环;
  如果我们想要使用多任务,那么我们就需要同时注册多个任务的列表,可以使用  run_until_complete(asyncio.wait(tasks)) ,
  这里的 tasks ,表示一个任务序列(通常为列表)
  注册多个任务也可以使用 run_until_complete(asyncio. gather(*tasks)) import asyncio, time async def do_some_work(i, n): #使用async关键字定义异步函数   print("任务{}等待: {}秒".format(i, n))   await asyncio.sleep(n) #休眠一段时间   return "任务{}在{}秒后返回结束运行".format(i, n) start_time = time.time() #开始时间 tasks = [asyncio.ensure_future(do_some_work(1, 2)),         asyncio.ensure_future(do_some_work(2, 1)),         asyncio.ensure_future(do_some_work(3, 3))] loop = asyncio.get_event_loop() loop.run_until_complete(asyncio.wait(tasks)) for task in tasks:   print("任务执行结果: ", task.result())  print("运行时间: ", time.time() - start_time)
  运行结果如下: 任务1等待: 2秒 任务2等待: 1秒 任务3等待: 3秒 任务执行结果: 任务1在2秒后返回结束运行 任务执行结果: 任务2在1秒后返回结束运行 任务执行结果: 任务3在3秒后返回结束运行 运行时间: 3.0028676986694336 06、实战|爬取LOL皮肤
  首先打开官网:
  可以看到英雄列表,这里就不详细展示了,我们知道一个英雄有多个皮肤,我们的目标就是爬取每个英雄的所有皮肤,保存到对应的文件夹里;
  打开一个英雄的皮肤页面,如下所示:
  黑暗之女,下面的小兔对应的就是该隐兄弟皮肤,然后通过查看 network 发现对应的皮肤数据在js 文件里;
  然后我们发现了英雄皮肤存放的url链接规律: url1 = "https://game.gtimg.cn/images/lol/act/img/js/hero/1.js"  url2 = "https://game.gtimg.cn/images/lol/act/img/js/hero/2.js"  url3 = "https://game.gtimg.cn/images/lol/act/img/js/hero/3.js"
  我们发现只有id参数是动态构造的,规律是: "https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js".format(i)
  但是这个id只有前面的是按顺序的,在展示全部英雄的页面找到对应英雄的id,
  这里截取的是最后几个英雄的id,所以要全部爬取,需要先设置好id,由于前面的是按顺序的,这里我们就爬 取前20个英雄的皮肤;
  1. 获取英雄皮肤ulr地址:
  前面的英雄id是按顺序的所有可以使用 range(1,21) ,动态构造url;def get_page():   page_urls = []    for i in range(1,21):       url = "https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js".format(i)       print(url)       page_urls.append(url)    return page_urls
  2. 请求每一页的url地址
  并对网页进行解析获取皮肤图片的url地址: def get_img():   img_urls = []    page_urls = get_page()    for page_url in page_urls:       res = requests.get(page_url, headers=headers)       result = res.content.decode("utf-8")       res_dict = json.loads(result)       skins = res_dict["skins"]        for hero in skins:         item = {}         item["name"] = hero["heroName"]         item["skin_name"] = hero["name"]         if hero["mainImg"] == "":           continue         item["imgLink"] = hero["mainImg"]         print(item)         img_urls.append(item)     return img_urls
  说明: res_dict = json.loads(result)  : 将得到的json格式字符串转化为字典格式;heroName :英雄名字(这个一定是一样的,方便我们后面根据英雄名创建文件夹);name :表示完整的 名字,包括皮肤名(这个一定是不一样的) 有的"mainImg"是空的,我们需要进行一个判断;
  3. 创建协程函数
  这里我们根据英雄名创建文件夹,然后就是注意图片的命名,不要忘记/,目录结构确立 async def save_img(index, img_url):     path = "皮肤/" + img_url["name"]     if not os.path.exists(path):         os.makedirs(path)     content = requests.get(img_url["imgLink"], headers=headers).content     with open("./皮肤/" + img_url["name"] + "/" + img_url["skin_name"] + str(index) + ".jpg", "wb") as f:         f.write(content)
  主函数: def main():     loop = asyncio.get_event_loop()      img_urls = get_img() print(len(img_urls))      tasks = [save_img(img[0], img[1]) for img in enumerate(img_urls)]      try:         loop.run_until_complete(asyncio.wait(tasks))      finally:         loop.close()
  4. 程序运行if __name__ == "__main__":     start = time.time()      main()      end = time.time()      print(end - start)
  运行结果:
  下载233张图花费了42s,可以看到速度还行,文件目录结果如下:
  与requests对比
  异步爬取图片之后,我们有必要使用requests去进行同步数据爬取,进行效率对比,所以在原有代码的 基础上进行修改,这里直接略过,思路都是一样的,这是把一部当中的事件循环替换成循环即可: img_urls = get_img()  print(len(img_urls))  for i,img_url in enumerate(img_urls):     save_img(i,img_url)
  我们可以看到,使用协程的速度要比  requests  快了一些。
  以上就是本文的全部内容,感兴趣的读者可以自己动手敲一遍代码~

罗永浩干直播,赚钱要靠口艺去年当了失信人,号称要说相声还债的罗永浩找到了事业新方向电商直播。而且一宣布就上了热搜,这影响力,还没入行就成了直播界的扛把子。他终究还是没去说相声,但以老罗的功力,很快就可以成为从不欠人1分钱身价70亿的老干妈怎么就欠了腾讯1624万不还?上午看到了一则新闻,非常的耐人寻味,极具反差萌。腾讯马化腾和老干妈陶华碧,一个互联网科技巨头,一个传统卖辣酱的,怎么就搅合到一起了。刚开始,大家都是懵逼的,老干妈出了名的不打广告,为现金贷导流,删库后甩锅网贷的微盟赔得起300万商家的损失吗?一个班级里,如果发生什么坏事情,一般会甩锅给坏孩子,即便可能不是他干的。为什么呢?这孩子本来就坏,甩给他大家信啊。网贷万年黑,好多平台命都到头了,可有个黑锅还是来了,不过牵强的不让互金圈最后的倔强,现金贷没了流量今年的互金行业,没了任何声响,除了疫情影响,也跟行业逐渐走向消亡有关,很多互金群不是变投资或扯淡群,就是陷入沉寂。但这些安静里,还保留着互金行业最后的倔强现金贷,这种互联网与线下高从研究生到老赖,后浪沦陷现金贷堕落的学霸最近B站捧红了一个词,后浪。沈浪看起来属于后浪中一员,然而他的两面性让他无处可浪。阳面,沈浪研究生毕业,一毕业就进了某大型国企,前途无量。阴面,沈浪现金贷缠身,金额已累计围池救中,中信银行侵犯个人隐私或涉嫌犯罪一个热点的结束一般要靠另一个热点的开始。中国银行原油宝在热搜上徘徊了很多天了,李国庆救了蒋凡,但一直没人救中国银行。从倒贴三倍到给小户两成,投资人仍然不满,天天被骂。今天,终于有兄女人不生孩子和人不理财投资一样,都没什么大不了最近杨丽萍吃个火锅就火了,让她火的不是不老童颜,也不是火锅好吃,是一个没脑子的粉丝留言。这粉丝大概是有孩子,而且又活得不咋地的,否则不至于说出这等话,这种就属于啥都比不过又拼命想盖庆渝年,李国庆抢个公章就能抢回当当?有猫腻!疫情期间,娱乐圈不让拍戏,财经圈跨界出演。先是天猫总裁正房怒怼小三,到现在阿里也没给出处理意见,不知道是不是良将难觅太子难得,一点都没有处理抢月饼员工的速度与价值观。今天,财经圈又上海楼市接着疯知道上海房价在猛涨,但因为没参与,所以也不知道到底有多热乎。只听说积分制出来后,市区有的楼盘把售楼处都给砸了,因为不想让刚需知道。照理开门迎客,为啥看都不让刚需看了呢?因为刚需要贷2000元内杀疯了!realme真我两款爆品火遍6182000元内,这一直都是国内手机品牌的兵家必争之地,早年有性价比大战,大家都刺刀见血而现在,敢越级已经成了大基调,要问谁是手机品牌里最会玩儿越级的,那除了realme真我恐怕没别人六一宝宝节苏宁超市嗨购攻略来了,0元买到美素佳儿奶粉随着六一宝宝节一天天临近,宝爸宝妈们除了盘算带宝宝们去哪里游玩一趟之外,大多还想趁着节日促销活动囤点货。考虑到平日里宝爸宝妈们养家糊口也不容易,苏宁超市特意推出了一份六一宝宝节嗨购
菲利普亲王的首次公开照片白金汉宫发布了几张有关菲利普亲王的首次公开照。12018年,女王伊丽莎白二世和伊菲利普亲王和他们的七个曾孙曾孙女,其中包括小王子乔治,小公主夏洛特。2018hr22015年,女王伊长赐号卡住苏伊士,埃及女船长无辜躺枪上个月,当长赐号卡停在苏伊士运河,全球的目光向这里聚焦时,一条谣言也在阿拉伯世界及互联网上传播开来将苏伊士运河卡死,是由于一位名叫玛娃艾尔赛莱达的(MarwaElselehdar)聊聊摄影系列安塞尔亚当斯对风光摄影有了解的,应该都听过安塞尔亚当斯的大名,作为区域曝光法的创始人,其在当代摄影界享有很高的声誉。他同时也是F64小组的发起人之一,当时的设备不比现在,而且现在拍风光很少用F聊聊摄影系列保罗卡普尼格罗保罗卡普尼格罗,美国摄影大师,继承了安塞尔亚当斯的衣钵。他以纯粹的摄影语言打开了一代摄影的里程,他的作品都非常直接,但又让我感觉非常震撼!细节非常震撼!上图的梨,虽然是黑白照片,但聊聊摄影系列如何阅读一张照片?有时候我们会有疑问,照片还要学习怎么阅读吗?我们看照片里面的内容不就行了吗?但是仅仅通过照片的内容,你能理解摄影师所表达的东西吗?我们摄影还分了很多类别,纪实摄影风光摄影商业摄影人聊聊摄影系列川岛小鸟镜头下的水原希子水原希子上期分享了川岛小鸟系列的斋藤飞鸟,这期我给大家分享川岛小鸟镜头下的水原希子。水原希子(MizuharaKiko),1990年10月15日出生于美国德克萨斯州达拉斯,是一名演聊聊摄影系列迈克尔肯纳迈克尔肯纳,师承美国摄影大师RuthBernhard,1953年出生于英国北部的小郡兰开夏,曾就读于英国班伯里艺术学院。1977年移居美国旧金山,现居西雅图。其作品无数次在世界范围西安促进汽车消费措施落地推动二手车便利交易日前,西安市人民政府发布了西安市人民政府办公厅关于印发应对新冠肺炎疫情影响促进市场消费若干措施的通知,其中提到部分促进汽车市场消费的措施,原文如下为深入贯彻落实省政府关于促进市场消无车顶和挡风玻璃兰博基尼SC20官图发布近期,兰博基尼官方发布了全新SC20Speedster车型的图片。新车由SquadraCorse赛事运动部门定制,车主从设计之初就参与了项目,并将自己的想法完全付诸新车中。作为继兰1068万的劳斯莱斯幻影在拼多多优惠122万开卖?12月15日,名为喀秋莎299的网友在什么值得买网站上发布信息称拼多多现在劳斯莱斯幻影直降122万,补贴价946万(含消费税),历史好价,有需要的值友可以关注一下。随后小编打开拼多2022年!本田激进宣布在欧洲停售燃油车日前,据外媒报道,本田汽车计划于2022年在欧洲停售纯汽油柴油车型,取而代之的是纯电动以及混动车型。本田这一目标过于激进,但这是属实的信息,本田欧洲高管也给出了理由。本田欧洲高级副