范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

手把手教你使用curl2py自动构造爬虫代码并进行网络爬虫

  来源:Python爬虫与数据挖掘
  作者:Python进阶者
  前几天有粉丝在问这个curl2py命令不知道怎么使用,今天这篇文章就是一个手把手教程,希望大家后面都可以用上,下面一起来看看吧!  一、安装
  你可以选择在命令提示符使用pip安装filestools库,安装命令:pip install filestools 或者 pip install filestools -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com
  二、传统方法
  1、目标网站
  安装之后,我们就可以进行使用了。这里我们以小小明大佬之前介绍过的这个网站为例,进行说明。小小数据网站:https://xxkol.cn/kol
  【注意】:如果是初次登录这个网站,需要进行微信扫码登录,才能有浏览权限噢!
  2、网页请求
  那么现在我们需要获取这个网站的数据,就需要对改网站进行请求。老规矩,右键选择"检查"(如下图所示)或者直接按下鼠标快捷键F12,可以进入开发者模式。
  进入到开发者模式,如下图所示。依次选择网络-->Fetch/XHR
  我们尝试进行翻页查看数据的话,发现这个网站其实是JS加载的,那么就需要构造请求头,如下图所示。
  按照以往的做法,我们肯定是需要手动的去把这些cookies、headers和params参数挨个的去复制粘贴到我们的代码文件里边。这么做肯定是可以的,但是容易出现出错或者漏了某一个参数,而且费时费力,万一出错了,你还得挨个从头到尾去检查,十分的头大。
  那现在小小明大佬给我们开发的这个curl2py工具呢,就直接解放了我们的双手,我直呼小小明yyds!下面一起来看看如何使用吧。三、curl2py工具
  1、复制为cURL(bash)
  继续沿用上一步的网站和分析情况,我们只需要在JS网址上进行右键,然后依次选择复制-->复制为cURL(bash),如下图所示。
  2、使用curl2py工具转换代码
  复制好之后,我们只需要在Pycharm中运行以下代码,其中代码中的xxx,就是上面复制到的curl命令,直接粘贴替换下面的xxx即可。 from curl2py.curlParseTool import curlCmdGenPyScript   curl_cmd = """xxx""" output = curlCmdGenPyScript(curl_cmd) print(output)
  3、实列
  下面来看实际操作,以刚刚这个网站为例,小编刚刚已经复制了,然后替换粘贴代码,代码如下所示。from curl2py.curlParseTool import curlCmdGenPyScript   curl_cmd = """ curl "https://xxkol.cn/api/klist?pagesize=20&page=2&name=&follower_start=&follower_end=&inter_start=&inter_end=&xxpoint_start=&xxpoint_end=&platform=&sex=&attribute=&category=&sort_type="    -H "authority: xxkol.cn"    -H "sec-ch-ua: "Chromium";v="92", " Not A;Brand";v="99", "Microsoft Edge";v="92""    -H "accept: application/json, text/plain, */*"    -H "authorization: eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9.W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA"    -H "sec-ch-ua-mobile: ?0"    -H "user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73"    -H "sec-fetch-site: same-origin"    -H "sec-fetch-mode: cors"    -H "sec-fetch-dest: empty"    -H "referer: https://xxkol.cn/kol"    -H "accept-language: zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6"    -H "cookie: Hm_lvt_d4217dc2524e360ff487588dd84ad4ab=; xxtoken=eyJ0eXGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9.W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA; Hm_lpvt_d4217dc2524e360ff487588dd84ad4ab=1629212"    --compressed """ output = curlCmdGenPyScript(curl_cmd) print(output)
  运行代码之后,我们在控制台会得到具体的爬虫代码,如下图所示。
  也就是说,都不需要你动手,小小明大佬直接给你把代码都构造出来了,是不是个狠人?
  这里我把控制台输出的代码直接拷贝出来,粘贴到这里,这样大家看得可能会更直观一些。####################################### #      The generated by curl2py.       #      author:小小明                   #######################################   import requests import json   headers = {     "authority": "xxkol.cn",     "sec-ch-ua": ""Chromium";v="92", " Not A;Brand";v="99", "Microsoft Edge";v="92"",     "accept": "application/json, text/plain, */*",     "authorization": "eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9.W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA",     "sec-ch-ua-mobile": "?0",     "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73",     "sec-fetch-site": "same-origin",     "sec-fetch-mode": "cors",     "sec-fetch-dest": "empty",     "referer": "https://xxkol.cn/kol",     "accept-language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6" } cookies = {     "Hm_lvt_d4217dc2524e36588dd84ad4ab": "1629232919",     "xxtoken": "eyJ0eXAiOiJKVhbGciOiJIUzI1NiJ9.eyJ1c2VyaW5mbyI6eyJvcGVuaWQiOiJvcEowYzB0V2p4RmJ4bTMwQ1FyZE9QSXNaWmlJIiwiaWQiOjEzMzc2fSwiaXNzIjoiaHR0cHM6XC9cL2JhY2sueHhrb2wuY24iLCJhdWQiOiJodHRwczpcL1wvYmFjay54eGtvbC5jbiIsImlhdCI6MTYyOTM1NzExNSwibmJmIjoxNjI5MzU3MTE1LCJleHAiOjE2Mjk5NjE5MTV9.W4l1RoQPNgCXBBBobO49QcfMjgYsM4nuKNtCmKshhHA",     "Hm_lpvt_d4217dc2524e360ff488dd84ad4ab": "16292212" } params = {     "pagesize": "20",     "page": "2",     "name": "",     "follower_start": "",     "follower_end": "",     "inter_start": "",     "inter_end": "",     "xxpoint_start": "",     "xxpoint_end": "",     "platform": "",     "sex": "",     "attribute": "",     "category": "",     "sort_type": "" }   res = requests.get(     "https://xxkol.cn/api/klist",     params=params,     headers=headers,     cookies=cookies ) print(res.text)
  哟嚯,这代码,直接给你呈现出来了,讲真,这代码比我们自己写出来的还要好呢,真是tql!
  有的吃瓜群众可能就要问了,小编啊,这个代码能跑嘛?当然可以了!下面一起来运行下吧!直接在Pycharm里边复制控制台的代码,将首尾两行Pycharm自带的提示去除,就可以跑了,右键运行,得到下图的结果。
  可以看到返回code 0,说明程序运行成功,而且可以看到滚动条那么小,可以想象数据量还是蛮大的,这个数据一看就是json格式的,直接将结果放到在线json网站中去看看。json在线解析网址:https://www.sojson.com/
  然后点击红色框框中的校验/格式化,可以看到json格式的数据,如下图所示。
  这下看上去是不是清爽很多了呢?四、总结
  我是Python进阶者,这篇文章主要给大家介绍了curl2py工具及其用法。curl2py工具的确是一个神器,功能强大,而且十分方便,有了它,基本上网页请求数据的复制、粘贴等传统方式都通通帮你搞定了,而且省事省心省力,还不用担心翻车。小伙伴们,你学会了嘛?快快用起来吧!

决策参考苹果Facebook押注智能眼镜6G将在2030年左右投向市场1苹果Facebook押注智能眼镜失控玩家离现实更近了事件Facebook周四推出了该公司的第一款智能眼镜,这是该公司继收购OculusVR头显设备以来,发布的又一款重磅硬件产品。锤子已经彻底凉凉了吗?锤子科技天猫官方旗舰店已无手机大年初四五,本该是朋友们聚会打牌喝酒在亲戚面前吹牛逼的日子,然而对于锤友们来说却有一个坏消息在天猫上的锤子科技官方旗舰店仅剩下手机壳可以选购,手机已经全部下架。此次,不知道是不是天决策参考鱿鱼游戏大火搜狗进入腾讯时代1鱿鱼游戏全球爆火事件近日,由Netflix推出的韩国连续剧鱿鱼游戏甚至让人产生一种全世界都在看,我再不看就落伍的错觉。奈飞联合CEO泰德萨兰多斯公开表示,鱿鱼游戏很有可能成为我们小米9,水滴屏幕坐实了?国外知名网站GSMARENA今天上架了有关小米9的参数,当然一切都是基于谣言Rumors。来看看这个网站所曝出的图片和参数吧。首先不知道哪里弄来的小米9图片,竟然目测还是后置双摄(一个网红的2019年将要做这些内附罗哥18年收入马克思说春节,是旧年真正结束,新年真正开始的标志。在这里,罗哥就不再说些祝福的话。你看那朋友圈,满屏都是各种祝福(抑或是装X的,比如各种在越南遥祝带爸妈在泰国)。18年对于罗哥罗嫂决策参考张一鸣成中国互联网首富李佳琦薇娅一晚卖了189亿1腾讯华为等20多家企业承诺不监听个人隐私事件10月22日,由中共深圳市委网信办联合深圳市公安局市市场监管局市通管局主办的深圳市App个人信息共护大会在深圳中心书城举行。深圳市委常决策参考2021中国企业500强榜单出炉1亚马逊在印度推出8项流媒体服务为提高用户订阅量事件9月24日,为提高印度市场用户订阅量,亚马逊公司在其视频平台上推出了八项全球和本地流媒体服务。22021中国企业500强发展态势决策参考美团被罚款34亿余元联想集团科创板IPO审核终止1市场监管总局处罚美团垄断行为罚款34亿余元事件2021年4月,市场监管总局依据反垄断法对美团在中国境内网络餐饮外卖平台服务市场滥用市场支配地位行为立案调查。经查,2018年以来,小米无边框手机泄露对飙魅族ZERO和vivoApex2019?小米自从上市之后就各种动作不断,比如自爆折叠屏,比如招入大将成立Redmi独立品牌,发布有史以来最具性价比红米Note7。这不,趁着大家最后一天春节年假,又曝出了四曲面真无边框手机超级掌机连PS3游戏高达exvs也能玩?以后不用背着电视机出门了GPDWINMax测试PS3模拟器机动战士高达exvs极限火力全开,PC掌机上的模拟器玩家非常多,某PS3玩家强烈推荐我测试高达,号称是桌面i7和i9才能流畅跑的游戏,但是我们GP电脑做的还不如香蕉大,你见过这样的笔记本吗?笔记本电脑相信每个人都用过,一般11寸14寸的笔记本电脑算是很常见了,但是右边这样的超迷你掌上笔记本电脑你们见过吗?笔记本电脑合上盖比香蕉都大不了多少,这样的神奇物品还是第一次见吧
北漂90后x玛奇朵一直努力下去,总会离幸福更近些视频加载中一千个人眼中有一千个北京。这是一座不管待多久,都藏着巨大未知的城市也是一个不管努力多久,都还是会感觉触不可及的城市。同时,它也是一个让无数人实现梦想的城市。生活在这里的年艾力绅锐混动换车记给家人稳稳的幸福文腾小小车图腾出品,未经许可,谢绝转载老婆刚刚怀上二胎,王先生就做好了准备。除了更加努力地工作,他还做了一件大事卖掉轿车,换了一辆大号的MPV东风本田艾力绅锐混动。原因很简单,二宝以科技驱动创新戴尔科技集团连续四届亮相进博会11月5日,第四届中国国际进口博览会(以下简称进博会)在上海召开,戴尔科技集团(以下简称戴尔)作为全球领先的科技公司,已连续四次参与此盛会。进博会是中国推动新一轮高水平对外开放的重续航1000公里,哈弗神兽成潮流单品,这种黑科技谁不动心?在国产汽车品牌崛起的今天,科技感已然成为国产车不容忽视的一大特色,赋予黑科技的车辆也不在少数,其中就有哈弗最新推出的哈佛神兽。神兽不仅展示出哈弗最新的设计元素,并且让智能化座舱的概名爵首款SUV来了,智能座舱体验科技感,它会是年轻人的首选吗?在当今车企争先恐后争夺年轻人市场的环境下,年轻人对车辆也是越发的挑剔,这其中就包括颜值动力方面和科技感。在这个大前提下,名爵全新紧凑级SUVMGONE应运而生,作为名爵的第一辆SU为什么定制化的HR人力资源管理系统,更适合企业使用?为什么定制化的HR人力资源管理系统,更适合企业使用?谈到人力资源管理系统首先想要解答的是企业为何需要人力资源管理系统呢?实际上,国内的人力资源部门的运作,其实还是以office软件企业该如何选择适合的CRM系统?企业该如何选择适合的CRM系统?CRM是什么?CRM是客户关系管理CustomerRelationshipManagement的简称,能完整记录并管理企业与客户从销售前中后的互动历OKR,真的适合你的企业吗?推动OKR前,要先了解的3件事OKR,真的适合你的企业吗?推动OKR前,要先了解的3件事企业绩效考核常采用的目标与关键结果(OKR,ObjectivesandKeyResults)正是因此而生,这款目标管理方式这三款啤酒全球口感最佳,由顶级麦花酿造,味道醇厚第3名杜瓦三麦金啤酒这个啤酒的味道很nice,选用了多种酵母且采用低温发酵法酿制,刚喝进去感觉会有些复杂,但过上一小会,浓郁的啤酒花和独特的水果香味就会在口腔里释放,让人回味无穷,全世界最贵的粑粑,一公斤卖到二三十万的天价,还是香水的原料全世界最贵的三种粑粑,每一坨都价值连城第三名麝香猫屎本身麝香猫就是一种稀有物种,这不,人家吃了咖啡果后,咖啡豆原封不动的跟随排泄物拉出来,产出的咖啡更是别有一番滋味,因此这玩意卖到世界上最昂贵的香水,一瓶就是一套豪宅,喷一次就能保留30天全球最贵的香水,一瓶可换一套豪宅,啾咪啾咪!和发兔去看看迪拜又来展示他的土豪特质了,这次是这款Shumukh香水,其意思为当之无愧,这家伙一瓶475。2万迪拉姆,什么概念?相当于8