python实战案例采集招聘网,知晓现今岗位要求
前言
嗨喽!大家好呀,这里是魔王~
今天我们来采集专业的互联网求职招聘网站。
致力于提供真实可靠的互联网岗位求职招聘找工作信息,拥有海量的互联网人才储备 环境介绍:python 3.8 pycharm 2021.2 专业版 激活码 模块使用:内置模块:import pprint >>> 格式化输入模块 import csv >>> 保存csv文件 import re >>> re 正则表达式 import time >>> 时间模块 import json >>> json 第三方模块:import requests >>> 数据请求模块 pip install requests
win + R 输入cmd 输入安装命令 pip install 模块名 如果出现爆红 可能是因为 网络连接超时 切换国内镜像源 如何实现一个爬虫案例(爬虫基本流程思路):一. 数据来源分析确定自己想要获取数据是什么?
爬取是什么网站, 网上上面什么数据 通过开发者工具, 进行抓包分析, 分析我们想要数据是来自于哪里 二. 代码实现步骤过程: 最基本四个步骤 发送请求,获取数据,解析数据,保存数据发送请求, 对于刚刚分析的到url地址发送get请求 (并且模拟浏览器发送请求) 获取数据, 获取服务器返回response响应数据 解析数据, 提取我们想要数据内容, 招聘信息基本数据 保存数据, 把数据保存本地 表格
1、get 是从服务器上面获取数据 post 是向服务器传送数据
2、get请求参数,会直接显示在url链接上面, post在请求体里面的 隐性传递 代码# # 导入数据数据请求模块 # import requests # 第三方模块 需要 pip install requests # # 导入正则 # import re # import json # # 导入格式化输出模块 # import pprint # # 导入csv模块 # import csv # # f = open("招聘.csv", mode="a", encoding="utf-8", newline="") # csv_writer = csv.DictWriter(f, fieldnames=[ # "职位名字", # "公司名字", # "工作城市", # "学历要求", # "经验要求", # "薪资待遇", # "公司地址", # "公司规模", # "详情页", # ]) # csv_writer.writeheader() # 写入表头 # for page in range(1, 11): # # 1. 发送请求, 对于刚刚分析的到url地址发送get请求 (并且模拟浏览器发送请求) # url = f"https://www.lagou.com/wn/jobs?pn={page}&fromSearch=true&kd=python" # # headers 请求头 用伪装python代码 可以把python代码伪装浏览器去发送请求 # # 通过request这个模块里面get请求方法 对于url地址发送请求, 并且携带上headers请求头伪装, 最后用自定义变量response接收返回数据 # response = requests.get(url=url, headers=headers) # # <>对象的意思 response对象 200 状态码表示请求成功 # # 2. 获取数据, 获取服务器返回response响应数据 # # print(response.text) # print() 打印函数 response.text 获取响应对象文本数据(获取网页源代码) 字符串数据类型 # # 3. 解析数据提取我们想要数据 正则表达式在付费课程 2.5个小时讲解内容 # """ # 未融资 # (.*?) # () 精确匹配 表示自己想要数据内容 不加括号 泛匹配 可以匹配但是不要 # . 匹配任意字符(除了换行符 ) * 匹配前一个字符0个或者无限 ? 非贪婪匹配模式 # re.findall("匹配规则", 从哪里找数据) 通过re里面findall的方法 从response.text里面去找寻关于 # 数据中 的(.*?) 是我们要提取出来的 # """ # html_data = re.findall("", response.text)[0] # # print(html_data) # 字符串数据 需要把字符串数据转成字典 # json_data = json.loads(html_data) # 把字符串(完整数据结构)转成字典 # # print(json_data) # pprint.pprint(json_data) # 格式化输出字典数据 展开效果 # # 字典取值 根据冒号左边的内容(键), 提取冒号右边的内容(值) # for index in json_data["props"]["pageProps"]["initData"]["content"]["positionResult"]["result"]: # # pprint.pprint(index) # job_info = index["positionDetail"].replace("
", "").replace("
", "") # 岗位职责 # href = f"https://www.lagou.com/wn/jobs/{index["positionId"]}.html" # dit = { # "职位名字": index["positionName"], # "公司名字": index["companyFullName"], # "工作城市": index["city"], # "学历要求": index["education"], # "经验要求": index["workYear"], # "薪资待遇": index["salary"], # "公司地址": index["positionAddress"], # "公司规模": index["companySize"], # "详情页": href # } # csv_writer.writerow(dit) # title = index["positionName"] + index["companyFullName"] # title = re.sub(r"[/?:"<>|]", "", title) # # w 写入 # with open("info" + title + ".txt", mode="w", encoding="utf-8") as f: # f.write(job_info) # print(dit) # break import requests import parsel url = "https://www.zhipin.com/c100010000/?query=python&page=3&ka=page-3" response = requests.get(url=url, headers=headers) # print(response.text) selector = parsel.Selector(response.text) lis = selector.css(".job-list ul li") for li in lis: title = li.css(".job-name a::attr(title)").get() company_name = li.css(".company-text .name a::attr(title)").get() money = li.css(".job-limit .red::text").get() job_info = li.css(".job-limit p::text").getall() exp = job_info[0] edu = job_info[1] print(title, company_name, money, exp, edu) 尾语
好了,我的这篇文章写到这里就结束啦!
有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง
喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!
中国经济一季报亮点丨绿色转型稳步推进今年一季度,我国绿色低碳产品消费增长较快,新能源汽车太阳能电池产量分别增长140。8和24。3。清洁能源消费占比继续提升,天然气水核风光电等清洁能源消费比重上升,单位GDP能耗继续
论未来中低速电动汽车含二手中低速电动汽车的继续生存空间我在网络小视频平台曾看到有别人的视频作品说过这样一句话未来淘汰手动档汽车的不是自动档汽车,而是新能源汽车。这句话是有一定正确性和预见性的,而且现在也的确听说有燃油车企业将在以后正式
全球首个月壤数字藏品发布(来源北京日报)昨天(4月24日),2022年中国航天日线上启动,以一首AI编曲版东方红致敬中国航天历史。在航天日期间,探月工程重磅发布了全球首个月壤数字藏品,通过前沿科技与航天技
分享5款windows必装的黑科技软件,款款都很实用,错过就太可惜啦哈喽大家好呀,我是分享科技小达人。我们的电脑上有非常多的好用软件,只是很少被人们发现,今天给大家分享5款电脑必装的windows软件,黑科技十足,一起来看看吧。第一款AIRPLAY
电商还有出路吗现在的电商已经开始走下坡路。这是行业发展的必然趋势,电商虽然快捷,发展迅速,但是电商破坏了整体商业流程。商业如同一个人营养的摄取过程,先经过口腔咀嚼,在经过胃的分解吸收,然后肠道的
京东生鲜果蔬肉禽蛋可满足45天周转APP刷不出菜怎么办?莫慌!北京日报客户端记者获悉,由于订单持续高涨,京东生鲜已紧急成立应急小组,继续协调支援提升产能清理生鲜订单,同时启用智慧排产控单。据了解,截至目前,其重点民
苹果AppStore将下架长期不更新的应用程序,此举背后都有哪些原因月24日消息,据TechWeb报道,苹果似乎将要开始逐渐下架长期不更新的App。在发送给受影响开发者的电子邮件中,苹果警告称,它将从应用程序商店中删除长时间内没有更新的应用程序,并
华为的鸿蒙产品设计师,请不要堆砌功能乔布斯的苹果出来之前,是手机比拼功能的时代,而华强北的山寨,那速度和灵感,跑马灯大喇叭保时捷等各式外形把一众品牌踩在地上蹂躏,手机变成庸俗的玩具。直到乔布斯出来,拿把刀大砍,方方正
在手机严重的内卷之下看各家手机厂商是如何破防的现在手机已经发展到了一个瓶颈各家的硬件水平都差不多在靠着推料出来更高的新颖的东西已经不太可能所以今年我们会看到很多手机厂家都在纷纷找别的出路。首先我们看到去年华为在美国的打压之下硬
苹果商店或将下架长期不更新App4月24日消息,苹果正在开始打击长期不更新的App。苹果在发送给受影响开发者的电子邮件中警告称,它将从应用程序商店中删除长时间内没有更新的应用程序,并给开发者30天的时间进行更新,
消息称苹果拟明年发布iMacPro和iMac鞭牛士4月25日消息,据新浪科技消息,消息称苹果有可能在2023年发布iMacPro和搭载M3芯片的iMac。预计苹果将在今年推出使用了M2芯片的新款Mac电脑产品,然而有消息称,