最新考研调剂信息全面获取!Python帮你一手。。。
12月16日 桃花醉投稿 CDA数据分析师出品
【导语】:今天我们聊聊如何获取考研调剂数据,Python技术部分可以直接看第三部分。
在上周考研分数已经出来了,最近多所院校官网也已经开始陆续发布调剂信息。要知道,在考研中调剂是非常重要的一环,复试与调剂也总是密不可分的,今天我们就带大家好好解读一下。
Showmedata,用数据说话
今天我们聊聊考研调剂
点击下方视频,先睹为快:
01:
考研调剂
是怎么回事?
首先调剂指的是:
在研究生招生工作中,由于招生计划的限制,有些考生虽然达到分数线,但并不能被安排复试或复试后并不能被录取,对这些考生,招生单位将负责把其全部材料及时转至第二志愿单位,这个过程即称为考研调剂。
也就是说,那些没被自己心仪院校录取的考研生,想要考研上岸,这时候就需要去调剂,考研调剂中又有很多的注意事项,直接关乎着学生最后的考研成败。
所以说,有调剂意向的小伙伴,那就要抓紧开始准备了,毕竟越早联系就多一分机会。
02:
调剂时
要特别注意的三点
在准备调剂时,以下这三点是十分重要的:
1。调剂院校的往年录取分数
每个院校在考研中都有自己的录取分数线,而且每年基本都不会相差很大,因此,在找调剂院校的时候,一定要注意该院校的往年录取分数,看自己是否能达到这个标准。
2。院校调剂的名额
每个院校的调剂名额都是有限的,这个自己一定要了解清楚,这直接关乎着自己的考研成败,如果院校的调剂名额少,自己初试分数又不是很高,这时候就要尽量避开。
3。是否满足调剂院校的条件
每年接受考研调剂的院校也是有自己的硬性条件的,这时候自己一定要搞清楚,看自己是否适合,不然,很容易错失调剂的机会,就白白浪费了自己的备考时间。
03:
用Python
爬取调剂信息
要想成功调剂,首先要把握调剂的第一手信息,能及时地获取到哪所高校的专业招生人数不足,而且符合你的条件,这是很有必要的。
那么今天,我们就来说一说怎么去获取调剂数据并进行分析。以帮助大家更好的了解考研调剂形势。
我们选取中国考研网站上公布调剂查询页面,用Python爬取调剂信息。截止到2月29日16:00,我们共分析整理了385所高校的调剂信息。
获取数据
1:
我们选取中国考研网站上公布调剂查询页面,其页面效果大致如图所示:
首先对页面结构进行简单的分析,确定我们的数据抓取策略。
第一步:获取一页的信息
我们使用谷歌浏览器的开发者工具功能进行元素审查,通过对HTML进行审查,很容易可以可以发现所有的信息流的都是DIV标签包裹的,其共同特征都是class”infoitemfont14”。因此我们可以使用BeautifulSoup库的标签定位功能,先定位到class”infoitemfont14”的标签,再往下一层定位到,等标签属性信息,从而获取页面所有信息。
如图所示,我们获取的信息主要有:
学校
专业
调剂信息标题
发布时间
主页URL
第二步:循环翻页
第一页的网页地址是页面地址:
http:www。chinakaoyan。comtiaojischoollistpagenum1。shtml
通过对网页进行翻页,不难发现网页的构造是有规律的,变化的是pagenum后面的数字,因此我们可以循环的方式构建这个网页地址即可获得所有的网页地址,从而获取所有的页面信息。
代码实现:
导入包
requests
bs4BeautifulS
UserAgent
getonepage(url):
功能:给定URL地址,获取一页的信息
随机UA
{:UserAgent()。random}
try:
发起请求
requests。get(url,headersheaders,timeout5)
Exception:
time。sleep(3)
requests。get(url,headersheaders,timeout5)
解析网页
BeautifulSoup(r。text,)
获取所有信息
bs。findAll(,font14)
获取学校
〔i。find(,)。data〕
获取专业
〔i。find(,)。data〕
获取标题
〔i。find(,)。data〕
获取url地址
〔i。find(,)。find()〔〕data〕
获取时间
〔i。find(,)。data〕
保存信息
pd。DataFrame({:school,
:name,
:title,
:url,
:time})
get2020page():
功能:获取2020年所有的调剂信息
pd。DataFrame()
循环1001页
range(1,1001):
构建url地址
http:www。chinakaoyan。comtiaojischoollistpagenum{}。。format(i)
调用函数
try:
getonepage(url)
追加到大表
dfall。append(df,ignoreindexTrue)
休眠一秒
time。sleep(1)
打印进度
print(我正在获取第{}页。format(i),)
条件判断
df〔〕。str。contains(2019)。sum()0:
break
except:
continue
:
df2020get2020page()
筛选出2020年
df2020〔df2020〔〕。str。contains(2020)〕。copy()
爬取出来的数据以数据框的形式存储,结果如下图所示:
df。head()
截止到2020。2。29日,发布调剂数据一共有385条。
从主页URL中可以获取学校对应的省份信息,这一步代码和上述过程类似。将学校的属性信息进行基本的清洗,得到数据如下:
df。head()
然后将学校的属性信息与调剂信息合并,得到用于数据分析所用的宽表信息如下:
合并信息
pd。merge(df,dfinfo,,)
选取分析字段
dfall〔〔,,,,,〕〕
dfall。head()
数据可视化
2:
接着使用pyecharts库对数据进行以下几个方面的可视化分析:
调剂信息发布热度
学校层次分析
学校类型分析
学校地域分析
专业技能领域分析
调剂信息发布热度
图中可以看到,调剂信息发布最多的是2月21日,也就是考研成绩公布的这几天。
代码实现:
发布时间对应的发布频次
dfall。time。valuecounts()
pubtime。sortindex()
pyecharts。Line
opts
时间走势图
line1Line(initoptsopts。InitOpts(1350,750))
line1。addxaxis(pubtime。index。tolist())
line1。addyaxis(发布热度,pubtime。values。tolist(),
areastyleoptsopts。AreaStyleOpts(opacity0。5),
labeloptsopts。LabelOpts(isshowFalse))
line1。setglobalopts(titleoptsopts。TitleOpts(调剂信息发布时间走势图),
toolboxoptsopts。ToolboxOpts(),
visualmapoptsopts。VisualMapOpts())
学校层次分析
可以看到,调剂学校中双非院校居多,占比高达88。94。211院校为5。65,985院校为5。41。近年来很多双非院校的进步也是很大的,发展态势良好,在调剂时根据院校的具体实力,考生还是可以选择的。
代码实现:
学校层次
dfall。schoollevel。valuecounts()dfall。schoollevel。valuecounts()。sum()
np。round(levelperc100,2)
导入所需包
pyecharts。Pie
pyecharts。ThemeType
绘制柱形图
pie1Pie(initoptsopts。InitOpts(1350,750))
pie1。add(,
〔zip(levelperc。index,levelperc。values)〕,
radius〔40,75〕)
pie1。setglobalopts(titleoptsopts。TitleOpts(学校层次分布),
legendoptsopts。LegendOpts(,15,2),
toolboxoptsopts。ToolboxOpts())
pie1。setseriesopts(labeloptsopts。LabelOpts({c}))
pie1。render()
学校类型分析
从图中可以看到,调剂院校中主要是理工、综合类型院校居多,分别占比42。59和27。06。其次是工科占比11。29。而弄农林、师范、医药等院校的占比都特别小,调剂信息很少。在搜集高校调剂信息的时候,考生也就更有侧重点了。
代码实现:
学校类型
dfall。schooltypes。valuecounts()dfall。schooltypes。valuecounts()。sum()
np。round(typeperc100,2)
导入所需包
pyecharts。Pie
绘制柱形图
pie2Pie(initoptsopts。InitOpts(themeThemeType。WONDERLAND,1350,750))
pie2。add(,
〔zip(typeperc。index,typeperc。values)〕,
radius〔40,75〕)
pie2。setglobalopts(titleoptsopts。TitleOpts(学校类型分布),
legendoptsopts。LegendOpts(,15,2),
toolboxoptsopts。ToolboxOpts())
pie2。setseriesopts(labeloptsopts。LabelOpts({c}))
pie2。render()
学校地域分析
可以看到调剂机会遍布全国,其中占比前三的省市分别是辽宁、北京、山东。沿海城市的调剂机会也很多。只要把握好机遇,考生们一定可以去自己理想的城市读书的。
代码实现:
dfall。province。valuecounts()
provincenum。sortvalues()
pyecharts。Bar
条形图
bar1Bar(initoptsopts。InitOpts(1350,750))
bar1。addxaxis(provincenum。index。tolist())
bar1。addyaxis(省份,provincenum。values。tolist())
bar1。setglobalopts(titleoptsopts。TitleOpts(调剂信息发布数省份分布),
toolboxoptsopts。ToolboxOpts(),
visualmapoptsopts。VisualMapOpts(max40))
bar1。setseriesopts(labeloptsopts。LabelOpts())标签
bar1。reversalaxis()
bar1。render()
pyecharts。Map
Map(initoptsopts。InitOpts(1350,750))
c。add(,〔list(z)zip(provincenum。index。tolist(),provincenum。values。tolist())〕,)
c。setglobalopts(titleoptsopts。TitleOpts(调剂信息省份分布地图),
toolboxoptsopts。ToolboxOpts(isshowTrue),
visualmapoptsopts。VisualMapOpts(max50))
c。render()
专业技能领域分析
可以看到工程、材料、化学等理科专业在调剂中还是比较吃香的。
代码实现:
dfall。name。str。cat()
getwordsnum(content)
keywords〔:50〕
pyecharts。WordCloud
pyecharts。SymbolType,ThemeT
word1WordCloud(initoptsopts。InitOpts(1350,750))
word1。add(,〔zip(keywords。index。tolist(),keywords。values。tolist())〕,
wordsizerange〔20,200〕,)
word1。setglobalopts(titleoptsopts。TitleOpts(调剂专业分布),
toolboxoptsopts。ToolboxOpts())
word1。render()
结语:
调剂这条路实在是不轻松,千万不要坐着等别人来调剂你。调剂也是一个残酷竞争的过程,你晚去一步,位置就可能被人占了,一定要尽早行动,从速从早。最后祝愿所有的考生都能调剂成功,今年顺顺利利地考上研究生!
关注CDA数据分析师公众号
CDA数据分析师
作者:Mika
真正厉害的人从来不会炫耀自己学了多少课2017年年初,快要大学毕业的端银从湛江来到深圳,他对我说弗兰克,我想要成长,想做你助理跟你学习,我不在乎钱。对于不在乎钱的人,特别是年轻人,我特别害怕。不是怕他台……
上了名校才知道,读书无用论都是骗人的!相信不少小伙伴刚从春节亲戚们五花八门的盘问中脱身,叫苦连连。其实,有个话题可以成功转嫁注意力,瞬间引发七大姑八大姨集体大讨论:读名校到底有什么用?不少人会说,现在卖……
漫谈斐波那契数列与黄金分割比(一)奇妙的斐波那契数列:斐波那契数列的由来是“兔子问题”。从中总结的规律就是:(1)每个月小兔子数上个月的大兔子数;(2)每个月的大兔子数上个月的大兔……
学长给大一新生的43条忠告!太有用了!十年寒窗苦泛舟,终得梅花扑鼻香。对刚刚高中毕业进入大学校园的你们来说,这是你们第一次放下高考的重担,开始追逐自己的理想。这是你们第一次离开家庭的港湾,开始独立的求学生活。大学是……
用人单位须知如何正确地使用二本院校的大学。。。随着各省区在高校招生时的“二本”、“三本”的合并,在此说“如何使用二本院校的大学本科毕业生”就显得有些混乱。确切的说,应该是“如何使用省级重点大学以下院校的本科大学毕业生”的问……
大学生最欢迎的免费软件你是否为大学生活不知道该做什么在苦恼?你是否已经感知到大学专业学习知识的匮乏?你是否自己也想多学习或者接触些新的行业软件?我的分享会让你有一丝的欣喜:1……
工作三年与20读研生三年的利与弊研究生三年与就业三年,不论三年就业仍是读研三年,终究意图仍是找到一份福利待遇好、安稳的就业,满意自己、家人的自我希望。没有严厉的标准说哪一个更好,要看你的个人选择和就业规划。南……
最新考研调剂信息全面获取!Python帮你一手。。。CDA数据分析师出品【导语】:今天我们聊聊如何获取考研调剂数据,Python技术部分可以直接看第三部分。在上周考研分数已经出来了,最近……
20考研复试:考试这些细节你了解多少?2020年考研初试成绩陆续发布出来了,不知道小伙伴们都考的怎么样?或许关于不少考研幸运儿来说,成功过了考研初试这道坎之后,又即将再接再励地迎来考研的第二道坎考研复试。我们都知道……
我在西安上大学的那三年(四):军训生活军训生活作者:徐雁冰自从到了西安,天气一直特别争气,格外的好。九月份的前奏,还是相当热的,就算待在那里不动,还是会有出汗的迹象。大一新生,已经陆陆续续的……
理转文该不该?我计算机本科毕业后,家人托关系,把我安排到名企做工程师,那时我身边围了一群朋友。但是我想投入到生物医药这个最高尚、最重要的领域,所以我放弃工作,待……
刘海贵中国新闻采访写作学新修版笔记和课后。。。第一章绪论1。1复习笔记【知识框架】【考点难点归纳】考点一:新闻采访的定义1两类代表性的诠释(1)新闻采访是记者认识客观实际或主观认识客观的……
孩子入学看家长学历不仅仅涉嫌歧视一年一度的招生季即将来临,让孩子读个满意的学校,是所有家长的心愿。为了孩子的将来,家长们都舍得跑,舍得花钱,也愿意满足学校的要求。近日,四川师范大学附属圣菲小学的一则入学面试通……
形式主义的教案早该休矣近日看了一段北京电视台科教频道对北京市昌平区城关小学校长柏继明的访谈:柏校长介绍了他们学校的教案改革,老师不用每天都写那些程式化的教案,平时的教案可以写在书上,也可以不写,一个……
防“高考诈骗”教育宜早不宜迟每年高考前,都有不法分子抓住考生和家长“急切得高分”的心理,编造和散发虚假信息而骗取钱财;在高考后,他们则利用考生和家长“迫切进高校”的愿望,在填报志愿和高校招生录取期间,用不……
书法教育不能靠考前临时抱佛脚为适应中、高考,近日,山东一学校在校内推广以“衡水体”为代表的手写印刷体引发热议。有人认为其文体严谨、整洁、美观,可助力学生在考试中取得好成绩,也有人认为其会磨掉学生的个性。……
学生作业不能为了“创新”而创新近年来,一些学校、教师经常给学生留一些所谓的“创新”作业,诸如各种名目的手抄报、与自家房间合影、折树枝插花,等等,似乎作业越奇葩越表现出创新的高度。这些创新作业一味地求新求异求……
高校更名理应慎重近日,教育部公布了《关于2019年拟批准设置高等学校的公示》,公示名单涉及11所高校,其中,4所高校由“学院”更名为“大学”,4所高校由“独立学院”转设为独立设置的本科学校。……
给教师发放获奖证书莫忘举行仪式“校长(主任),您好!请派人到处(室、科)领取比赛获奖证书。”“老师,您好!比赛的获奖证书已到学校,请尽快到处(室)取回。”“通知:请参加比赛的老师现在就到处(室)领取获奖证书……
校长的性格短板切勿演绎成管理个性葛校长对自己、对别人都很吝啬。在学校管理上,对如老师外出学习、培训等需要花钱的事项经常说“不”,生怕多花了钱。对此,他的说辞是:“学校资金紧张,花钱可要节约!”吴校长是家……
以招生为噱头让“儿童节”活动变了味每年的6月1日,学校或幼儿园一般都会组织庆祝活动。孩子们都会参加大型的节目表演,而家长、教育和行政部门的主管领导,还有社会人士,包括准学生家长,都可能被邀请观看节目。因学校掺杂……
用搜题软件完成作业是“假学习”有了搜题软件,妈妈再也不用担心我的学习了?但是现实中却出现这样的问题,做出完美练习卷的同学,考试时得分并不高。平时,遇到作业难题,打开搜题软件查一查,答案直接就出来了,练习卷完……
教育局长专业化是教育现代化的必然要求在3月召开的全国两会上,全国政协委员、北京师范大学党委书记程建平的提案“基层教育‘当家人’得有门槛”引发社会各界热议。提案以北京师范大学的一项调查研究为基础,调查发现,全国26……
如何庆“六一”应该由孩子们做主儿童节到底该怎样过?当然要问节日的主人:孩子们!遗憾的是,我们总是站在成人的角度为孩子们安排好一切:舞台上的几个孩子高兴地载歌载舞,大多数孩子则坐在台下羡慕地看着表演。大……