范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

用Python带你看豆瓣上征婚交友的小姐姐们

  作者:某某白米饭
  来源:Python 技术
  派森酱在刷豆瓣的时候发现,豆瓣上居然还有一个叫我被豆油表白了的交友话题,阅读量居然高达 8087734 次,拥有 1000+ 篇话题,几乎每篇平均被阅读了 8000+ ,看了一下里面的小姐姐照片还挺多的。今天我们就用爬虫把他们下载下来。
  首先在浏览器中登录豆瓣,打开话题广场在右侧有一个分类查看话题点开情感。
  打开后就是下面这个样子的。
  爬虫开始
  打开控制面板 F12, 找到带 items 的连接,然后复制整个 Request Headers 到代码中,采用复制 cookie 的方式登录豆瓣。
  url_basic = "https://m.douban.com/rexxar/api/v2/gallery/topic/18306/items?from_web=1&sort=hot&start={}&count=20&status_full_text=1&guest_only=0&ck=GStY"   headers = {      "Accept": "application/json, text/javascript, */*; q=0.01",     "Accept-Encoding": "gzip, deflate, br",     "Accept-Language": "zh-CN,zh;q=0.9",     "Connection": "keep-alive",     "Content-Type": "application/x-www-form-urlencoded",     "Cookie": "bid=n7vzKfXLoUA; douban-fav-remind=1; ll="108296"; __utmc=30149280; __utmz=30149280.1624276858.2.2.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); ap_v=0,6.0; gr_user_id=ca8b9156-1926-4c82-9dda-27fc7f7ad51b; __utma=30149280.66080894.1623848440.1624276858.1624282580.3; __utmt=1; dbcl2="157316158:e4ojS8paSUc"; ck=GStY; push_doumail_num=0; __utmv=30149280.15731; frodotk="a187943e3a17e8bbe496bcbaae47ba31"; push_noty_num=0; __utmb=30149280.11.10.1624282580",     "Host": "m.douban.com",     "Origin": "https://www.douban.com",     "Referer": "https://www.douban.com/gallery/topic/18306/",     "sec-ch-ua": "" Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"",     "sec-ch-ua-mobile": "?0",     "Sec-Fetch-Dest": "empty",     "Sec-Fetch-Mode": "cors",     "Sec-Fetch-Site": "same-site",     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"   }
  url_basic 就是可以返回列表 json 的地址,只有 start 参数在随鼠标下滑翻页改变。
  for i in range(1,35):          res = requests.get(url=url_basic.format(i * 20), headers=headers)     res_json = json.loads(res.text)     index = 0     for item in res_json.get("items"):       target = item.get("target")       status = target.get("status")       print("这里是第 {} 个".format((i - 1) * 20 + index));       index = index + 1       with open("douban.txt", "a+") as f:         f.write(json.dumps(status) + " ");      sleeptime=random.randint(1, 10)     time.sleep(sleeptime)
  这里把下载下来的数据缓存在 txt 文件里面。 图表交友地图
  先提取小姐姐的地址做一个热力图,看看哪边的小姐姐最多。
  需要安装 cpca 第三方库,cpca 是一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块。简单来说就是将交友文字中出现的市区名称转换为省份名称。 pip install cpca
  windows 上安装可能出现  Building wheel for pyahocorasick (setup.py) ... error  错误,需要安装 Microsoft Visual C++ Build Tools  后再 pip install cpca。
  第二个安装的是 pyecharts 第三方库,用来可视化热力图。 pip install pyecharts
  可以看出华东和华南交友的小姐姐要比华北和西部的小姐姐多很多,看起来单身小姐姐都集中在一线城市及其周边。
  Python 代码如下: from pyecharts.charts import Geo from pyecharts.globals import ChartType  addr_dic = {} file_object = open("douban.txt","r") try:     for line in file_object:         item = json.loads(line)         if item == None:             continue         author = item["author"]         text = item["text"]          addr_transform = cpca.transform([text])         addr = None          if addr_transform["省"].str.split(" ")[0] != None:             addr = addr_transform["省"].str.split(" ")[0][0].rstrip("省")          //这里提取创作者里面的地址         if addr is None and author["loc"] is not None:             cpca.transform([author["loc"]["name"]])              if addr_transform["省"].str.split(" ")[0] != None:                 addr = addr_transform["省"].str.split(" ")[0][0].rstrip("省")                  //这个地址要转换一下,不然 echarts 不认         if addr is not None:             if addr == "广西壮族自治区":                 addr = "广西"             if addr == "香港特别行政区":                 addr = "香港"             if addr == "澳门特别行政区":                 addr = "澳门"         addr_dic[addr] = addr_dic.get(addr, 0) + 1  finally:     file_object.close()  // 小姐姐热力图 (     Geo()     .add_schema(maptype="china")     .add(         "",         [list(z) for z in zip(list(addr_dic.keys()), list(addr_dic.values()))],         type_=ChartType.HEATMAP,     )     .set_series_opts(label_opts=opts.LabelOpts(is_show=False))     .set_global_opts(         visualmap_opts=opts.VisualMapOpts(),     ).render("热力图.html")   ) 词云
  词云可以用来展示小姐姐们自身的情况和对对方的要求。用 pyecharts 生成词云和用 jieba 第三方库分词。
  安装一下 jieba 第三方库。 pip install jieba
  Python 代码如下: import jieba from collections import Counter from pyecharts.charts import WordCloud  for line in file_object:     item = json.loads(line)     if item == None:         continue     text = item["text"]      seg_list = jieba.cut(text, cut_all=False)     text_list.extend(seg_list)  # 词频统计,使用Count计数方法 words_counter = Counter(text_list) # 将Counter类型转换为列表 words_list = words_counter.most_common(500) (     WordCloud()     .add(series_name="", data_pair=words, word_size_range=[20, 66])     .render("词云.html") )  照片下载
  最后来下载小姐姐照片吧,直接用 request.get() 方法请求  images  里面的地址。for line in file_object:     item = json.loads(line)     if item == None:         continue     images = item["images"]     id = item["id"]      index = 0     for i in images:         index = index + 1         url = i.get("large").get("url")         r = requests.get(url);         with open("./image/{}-{}.jpg".format(id, index), "wb") as f:             f.write(r.content)  总结
  这篇爬虫到这里就结束了,派森酱在这里祝愿朋友们都能找到自己的良人。

电商取缔菜市场后会是什么后果?衣食住行是民生最基础的需求,年几十万亿的规模,让无数互联网企业前仆后继,哪怕是撞得头破血流也在所不惜,让资本市场为之疯狂,动辄几十亿几百亿砸进去,烧起来一点也不心疼,都是因为源于一联想,你欠倪光南们的可不仅仅是这些最近看了张捷教授的视频,终于知道联想之所以能称为联想最根本的原因是什么没有倪光南院士和他的联想汉卡以及联想输入法,联想可能都不能称之为联想。在计算机引入中国的时候,它的输入与输出只快手业务转型阵痛商务人员业绩不达标当月离职与隔壁长视频代表企业爱奇艺裁员2040的消息一起被市场关注的,还有短视频领域新晋巨头快手裁员的传闻,同样被互联网圈热议。一名快手的商务人员向第一财经记者确认了传闻的真实性(公司)北物联网学习物联网如何为双十二买单?学到牛牛作者学到牛牛刚刚过去的双十二购物节又一次席卷了大家的钱包,当然也包括小编的。不知道有没有小伙伴和小编一样,忍过了双十一,但终究还是摆在了双十二的石榴裙下。以前的网络购物之后,我们收某想和某为的恩怨司马喷某想对不对为何一桩旧案,会引发如此大的关注?原因之一,当然是5G标准的重要性。信道编码是5G通信标准中重要的组成部分之一,对于芯片复杂度,终端成本,功耗,以及专利费用都有很大影响。所以各个公华为任正非的身价究竟有多高?其实任老一直在富豪榜上任正非的身价究竟有多高?任正非从2011年起就进入了福布斯中国富豪榜,当时他的排名是92位,之后他年年入选富豪榜,到了2018年,任正非的身价是205。6亿元,排名83位,名次还有vivoOPPO华为的千元机值得买吗?值不值得买,要看需求。这几家的手机性价比不高,但是质量很稳。而且每款千元机还有各自的特点,比如大电池之类的。如果是线下机的话,还能讲讲价,售后也比较多,所以这个还是要看需求。这三个机器人控制系统,都是采用哪家?国内有专门做机器人控制系统的企业吗?工业机器人控制系统是机器人的大脑。通俗的理解工业机器人控制系统就是一个可以解析运动算法的操作系统。在控制系统之上搭建各类应用,例如应用于焊接的焊接软件包,应用于码垛的码垛软件包,应华为和联想的不同?联想和华为两种截然不同的发展路线,任正非华为30年坚持聚焦在主航道,抵制一切诱惑坚持不走捷径,拒绝机会主义,踏踏实实,长期投入,厚积薄发坚持以客户为中心,以奋斗者为本,坚持自我批判一加8周年,首次面向用户推出盲盒产品可获得2022年新机等IT之家12月14日消息,一加方面今日宣布,为庆祝一加8周年特开启无畏无限线下活动,今日起至12月28日,用户可在线下收集盲盒,首个集齐的用户可获得2022年限定新机全家桶。除此之名单超长!华为官宣提前完成既定产品HarmonyOS2正式版升级计划其实根据此前华为官方公布的数据来看,鸿蒙HarmonyOS2对于其既定计划更新产品的升级速度远比之前官方公布的更新计划要快的多。日前,华为官方也正式发布公告证实了这一推测。日前,华
如何用抖音创造价值,而不是耗费生命?说起抖音,有的人深恶痛绝,有的人爱不释手。有的人之所以痛恨,是因为如果你把抖音当作一个打发时间的工具,那是确实够打发时间的,晚上吃完饭躺在床上打开抖音,早上醒来躺在床上打开抖音,中打工注定逃脱不了996一群程序员搞了一个996ICU的东西,现在竟然成了热门,有时候想想还是蛮搞笑的,老板给员工发着工资,你只要按时的坐一个月,准时上下班,甚至再加加班就能拿到工资,而不用担负其他任何的软件工程毕业设计任务书(参考模板)毕业设计(论文)任务书一课题研究的内容与要求1研究前需对课题的研究背景意义以及系统在国内外的应用现状进行一定的调查了解。2通过文献资料调研,深入了解设计开发系统所需的方法和技术。3Web前端的一些开发规范(仅供参考)一文件命名规则文件名称统一用小写的英文字母数字和下划线的组合,其中不得包含汉字空格和特殊字符命名原则的指导思想一是使得你自己和工作组的每一个成员能够方便的理解每一个文件的意义,二是云集,花生日记,每日一淘等中国电商传销大军正在路上现在的社会只要赚钱,其实无论什么模式都可以使用的,无论它是搞传销的还是帮助黑心医院拉客都是可以的,大家已经建立了一个嗜金如命的价值观,这不,据说云集要上市了,有个人评论曾经质疑云集阿里事件王某文不构成犯罪,张某或被当抢使吵吵闹闹的阿里事件算是尘埃落定,最终的警方通报告诉了大家的结果。就是阿里女上司领导不构成犯罪,但是违反了治安管理法,拘留15日。这个和之前的文章阿里女员工被侵害事件或可能反转!大家特斯拉维权事件反转?超速近40,老年人驾驶,刹车踩轻特斯拉事件经过不停的发酵,我感觉有点反转了。为什么这么说?因为之前特斯拉不肯妥协,于是遭遇了一帮媒体的炮轰,最后特斯拉终于顶不住了,半夜开始道歉。道歉完毕后,大家总算松了个口气,并10年来中国互联网巨头除了不停地捞钱,创造力基本是零写下这个标题的时候,我估计很多人要骂我了,因为大家会觉得,你敢说中国互联网的创造力是零,你是眼瞎了吗?你难道没有看到中国互联网的bat市值越来越高,还诞生了新的美团,拼多多,滴滴,最新中国十大寺庙排行榜,大家同意这个排名吧,欢迎补充第一名河南省洛阳市白马寺白马寺,中国第一古刹,世界著名伽蓝。位于河南省洛阳市,始建于东汉永平十一年(公元68年),是佛教传入中国后兴建的第一座寺院,也是中国日本朝鲜越南及欧美国家佛最新中国著名十大寺庙排名新鲜出炉,请看你家乡的有没有上榜?第一名河南省洛阳市白马寺白马寺,中国第一古刹,世界著名伽蓝。位于河南省洛阳市,始建于东汉永平十一年(公元68年),是佛教传入中国后兴建的第一座寺院,也是中国日本朝鲜越南及欧美国家佛快速回顾NVIDIA显卡发展史,看看小伙伴们都用过哪些显卡说到显卡第一个想到的就是英伟达(NVIDIA),今年6月份马上又迎来RTX3080Ti3070Ti,有人问了,到底这些年间NVIDIA总共发布了哪些显卡呢?下面就带领大家回顾一下英