范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

大厂数据分析师进阶之路,一个合格的数据分析师如何造数?

  不会"造数 "的数据分析师,不是一个好数据分析师,这里所说的"造数 ",并不是让我们数据分析师去胡编乱造数据,而是在日常数据分析过程中我们需要模拟生成一些数据用于测试,也就是测试数据。
  本文所使用的Faker库就是一个很好的模拟生成数据的库,在满足数据安全的情况下,使用Faker库最大限度的满足我们数据分析的测试需求,可以模拟生成文本、数字、日期等字段,下面一起来学习。 示例工具:anconda3.7
  本文讲解内容:Faker模拟数据并导出Excel
  适用范围:数据测试和脱敏数据生成  常规数据模拟
  常规数据模拟,比如我们生成一组范围在100到1000的31个数字,就可以使用一行代码np.random.randint(100,1000,31),如下就是我们使用随机数字生成的sale随日期变化的折线图。 import pandas as pd import numpy as np import datetime  df=pd.DataFrame(data=np.random.randint(100,1000,31),                 							index=pd.date_range(datetime.datetime(2022,12,1),periods=31),                 							columns=["sale"]).plot(figsize=(9,6))
  Faker模拟数据
  使用Faker模拟数据需要提前下载Faker库,在命令行使用pip install Faker命令即可下载,当出现Successfully installed的字样时表明库已经安装完成。 !pip install Faker -i https://pypi.tuna.tsinghua.edu.cn/simple
  导入Faker库可以用来模拟生成数据,其中,locale="zh_CN"用来显示中文,如下生成了一组包含姓名、手机号、身份证号、出生年月日、邮箱、地址、公司、职位这几个字段的数据。 #多行显示运行结果 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all"  from faker import Faker faker=Faker(locale="zh_CN")#模拟生成数据  faker.name() faker.phone_number() faker.ssn() faker.ssn()[6:14] faker.email() faker.address() faker.company() faker.job()
  除了上面的生成字段,Faker库还可以生成如下几类常用的数据,地址类、人物类、公司类、信用卡类、时间日期类、文件类、互联网类、工作类、乱数假文类、电话号码类、身份证号类。 #address 地址 faker.country()  # 国家 faker.city()  # 城市 faker.city_suffix()  # 城市的后缀,中文是:市或县 faker.address()  # 地址 faker.street_address()  # 街道 faker.street_name()  # 街道名 faker.postcode()  # 邮编 faker.latitude()  # 维度 faker.longitude()  # 经度
  #person 人物 faker.name() # 姓名 faker.last_name() # 姓 faker.first_name() # 名 faker.name_male() # 男性姓名 faker.last_name_male() # 男性姓 faker.first_name_male() # 男性名 faker.name_female() # 女性姓名
  #company 公司 faker.company() # 公司名 faker.company_suffix() # 公司名后缀
  #credit_card 银行信用卡 faker.credit_card_number(card_type=None) # 卡号
  #date_time 时间日期 faker.date_time(tzinfo=None) # 随机日期时间 faker.date_time_this_month(before_now=True, after_now=False, tzinfo=None) # 本月的某个日期 faker.date_time_this_year(before_now=True, after_now=False, tzinfo=None) # 本年的某个日期 faker.date_time_this_decade(before_now=True, after_now=False, tzinfo=None)  # 本年代内的一个日期 faker.date_time_this_century(before_now=True, after_now=False, tzinfo=None)  # 本世纪一个日期 faker.date_time_between(start_date="-30y", end_date="now", tzinfo=None)  # 两个时间间的一个随机时间 faker.time(pattern="%H:%M:%S") # 时间(可自定义格式) faker.date(pattern="%Y-%m-%d") # 随机日期(可自定义格式)
  #file 文件 faker.file_name(category="image", extension="png") # 文件名(指定文件类型和后缀名) faker.file_name() # 随机生成各类型文件 faker.file_extension(category=None) # 文件后缀
  #internet 互联网 faker.safe_email() # 安全邮箱 faker.free_email() # 免费邮箱 faker.company_email()  # 公司邮箱 faker.email() # 邮箱
  #job 工作 faker.job()#工作职位
  #lorem 乱数假文 faker.text(max_nb_chars=200) # 随机生成一篇文章 faker.word() # 随机单词 faker.words(nb=10)  # 随机生成几个字 faker.sentence(nb_words=6, variable_nb_words=True)  # 随机生成一个句子 faker.sentences(nb=3) # 随机生成几个句子 faker.paragraph(nb_sentences=3, variable_nb_sentences=True)  # 随机生成一段文字(字符串) faker.paragraphs(nb=3)  # 随机生成成几段文字(列表)
  #phone_number 电话号码 faker.phone_number() # 手机号码 faker.phonenumber_prefix() # 运营商号段,手机号码前三位
  #ssn 身份证 faker.ssn() # 随机生成身份证号(18位)
  模拟数据并导出Excel
  使用Faker库模拟一组数据,并导出到Excel中,包含姓名、手机号、身份证号、出生日期、邮箱、详细地址等字段,先生成一个带有表头的空sheet表,使用Faker库生成对应字段,并用append命令逐一添加至sheet表中,最后进行保存导出。 from faker import Faker from openpyxl import Workbook  wb=Workbook()#生成workbook 和工作表 sheet=wb.active  title_list=["姓名","手机号","身份证号","出生日期","邮箱","详细地址","公司名称","从事行业"]#设置excel的表头 sheet.append(title_list)  faker=Faker(locale="zh_CN")#模拟生成数据  for i in range(100):       sheet.append([faker.name(),#生成姓名                      faker.phone_number(),#生成手机号                      faker.ssn(), #生成身份证号                      faker.ssn()[6:14],#出生日期                      faker.email(), #生成邮箱                      faker.address(), #生成详细地址                      faker.company(), #生成所在公司名称                      faker.job(), #生成从事行业                     ])                      wb.save(r"D:系统桌面(勿删)Desktop模拟数据.xlsx")
  以上使用Faker库生成一组模拟数据,并且导出到Excel本地,使用模拟数据这种数据创建方式极大方便了数据的使用,更多关于数据方面的内容可以关注我,一起学习。
  初入数据分析,对于技能和知识点的应用明显不足,那么就需要我们系统的学习这部分知识点,本次推荐的数据分析训练营,带你系统的学习数据分析知识,感兴趣的话可以点击 「链接」进入了解,并进行学习~

爱奇艺陷限制投屏等合规争议背后涨价的会员费与缩水的权益近日,爱奇艺可谓冰火两重天,一边是电视剧狂飙热播,一边因限制投屏3个设备同时登录账号被封等争议冲上热搜。不只爱奇艺,围绕用户权益,优酷腾讯芒果等长视频平台也多次引发争议。从超前点播城市建成区测量丰都丰都,古称酆都,以鬼城著称。其地处重庆市中部,东临石柱,西接涪陵,北挨忠县,南靠武隆,西北与东南分别与垫江彭水交接。丰都在重庆的位置丰都县下辖2街23镇5乡,幅员面积2901平方千会取代人类一部分职业?ChatGPT安慰说技术也将创造新的机会ChatGPT火爆,其强大的能力让人们担忧它是否会取代一些职业。中新财经以你觉得你会取代人类的一部分职业吗?提问ChatGPT,ChatGPT回答说,有些职业,特别是那些需要重复性专家热议设计武汉岳飞文化旅游线路,将岳飞文化融入到城市建设中2月8日下午,在武汉市社科院举行的岳飞行迹与武汉文化专家论坛上,来自华中师范大学历史文化学院武汉科技大学国学研究中心武汉岳飞文化研究会汉阳区委宣传部武汉市社科院的专家学者,就保护开小鹰半月谈伊春齐齐哈尔等地为何出现逆城市化?春节国内出游超3亿人次恢复至2019年同期近9成2023年春节假期国内旅游出游3。08亿人次,同比增长23。1,恢复至2019年同期的88。6实现国内旅游收入3758。43亿元,同抖音搅浑外卖市场?美团意外跌出万亿俱乐部财联社新消费日报2月8日讯(记者李丹昱)2月8日,美团(03690。HK)开盘后一路走跌,跌幅一度超过8,后有所回升,截至发稿,美团跌6。35,报153。3港元。美团方面并未对股价别让自己后悔了,子不教,父之过所谓百行以孝为先,一个读小学的和一个在上幼儿园的又怎么会懂不看,应验了那句话养儿一百岁长忧九十九。事情是从2022年开始,自从教育局公布全国小学统一线上教学之后,为了方便孩子学习我购物不达标就扣房卡,导游竟说心知肚明履行购物义务?出门旅游你是喜欢精心计划的自由行还是跟着导游指哪打哪的跟团游?随着一年一度的春节长假结束中老年人又成了旅游的主力军各式旅行团如雨后春笋般让人挑得眼花缭乱购物团虽然早已被明令禁止却不惹众怒!无限期禁言近日,游客私闯纳木错景区的话题登上微博热搜,引发争议。2月5日,抖音官方发布关于打击违规闯入旅游景点等行为的公告,6个账号被无限期禁言,呼吁游客理性打卡观光。此外,2月6日,快手发浪漫大理古城(1)行走怒江大峡谷天境怒江大峡谷一个人神共居的地方提起云南,大家都会想到彩云之南的石林大理丽江西双版纳等有名的常规景点,云南去过三次,都是很久前跟旅行社走的,几年的户外,让我理解了真正意义上旅行,那女子单人单骑摩旅发动机疑被加白糖一名00后女子,独自骑着摩托车,从河北到云南旅游,途中一名男子趁她不注意,偷偷在她的发动机里加了白糖,导致她骑车过程中,发动报废。她怀疑是一名动机不纯的男摩友作的案,她说对方和她同
凯茉锐红外热成像的工作原理红外线是一种电磁波,具有与无线电波和可见光一样的本质。红外线的发现是人类对自然认识的一次飞跃。利用某种特殊的电子装置将物体表面的温度分布转换成人眼可见的图像,并以不同颜色显示物体表Science晶界滑动塑性的原子机制研究获进展一研究背景晶界(GBs)是分离不同晶体取向的晶粒的界面。当两个相邻的晶粒发生平行于边界面的相对位移时,GB就会滑动。GB滑移,有时与GB迁移相结合,会强烈影响多晶材料的非弹性变形,物理学家发现了一个奇怪的冰水新四方相在高压相之间的短暂过渡中发现了一种新的水冰结晶形式。它被称为IceVIIt,它发生在物质在两个已知的立方分子排列之间滑动时。尽管IceVIIt不太可能自然地出现在地球表面,但它可以威胁中国空间站的星链卫星,背景不简单搞明白美国星链卫星的背景,才能更好地理解为什么这次中国要如此严肃地对待。这个庞大的超级卫星计划,来自美国SpaceX公司CEO马斯克的狂想。他设想用超过1。2万颗运行在近地轨道的小建议中老年人少吃大鱼大肉,多吃这6种蔬菜,应季而食更鲜美春分过后,养生正当时,在饮食上要顺应季节而食,不建议多吃大鱼大肉和辛辣食物,建议多吃点应季蔬菜和水果,下面,和大家分享6种适合在春天吃的食材,好吃好做,清淡少油,特别适合在春季进补工资卡有利息吗?用不用取出来另存?如题,工资卡有利息吗?如果有,怎么没在卡上体现呢?用不用每月发工资时取出来另存?一工资卡利息1。利息是有的。只要你的卡不是信用卡类别(一般工资卡都是借记卡),卡也好折也好,都是正常三星代工良率仅为35吓退客户,亡羊补牢却难以挽回高通在圆晶代工领域,台积电是无可争议的霸主,在其身后最值得注意的追赶者则是韩国巨头三星。只不过,近两年由三星代工的高通骁龙888和骁龙8Gen1芯片在性能和功耗上的表现都不能让人满意,外卖员必备!这3款电动车续航200公里起,性能堪比摩托车请您在阅读前,先点击上面的关注。感谢您的支持,我们将为您带来更多有价值的内容。最近新能源战略家在平台上收到了一条外卖员的留言自己家的外卖电动车坏了,想购买一辆新的外卖电动车,有没有未来三到五年,最好的行业,一定是中高端制造业目前,中国已经是一个制造业大国,工业类别齐全,制造业规模遥遥领先,许多领域已经进入世界前沿,虽然挑战很大,但发展空间很大。近年来,中国逐渐成为世界工厂和世界上最大的消费市场,中国制微信尽量不要发语音,背后明白值得深思!望周知作为一款目前十分流行的互联网社交软件,微信的用户数量已经达到了13亿,远远超过任何一款应用软件。大至六七十岁的老年人,小至几岁的小朋友,基本都是通过微信进行交流。这么庞大的使用规模女子卖4套房创业负债1亿,无家可归刷屏,前股东讲述公司发展内幕!最新回应直播赚钱退费来源每日经济新闻每经记者舒冬妮陈鹏丽每经编辑程鹏董兴生盖源源我,叫王荣辉。一个失败的创业者,一个负债累累的Loser,一个被人唾骂卷款跑路的骗子。实际上,我是倾尽所有,但仍旧在岗的