大厂数据分析师进阶之路,一个合格的数据分析师如何造数?
不会"造数 "的数据分析师,不是一个好数据分析师,这里所说的"造数 ",并不是让我们数据分析师去胡编乱造数据,而是在日常数据分析过程中我们需要模拟生成一些数据用于测试,也就是测试数据。
本文所使用的Faker库就是一个很好的模拟生成数据的库,在满足数据安全的情况下,使用Faker库最大限度的满足我们数据分析的测试需求,可以模拟生成文本、数字、日期等字段,下面一起来学习。 示例工具:anconda3.7
本文讲解内容:Faker模拟数据并导出Excel
适用范围:数据测试和脱敏数据生成 常规数据模拟
常规数据模拟,比如我们生成一组范围在100到1000的31个数字,就可以使用一行代码np.random.randint(100,1000,31),如下就是我们使用随机数字生成的sale随日期变化的折线图。 import pandas as pd import numpy as np import datetime df=pd.DataFrame(data=np.random.randint(100,1000,31), index=pd.date_range(datetime.datetime(2022,12,1),periods=31), columns=["sale"]).plot(figsize=(9,6))
Faker模拟数据
使用Faker模拟数据需要提前下载Faker库,在命令行使用pip install Faker命令即可下载,当出现Successfully installed的字样时表明库已经安装完成。 !pip install Faker -i https://pypi.tuna.tsinghua.edu.cn/simple
导入Faker库可以用来模拟生成数据,其中,locale="zh_CN"用来显示中文,如下生成了一组包含姓名、手机号、身份证号、出生年月日、邮箱、地址、公司、职位这几个字段的数据。 #多行显示运行结果 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" from faker import Faker faker=Faker(locale="zh_CN")#模拟生成数据 faker.name() faker.phone_number() faker.ssn() faker.ssn()[6:14] faker.email() faker.address() faker.company() faker.job()
除了上面的生成字段,Faker库还可以生成如下几类常用的数据,地址类、人物类、公司类、信用卡类、时间日期类、文件类、互联网类、工作类、乱数假文类、电话号码类、身份证号类。 #address 地址 faker.country() # 国家 faker.city() # 城市 faker.city_suffix() # 城市的后缀,中文是:市或县 faker.address() # 地址 faker.street_address() # 街道 faker.street_name() # 街道名 faker.postcode() # 邮编 faker.latitude() # 维度 faker.longitude() # 经度
#person 人物 faker.name() # 姓名 faker.last_name() # 姓 faker.first_name() # 名 faker.name_male() # 男性姓名 faker.last_name_male() # 男性姓 faker.first_name_male() # 男性名 faker.name_female() # 女性姓名
#company 公司 faker.company() # 公司名 faker.company_suffix() # 公司名后缀
#credit_card 银行信用卡 faker.credit_card_number(card_type=None) # 卡号
#date_time 时间日期 faker.date_time(tzinfo=None) # 随机日期时间 faker.date_time_this_month(before_now=True, after_now=False, tzinfo=None) # 本月的某个日期 faker.date_time_this_year(before_now=True, after_now=False, tzinfo=None) # 本年的某个日期 faker.date_time_this_decade(before_now=True, after_now=False, tzinfo=None) # 本年代内的一个日期 faker.date_time_this_century(before_now=True, after_now=False, tzinfo=None) # 本世纪一个日期 faker.date_time_between(start_date="-30y", end_date="now", tzinfo=None) # 两个时间间的一个随机时间 faker.time(pattern="%H:%M:%S") # 时间(可自定义格式) faker.date(pattern="%Y-%m-%d") # 随机日期(可自定义格式)
#file 文件 faker.file_name(category="image", extension="png") # 文件名(指定文件类型和后缀名) faker.file_name() # 随机生成各类型文件 faker.file_extension(category=None) # 文件后缀
#internet 互联网 faker.safe_email() # 安全邮箱 faker.free_email() # 免费邮箱 faker.company_email() # 公司邮箱 faker.email() # 邮箱
#job 工作 faker.job()#工作职位
#lorem 乱数假文 faker.text(max_nb_chars=200) # 随机生成一篇文章 faker.word() # 随机单词 faker.words(nb=10) # 随机生成几个字 faker.sentence(nb_words=6, variable_nb_words=True) # 随机生成一个句子 faker.sentences(nb=3) # 随机生成几个句子 faker.paragraph(nb_sentences=3, variable_nb_sentences=True) # 随机生成一段文字(字符串) faker.paragraphs(nb=3) # 随机生成成几段文字(列表)
#phone_number 电话号码 faker.phone_number() # 手机号码 faker.phonenumber_prefix() # 运营商号段,手机号码前三位
#ssn 身份证 faker.ssn() # 随机生成身份证号(18位)
模拟数据并导出Excel
使用Faker库模拟一组数据,并导出到Excel中,包含姓名、手机号、身份证号、出生日期、邮箱、详细地址等字段,先生成一个带有表头的空sheet表,使用Faker库生成对应字段,并用append命令逐一添加至sheet表中,最后进行保存导出。 from faker import Faker from openpyxl import Workbook wb=Workbook()#生成workbook 和工作表 sheet=wb.active title_list=["姓名","手机号","身份证号","出生日期","邮箱","详细地址","公司名称","从事行业"]#设置excel的表头 sheet.append(title_list) faker=Faker(locale="zh_CN")#模拟生成数据 for i in range(100): sheet.append([faker.name(),#生成姓名 faker.phone_number(),#生成手机号 faker.ssn(), #生成身份证号 faker.ssn()[6:14],#出生日期 faker.email(), #生成邮箱 faker.address(), #生成详细地址 faker.company(), #生成所在公司名称 faker.job(), #生成从事行业 ]) wb.save(r"D:系统桌面(勿删)Desktop模拟数据.xlsx")
以上使用Faker库生成一组模拟数据,并且导出到Excel本地,使用模拟数据这种数据创建方式极大方便了数据的使用,更多关于数据方面的内容可以关注我,一起学习。
初入数据分析,对于技能和知识点的应用明显不足,那么就需要我们系统的学习这部分知识点,本次推荐的数据分析训练营,带你系统的学习数据分析知识,感兴趣的话可以点击 「链接」进入了解,并进行学习~
爱奇艺陷限制投屏等合规争议背后涨价的会员费与缩水的权益近日,爱奇艺可谓冰火两重天,一边是电视剧狂飙热播,一边因限制投屏3个设备同时登录账号被封等争议冲上热搜。不只爱奇艺,围绕用户权益,优酷腾讯芒果等长视频平台也多次引发争议。从超前点播
城市建成区测量丰都丰都,古称酆都,以鬼城著称。其地处重庆市中部,东临石柱,西接涪陵,北挨忠县,南靠武隆,西北与东南分别与垫江彭水交接。丰都在重庆的位置丰都县下辖2街23镇5乡,幅员面积2901平方千
会取代人类一部分职业?ChatGPT安慰说技术也将创造新的机会ChatGPT火爆,其强大的能力让人们担忧它是否会取代一些职业。中新财经以你觉得你会取代人类的一部分职业吗?提问ChatGPT,ChatGPT回答说,有些职业,特别是那些需要重复性
专家热议设计武汉岳飞文化旅游线路,将岳飞文化融入到城市建设中2月8日下午,在武汉市社科院举行的岳飞行迹与武汉文化专家论坛上,来自华中师范大学历史文化学院武汉科技大学国学研究中心武汉岳飞文化研究会汉阳区委宣传部武汉市社科院的专家学者,就保护开
小鹰半月谈伊春齐齐哈尔等地为何出现逆城市化?春节国内出游超3亿人次恢复至2019年同期近9成2023年春节假期国内旅游出游3。08亿人次,同比增长23。1,恢复至2019年同期的88。6实现国内旅游收入3758。43亿元,同
抖音搅浑外卖市场?美团意外跌出万亿俱乐部财联社新消费日报2月8日讯(记者李丹昱)2月8日,美团(03690。HK)开盘后一路走跌,跌幅一度超过8,后有所回升,截至发稿,美团跌6。35,报153。3港元。美团方面并未对股价
别让自己后悔了,子不教,父之过所谓百行以孝为先,一个读小学的和一个在上幼儿园的又怎么会懂不看,应验了那句话养儿一百岁长忧九十九。事情是从2022年开始,自从教育局公布全国小学统一线上教学之后,为了方便孩子学习我
购物不达标就扣房卡,导游竟说心知肚明履行购物义务?出门旅游你是喜欢精心计划的自由行还是跟着导游指哪打哪的跟团游?随着一年一度的春节长假结束中老年人又成了旅游的主力军各式旅行团如雨后春笋般让人挑得眼花缭乱购物团虽然早已被明令禁止却不
惹众怒!无限期禁言近日,游客私闯纳木错景区的话题登上微博热搜,引发争议。2月5日,抖音官方发布关于打击违规闯入旅游景点等行为的公告,6个账号被无限期禁言,呼吁游客理性打卡观光。此外,2月6日,快手发
浪漫大理古城(1)行走怒江大峡谷天境怒江大峡谷一个人神共居的地方提起云南,大家都会想到彩云之南的石林大理丽江西双版纳等有名的常规景点,云南去过三次,都是很久前跟旅行社走的,几年的户外,让我理解了真正意义上旅行,那
女子单人单骑摩旅发动机疑被加白糖一名00后女子,独自骑着摩托车,从河北到云南旅游,途中一名男子趁她不注意,偷偷在她的发动机里加了白糖,导致她骑车过程中,发动报废。她怀疑是一名动机不纯的男摩友作的案,她说对方和她同