范文健康探索娱乐情感热点
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

十年芳华,逐梦前行记录我的数据科学家成长之路

  作者:Roll
  本文为「心中有数」CDA征文作品小学时,
  老师经常问:"你长大以后想当什么?"
  我说,我想当一名科学家。
  工作后,
  领导经常问:"你的职业规划是什么?"
  我说,我想做一名数据科学家。
  一直以来,我在思索着什么是数据科学家?
  直到 CDA 给了我标准,数据科学家是同时具备研究数据本质的科学知识和应用数据科学的领域知识 ,从数据中获取信息并能解决问题的专家。
  在 CDA LEVELⅢ 人才标准中,数据科学家具体指负责企业级商业数据科研项目的高端人才,能利用数据来改进产品、推动业务,并进行整体架构的大数据治理与项目管理,带领团队在该商业领域进行前瞻性研究和战略布局。
  从业近10年,我从事过定量分析、数据分析、数据挖掘、算法研究等岗位,做过项目,带过团队,考过很多证书,在行业期刊发过论文,也参加过很多数据建模竞赛,一直在朝着数据科学家的路上努力拼搏。
  有时候想写些经验总结,提笔却不知从何写起。刚好近期收到CDA"心中有数"的征文通知,我决定以"数据科学家成长之路"为题总结过去10年工作学习的历程,记录下努力奋斗的时光,与数据同仁们共勉,同时也以此为起点,继续我的数据科学家修炼之路。01、我的职业之路——厚积而薄发,方能在职场中快速成长
  数据科学家的成长之路是在披荆斩棘中砥砺前行 ,一笔笔的公式推导、一行行的算法代码、一点点的业务积累,一个个的项目实践,汇聚成了数据人的职业素养,成就数据人的价值所在。
  我的第一份工作是在上海一家咨询公司从事数据分析师,这一阶段我使用DB2、MySQL、Shell、VBA、SAS、Spss等工具,做过ETL、报表设计、数据集市、数据建模等工作。项目上我负责过人民银行征信中心征信报告异常查询监测数据挖掘子项目,用K-Means聚类、决策树、时间序列分析ARIMA等识别出机构及用户的异常查询行为;负责过某城商行银行信用卡信用评分模型,使用Logistic预测客户违约概率;参与过某股份制银行信用卡存量客户经营、商城产品个性化推荐、集团客户交叉销售等项目,用到了Apriori、C5.0、KNN、Adaboost等算法,同时在平安银行信用卡、人行征信中心做过SAS Base培训。
  随着互联网公司崛起,大数据技术、机器学习算法等在项目实践中取得很好应用效果,数据工作者迎来新的发展机遇。大多数的数据从业人员都希望能够进入互联网公司,发挥自己的一技之长,当然我也不例外。2015年,在众多OFFER中,我选择了互联网金融公司作为我的第二份工作,开始"玩转大数据"。
  期间,我参与了公司大数据中心的筹建,负责过精准营销团队、算法建模团队。在R盛行的时候,我开始自学R语言编程, 多次参加R语言会议,与R语言大佬们讨论最前沿的算法及应用场景。然而在实际工作过程中R语言安装很多依赖包,且内存管理、运行速度和效率等缺点突出。
  因此从2016年开始我逐步转向使用Python和Spark,使用Scikit-learn、Tensorflow等算法框架构建机器学习模型,使用Hive、Hbase等大数据工具处理TB级数据量。我承担公司标签体系构建、客户分层模型、反欺诈模型、精准营销模型、消费信贷产品信用评分模型等项目,也做过数据宽表、数据架构、营销活动效果分析、随机立减算法设计、年度账单数据开发、书写分析报告及汇报材料等工作。
  在掌握大数据技术、建模工具之后,到了2017年我想寻求稳定,在特定行业内深耕细作,励志成为行业内的数据科学家。在获得京东金融、百融、阿里、银行等多个OFFER,因为家庭原因我选择回到家乡工作,在一家城商行从事信用卡数据建模工作,当前已参与信用卡A、B、C评分卡构建,以及客户标签体系建设、信用卡资产估值等工作。
  在学校实验室里和实际工作中做数据建模项目还是有所不同的,学校里主要是练习算法以及如何调参,工作中业务理解、特征工程显得更为重要。在数据挖掘业内,经常听到有人说"Garbage in, Garbage out(垃圾进,垃圾出)",用不好或不对的数据去做分析,会产生糟糕或是无用的结论。也就是说,数据和特征决定了模型的上限,而算法只是逼近这个上限而已。
  对于即将入坑或已入坑的数据分析师,最重要的是找准定位。
  我比较认同CDA的数据人才认证体系,从LEVEL Ⅰ到LEVEL Ⅲ必备技能、知识点以及定位都比较接地气。当然除了掌握必备的技能外,还要熟悉业务知识以及学习做事的方法,在项目中不断锻炼自己提升自己。机会总是留给有准备的人,只有掌握技能、理解业务,同时具备解决问题的思维方法,才能独立承担数据挖掘及数据分析项目。正是由于坚持不断地学习,我才能在短时间内独立负责项目,同时还要感谢领导们对我的帮助。02、我的考证之路——技多不压身,趁年轻赶快充实自己
  为了鼓励员工持证上岗或者提升技能,许多单位都有证书奖励,尤其是银行等金融机构。在行内征求证书奖励意见时,我成功将CDA证书推荐进奖励范围,推荐理由是在数字化转型过程中,数字化人才梯队建设是首要任务,而CDA证书等级体系完美的诠释了如何去培养数字化人才队伍。
  从2017年开始,我陆续考取了银行、证券、基金、期货等金融从业证书,通过考试获评统计师、中级经济师职称,同时考取工信部高级数据分析师、Python技术应用工程师(高级)、大数据技术应用工程师(高级)、人工智能应用工程师(高级)等证书,在2019年CDA第十一届认证考试中我通过客观题和项目案例答辩,正式成为CDA LEVEL Ⅲ数据科学家持证人,次年12月通过FRM一级,目前正在积极备战FRM二级。
  得益于之前的项目经验和知识积累,我仅仅花了1个月时间复习就通过上机考试。结合我多次考证经历,现将备考经验总结如下。
  首先是紧扣考纲,抓住重点。根据考试范围准备备考书籍、视频课、模拟题等材料,搜集前辈们的备考经验,以便制定计划。认真研读考纲,在有限时间内对于考纲要求的要掌握,考纲不要求可以选择放弃。
  从2020年开始CDA的考纲有所变化,LEVEL Ⅲ新考纲变得相对容易,也更聚焦数据挖掘和机器学习,因此要紧扣考纲,重点学习数据挖掘技术、数据处理与特征处理、自然语言处理、机器学习算法等内容,吃透书中内容。
  其次是制定计划,有序复习。
  可以将备考分为三个阶段:
  一是基础阶段,将书中知识通读、消化,大纲中的每一部分形成脑图,便于自己系统掌握,这一阶段可以尝试做些练习题,巩固知识点。
  二是强化阶段,进行专题突破,针对第一阶段没有掌握的重要知识点重点学习,同时重做第一阶段的错题以及弄清楚解题思路。
  三是冲刺复习,查缺补漏,根据考纲形成整体的思维脑图,覆盖所有考点。
  最后是调整心态,积极备考。要以平常心积极应对考试,这一阶段可以尝试模拟考试时间练习模考题。
  我参加的是CDA第十一届考试,考试时间为2019年12月29日。因为我和我爱人都没有去过武汉,因而将考点选择武汉,考完后先登黄鹤楼、再游户部巷、吃完热干面、又食武昌鱼,雄伟的长江大桥、美丽的武汉大学、人流熙攘的江汉路步行街,穿梭在武汉的大街小巷,享受着武汉的特色美景。很不幸的是考完后过了2周就是武汉疫情爆发期,而我幸运的逃过一劫,相信疫情以后的武汉会越来越好,有机会我将携家人再去武汉一游。
  接着说说我的项目案例经历,在通过第一阶段考试后,CDA老师会发一封邮件,附件里有项目案例要求和数据以及答辩的注意事项等。在拿到案例后,我认真研读了项目说明、项目分析要求和评估方式等。我的案例题目是假新闻预测模型的建置及预测,由于对假新闻识别问题比较陌生,在做项目案例过程中我浏览大量的国内外相关的文本挖掘前沿论文,归纳出案例的解决方法。
  项目过程中70%时间花在特征工程上,包括特征使用方案、特征获取方案、特征处理方案和特征监控方案,具体框架见下图。
  最终建立贝叶斯、BP神经网络、SVM、随机森林、XGBoost的分类模型,同时以词嵌入作为特征,建立CNN、LSTM、RNN等深度学习算法预测模型。
  机器学习模型
  深度学习模型
  我的项目答辩老师是李御玺老师,李御玺老师和蔼认真,认真听完了我的答辩,给予了细致耐心的评价,希望我在文本特征构造多做工作,比如可以从作者偏好、情感分析、实体分析(人名、地名、组织等)、政治敏感等视角分析,增加模型预测精准度。
  在完成项目案例过程中可以说受益颇多,整个项目我花了差不多20天的时间,阅读了30多篇文章,写了2000多行Python代码,用了两台电脑去做文本特征提取,项目案例用到了机器学习、深度学习和文本挖掘多种算法。通过这次项目案例实战,我学到了很多前言的算法,尤其是文本特征提取的方法,同时对机器学习、深度学习和文本挖掘有了全面深入的认识。03、数据科学,未来可期
  顺应全球信息化的发展趋势,我国开启"数字中国"战略。在此战略背景下,各行各业已经进入数字化转型的角逐期,未来的社会需要更多复合型的技术人才,尤其是对大数据科学家的需求将激增。
  身为银行人,在数字化转型战略下,数据从业者大有可为,未来我将继续在信用卡行业,推进数据科学在营销、风控、产品、管理、服务、合作等方面的应用落地,致力于成为信用卡行业的数据科学家。
  身为数据人,坚持初心与使命,今天取得的成绩并不是终点,而是攀登更高峰的起点。面对未来的机遇与挑战,一方面努力工作,一方面坚持学习,尽管我已经取得CDA LEVEL Ⅲ 数据科学家证书,但是我深知要成为真正的数据科学家还有很长的路要走。
  未来可期,未完待续……作者简介
  Roll,统计学硕士,统计师职称,CDA LEVEL Ⅲ数据科学家持证人
  在数据分析行业深耕十年有余,现为某城商行数据建模高级经理。同时为工信部高级数据分析师、PythonSASR语言高级编程师。

金融科技赋能经济数字化转型,长三角金融科技学术论坛在沪举行6月23日,长三角金融科技学术论坛暨第二届长三角金融科技创新与应用全球大赛启动仪式,在上海华东师范大学举行。助力实现金融科技双向赋能,资源要素更高效的配置,进一步推动长三角地区金融全球首款洗衣机器人亮相,松下洗护发布会创多项业内领先目前,中国家电市场已从早期的增量市场阶段,过渡至如今的存量市场时代。消费需求从单纯的购买转为替换,加之疫情带来的市场变革,种种因素都对企业综合能力提出了更高的要求。6月29日,悦界今年春节人们爱吃啥?京东到家报告沙拉意面销量增速猛农历小年,京东到家数据研究院发布2021春节年货消费趋势报告(以下简称报告),达达集团旗下本地即时零售平台京东到家数据(1月16日至2月4日)显示,自1月16日京东到家年货节启动以诺尔集团进军下游制造业联手拼多多推出卫生巾新国货品牌纳可何成茂见客户时习惯带上一瓶蓝色的生理盐水。在需要说明产品力的环节,他会当场撕开一包纳可牌卫生巾,一边做与其他品牌的对比实验,一边解释,我们的吸收芯体非常特别,市面上普通的卫生巾,0京东到家发布春节六大消费热点成都最爱打麻将,深圳最爱打桌游春节已近尾声,2月17日大年初六,京东到家数据研究院根据京东到家春节消费数据(2月4日至2月16日),发布2021春节六大消费热点,从原年人云上拜年复工人有打工魂的亲情不减生活不易华为nova8se活力版即将发布华为近日宣布,将于27日发布nova8se活力版,一起捕捉智慧之美。还记得去年11月,华为发布了nova8se思考,时隔半年,nova8家族再添新机,不多说,直接上图捂脸小编寻思,多屏协同摸鱼神器?荣耀MagicBook14锐龙R7版体验暑期开始后,一直有朋友向我咨询有没有高性价比的笔记本电脑推荐。对于预算5K以下的用户,我都是一句话再等等吧,荣耀MagicBook2021锐龙款快推出了。犹记得初代的荣耀Magic阿里云未来智慧医院需要中台4月23日,在2021中华医院信息网络大会期间,阿里云副总裁谢维表示,基于数据的多形态中台在未来智慧医院的建设管理运营中必不可少。目前,公立医院高质量发展成为医疗机构发展的主旋律,背包里面的物品,应对不同需求,非EDC,因为是真的重背不动想想也有好久没有写一下包里面的东西了。距离上次写也过去了半年多的时间,这半年多的时间里面自己包里面的东西也更换或者添加了不同的,今天正好有时间,就写一下。首先这并不是EDC,包里面2021年购机推荐27英寸主流屏幕搭配2K分辨率,今期非它莫属对于热衷攒机的发烧友而言,动手组装电脑的快乐,就是打造高配置的电脑,提升视觉感官值,在电竞和办公时火力全开,尽享流畅不卡顿的操作。所以攒机时除了选好主机,还要挑选高配置的显示器。2大头君有点困无线有线音质都很棒的真无线蓝牙耳机可能看到标题的时候你会觉得我是写错了,说了无线和有线怎么又是真无线蓝牙耳机呢,别着急呀,今天给大家带来的就是来自BGVPQ2S的真无线蓝牙耳机,当时吸引的我就是这款耳机不仅可以当作
鞭牛晚报网传京东收购德邦传小电将裁员约2000人浙江所有外卖今必封签编者按鞭牛士将以晚报形式盘点今日内发生的重要事件,内容涵盖国际国内科技互联网,为科技行业从业者用户传递行业信息。国内新闻1消息称小电科技预计裁员约2000人据蓝鲸TMT消息,从多位2022年智能手机摄像头滤光片市场前景分析及研究报告本文研究全球市场主要地区和主要国家智能手机摄像头滤光片的销量销售收入等,同时也重点分析全球范围内主要厂商(品牌)竞争态势,智能手机摄像头滤光片销量价格收入和市场份额等。针对过去五年2022年智能手机摄像头传感器市场前景分析及研究报告本文研究全球市场主要地区和主要国家智能手机摄像头传感器的销量销售收入等,同时也重点分析全球范围内主要厂商(品牌)竞争态势,智能手机摄像头传感器销量价格收入和市场份额等。针对过去五年市场上那么多家小程序开发商,应该怎么选?首先无论预算多少,首要就是选开发实力强,公司规模技术开发起码100人以上的,系统口碑比较好,成立时间8年以上的,先用这个条件把那些杂七杂八的软件开发公司淘汰先。然后就看自己功能需求iPhoneSE3新机亮相,iPhoneSE2首当其冲一夜沦为百元机据报道,苹果计划在今年3月推出一款5G版的iPhoneSE,但真正值得关注的是现有机型是否会大幅降价。多年来,科技和行业一直呼吁苹果在新兴的市场推出低价iPhone。值得一提的是,京东方A回购股份实施完毕累计耗资26。2亿元京东方A回购股份实施完毕累计耗资26。2亿元财联社3月1日电,京东方A公告,截至2月28日,本次回购部分社会公众股份的方案已实施完毕。公司通过回购专用证券账户,以集中竞价方式实施回江苏赛麟投260亿造车,创始人卷走66亿逃往美国,累计只卖出26辆近年来国内很多企业开始跨界造车,诸如恒大富士康等都已经推出了相关产品,但是多年前江苏赛麟,投入巨款主营造车却依旧一败涂地,这家企业究竟遭遇了什么呢?其实江苏赛麟造车,一直以来多数人断臂求生!滴滴的孙公司悄然注销,新项目一年亏掉200多亿2022年2月份,有细心的媒体发现深圳橙心优选科技发展有限公司发生工商变更,其状态变更为注销,这家企业是橙心优选深圳公司。前不久,滴滴公布了去年第三季度财报,企业各项业绩均出现了不百度2021年营收1245亿元无人车开启商业化运营本报记者李静北京报道3月1日,百度(NASDAQBIDU09888。HK)发布了截至2021年12月31日的第四季度及全年未经审计的财务报告。2021年第四季度,百度实现营收331降价六千的大品牌折叠屏手机,你会考虑入手吗?安卓智能手机的迭代更新速度已经远远超过了大多数人的换机速度,好处就是为我们用户带来更多的选择同时也更容易选择性价比高的机型,毕竟新机大面积上市也往往会打动上一代手机的降价促销。如果TCL展示可折叠手机UltraFlex与FoldNRollTCL虽然一直都没有发布可折叠手机,但这并没有阻止它提出新的想法。最近TCL在世界移动通信大会上展示了两种新的可折叠设备概念。一个可以向内和向外折叠的显示器,而另一个可以折叠和扩大