保健励志美文体育育儿作文
投稿投诉
作文动态
热点娱乐
育儿情感
教程科技
体育养生
教案探索
美文旅游
财经日志
励志范文
论文时尚
保健游戏
护肤业界

Python数据分析与数据挖掘学习路线!项目实战记录(完整篇

  python数据挖掘项目实战记录
  取自《Python数据分析与挖掘实战》一书,整理各个项目中用到的数据处理方法:数据预处理方法建立模型方法绘制图形
  对于分类问题:用模型分类;混淆矩阵及其绘图;观测其ROC曲线;
  对于聚类问题:划分类目数;获取划分类目中心;平行坐标系描述(一)数据预处理的方法
  在获取数据之后,会发现一些数据值错误
  一、填补空值
  二、观察数据分布
  三、数据清洗,使数据值都合理存在
  四、数据规约,提取重要属性
  五、数据归一化,为了使用KMeans算法数据读取SVM,bayes,ANN,DTree,等需要操作的数据是矩阵,需要datadata。asmatrix()将series数据转为矩阵形式的训练集fromnumpy。randomimportshuffleshuffle(data)随机打乱数据xtraindatatrain〔:,2:〕30将特征放大importpicklepickle。dump(model,open(。。tmpsvm。model,wb))保存模型modelpickle。load(open(。。tmpsvm。model,rb))读取模型将数据保存为固定文件格式pd。DataFrame(cmtrain,indexrange(5),columnsrange(5))。toexcel(outputfile1)一、拉格朗日插值法fromscipy。interpolateimportlagrange取数,两个列表尾接ys〔list(range(nk,n))list(range(n1,n1k))〕yy〔y。notnull()〕reslagrange(y。index,list(y))(n)输入索引,和该列数据n为空值下标二、series的内置插值法dfpd。DataFrame(data,columns〔0,1,2〕)df。interpolate()三、电量趋势描述
  绘制折线图,观测电量下降趋势。四、数据探索describe(include’all)。T
  通过数据探索,发现异常值,不合逻辑的错误值,如果数据集很大就可以丢弃,否则可以填充exploredata。describe(includeall)。Texplore〔null〕len(data)explore〔count〕exploreexplore〔〔null,max,min,std〕〕count,unique,top,freq,mean,std,min,50,max等选取几个属性计算相关系数矩阵,data必须是nn矩阵print(np。round(data。corr(methodpearson),2))五、数据清洗
  类似集合的操作,对于不合逻辑的错误值,设置索引,排除。datadata〔data〔SUMYR1〕。notnull()data〔SUMYR2〕。notnull()〕index1data〔SUMYR1〕!0index2data〔SUMYR2〕!0index3(data〔SEGKMSUM〕0)(data〔avgdiscount〕0)datadata〔index1index2index3〕六、属性转换
  数据的规约就是选取有用的数据属性,可以通过excel删除对应列即可实现。选取某列datadata〔data〔TARGETID〕184〕。copy()获取该条件下的数据的副本datagroupdata。groupby(COLLECTTIME)以时间分组defattrtrans(x):定义属性变换函数创建新的seriesresultpd。Series(index〔SYSNAME,CWXTDB:184:C:,CWXTDB:184:D:,COLLECTTIME〕)设置列标result〔SYSNAME〕x〔SYSNAME〕。iloc〔0〕获取该属性值,唯一result〔COLLECTTIME〕x〔COLLECTTIME〕。iloc〔0〕获取该属性值,唯一result〔CWXTDB:184:C:〕x〔VALUE〕。iloc〔0〕获取属性值Aresult〔CWXTDB:184:D:〕x〔VALUE〕。iloc〔1〕获取属性值B,等等returnresultdataprocesseddatagroup。apply(attrtrans)逐组处理七、数据归一化和标准化
  使用正态分布的标准正态分布标准化:xudata(datadata。mean(axis0))data。std(axis0)按列选取均值和标准差。矩阵操作
  当发现数值范围对结果影响太大,不方便运算时,将数据标准化data(datadata。min())(data。max()data。min())datadata。resetindex()八、数据离散化
  应用在发掘频繁项时,需要把连续数据转变为离散数据。foriinrange(len(keys)):调用kmeans算法,进行聚类离散化r1pd。DataFrame(kmodel。clustercenters,columns〔typelabel〔keys〔i〕〕〕)聚类中心,Ar2pd。Series(kmodel。labels)。valuecounts()分类统计r2pd。DataFrame(r2,columns〔typelabel〔keys〔i〕〕n〕)统计量,Anrpd。DataFrame(pd。concat(〔r1,r2〕,axis1))聚类中心与类别数目匹配连接rr。sortvalues(typelabel〔keys〔i〕〕)r。index〔1,2,3,4〕r〔typelabel〔keys〔i〕〕〕pd。rollingmean(r〔typelabel〔keys〔i〕〕〕,2)rollingmean()用来计算相邻2列的均值,以此作为边界点。r〔typelabel〔keys〔i〕〕〕〔1〕0。0这两句代码将原来的聚类中心改为边界点。resultresult。append(r。T)转置添加resultresult。sortindex()以Index(A,B,C,D,E,F)顺序排序,保存result。toexcel(processedfile)九、图像切割和颜色矩阵提取
  1。一阶颜色矩:采用一阶原点矩,反应图像的整体明暗程度
  Ei1N(j:1N)Pij
  2。二阶颜色矩:反应图像颜色的分布范围
  i(1Nj:1N(PijEi)2)12
  3。三阶颜色矩:反应图像颜色分布的对称性十、时间序列算法
  利用时间序列算法模型的流程,根据历史数据,来预测未来的数据情况
  采用时间序列算法对模型输入数据进行模型拟合、检验与检测。依据误差公式,计算预测值与验证数据之间的误差,分析其是否属于业务接受的范围内。
  模型识别AR,MA,ARMA
  平稳性检验,白噪声检验,模型识别,模型检验,模型预测,模型评价,模型应用十一、行为分析与服务推荐
  连接数据库
  系统过滤算法为主,其他为辅。推荐
  物品相似度:夹角余弦;杰卡德相似系数;相关系数
  熟悉基于物品的协同过滤算法使用基于物品的协同过滤算法defJaccard(a,b):return1。0(ab)。sum()(abab)。sum()classRecommender():simNonedefsimilarity(self,x,distance):ynp。ones((len(x),len(x)))foriinrange(len(x)):forjinrange(len(x)):y〔i,j〕distance(x〔i〕,x〔j〕)returnydeffit(self,x,distanceJaccard):x传入的是矩阵(行:物品,列:用户)self。simself。similarity(x,distance)计算相似度defrecommend(self,a):传入预测用户的购买记录的矩阵。Tn1returnnp。dot(self。sim,a)(1a)十二、变量选择与灰色预测
  使用Lasso函数对与处理数据变量选择
  灰色预测得到关键影响因素的预测值
  使用神经网络对财政收入进行预测十三、文本预处理数据去重l1len(data)datapd。DataFrame(data〔0〕。unique())选取数据列进行unique()l2len(data)data。tocsv(outputfile,indexFalse,headerFalse,encodingutf8)print(u删除了s条评论。(l1l2))机械压缩去词,去除连续重复语料,和短句子删除过滤较多垃圾信息文本评论分词mycutlambdas:。join(jieba。cut(s))自定义简单分词函数data1data1〔0〕。apply(mycut)对于读入的数据执行分词函数data2data2〔0〕。apply(mycut)通过广播形式分词,加快速度。先将文本正负面评价分开,然后再进行LDA主题分析。COSTCM6中的ahrefhttps:www。q578。coml170targetblankclassinfotextkey情感a分析做及其分类,生成正面ahrefhttps:www。q578。coml170targetblankclassinfotextkey情感a和负面ahrefhttps:www。q578。coml170targetblankclassinfotextkey情感a正面主题分析fromgensimimportcorpora,modelsposdictcorpora。Dictionary(pos〔2〕)poscorpus〔posdict。doc2bow(i)foriinpos〔2〕〕posldamodels。LdaModel(poscorpus,numtopics3,id2wordposdict)foriinrange(3):neglda。printtopic(i)输出每个主题(二)、模型方法
  一、神经网络
  二、决策树
  三、KMeans一、LM神经网络
  API:
  add();compile();fit();saveweights();predictclassrs()fromkeras。modelsimportSequentialfromkeras。layersimportDense,ActivationnetSequential()net。add(Dense(inputdim3,activationrelu,units10))net。compile(lossbinarycrossentropy,optimizeradam,metrics〔accuracy〕)net。fit(train〔:,:3〕,train〔:,3〕,epochs1000,batchsize1)传入的是矩阵,读取excel需要把数据。asmatrix()net。saveweights(netfile)predictresultnet。predictclasses(train〔:,:3〕)。reshape(len(train))二、CART决策树
  API:
  fit();predict();构建CART决策树模型fromsklearn。treeimportDecisionTreeClassifiertreeDecisionTreeClassifier()tree。fit(train〔:,:3〕,train〔:,3〕)pltcmplot(test〔:,3〕,tree。predict(test〔:,:3〕))获取结果plt。show()三、KMeansK聚类算法fromsklearn。clusterimportKMeansimportpandasaspdinputFile。。datazscoreddata。xlsdatapd。readexcel(inputFile)kmodelKMeans(nclusters5,njobs4)kmodel。fit(data)print(kmodel。clustercenters)四、SVM支持向量机fromsklearnimportsvmsmodelsvm。SVC()建立模型smodel。fit(xtrain,ytrain)训练模型ressmodel。predict(xtest)预测测试集(三)、绘制图形
  模型建立后,需要可视化分析数据挖掘的合理性,准确性等
  混淆矩阵:正确与错误分类的情况
  ROC曲线:分类方法的性能
  聚类群图:使数据值聚成n类,分析n类群体特征混淆矩阵
  预测准确度:RMSE;MAE
  分类准确度:precesionTPTPFP:表示用户对推荐产品感兴趣的可能性
  recallTP(TPFN):表示推荐的产品,占用户喜欢产品的概率fromsklearn。metricsimportconfusionmatrix导入混淆矩阵函数cmconfusionmatrix(y,yp)混淆矩阵如下CM〔〔TP,FP〕,〔FN,TN〕〕例如〔TP,FP,FN,TN〕〔46,2,7,4〕cmtrainconfusionmatrix(trainlabel,smodel。predict(trainSet))cmtestconfusionmatrix(testlabel,smodel。predict(testSet))pd。DataFrame(cmtrain)。toexcel(outFile1)pd。DataFrame(cmtest)。toexcel(outFile2)ROC曲线fromsklearn。metricsimportroccurve导入ROC曲线函数fpr,tpr,thresholdsroccurve(test〔:,3〕,tree。predictproba(test〔:,:3〕)〔:,1〕,poslabel1)plt。plot(fpr,tpr,linewidth2,labelROCofCART,colorgreen)作出ROC曲线聚类群图importmatplotlib。pyplotaspltcenterskmodel。clustercentersforiinrange(5):plt。plot(〔2,4,6,8,10〕,centers〔i〕,labelgroupstr(i),markero)设置横轴纵轴分别对应5个点plt。ylabel(values)plt。xlabel(index:LRFMC)plt。show()层次聚类谱图importmatplotlib。pyplotaspltfromscipy。cluster。hierarchyimportlinkage,dendrogram这里使用scipy的层次聚类函数Zlinkage(dataudf,methodward,metriceuclidean)谱系聚类图Pdendrogram(Z,0)画谱系聚类图plt。show()
  今日福利:Python学习资源大礼包让你走上巅峰Python之AIoT学习资料Python入门教程完整版Python之配套书籍Python之数据分析与挖掘实战Python之人工智能资料Python之全栈开发资料Python之数据分析实战项目
  完整资源获取方式
  关注麦叔Python头条号,评论转发回复666即可获取。

同学的奶奶,似我的奶奶作文650字我不知道已经有多久没有去看她了。只是童年还有那模糊的痕迹,她的脸上有着看起来亮闪闪的银丝,有着岁月沉淀下来的痕迹。叮铃铃,早晨的一声电话铃将我从睡梦中吵醒,挂上电话的刹那……2016年湖州中考作文题目欣赏【2016年浙江湖州中考作文题目:欣赏】请以欣赏为题,写一篇文章。要求:(1)诗歌除外,文体自选。(2)不少于600字。(3)文中不得出现含考生个……成为那些人心中的一缕温暖的阳光600字作文邹金宏曾经说过梦想是人们与生俱来的重要宝物之一,它等待你的珍视和实践。2018,新的一年,人们的梦想如天上的繁星一样多的数不清,不计其数。有的想交到一位最真诚的朋友,让生活变得……小熊开店三年级作文550字胖熊超市在大家的掌声中开业了,从里面走出来一只穿着礼服的小熊。可是为什么,大家的掌声那么热烈呢?原来,一些住在山脚下的小动物需要买生活用品时,这不麻烦。可以直接去旁边的超市去买……观察日记植物黄豆200字作文有一种植物mdash;mdash;黄豆,是很平常的,不知道大家有没有观察过?下面为大家提供观察日记植物黄豆200字作文观察日记植物黄豆200字作文【1】10月21日……以爱为话题的叙事作文爱,一个充满着温暖的字。我爱你,一个让人无比感动的词。下面一起随品学网小编欣赏一下爱范文吧!爱作文篇一:去年的雪落下帷幕,一年的聒噪随着雪的来临重归宁静,这是一片静寂的世……MySQL学习实践DAY05SELECT命令过滤(条件)检索学习目的:对检索的内容进行筛选。学习内容:WHERE字句组合条件逻辑操作符,ANDORNOT字句,运算优先级ANDNOTOR,如果要提升OR运算优先级,需要增加圆括……奶奶,我想你了作文在日常学习、工作或生活中,大家都写过作文吧,作文是从内部言语向外部言语的过渡,即从经过压缩的简要的、自己能明白的语言,向开展的、具有规范语法结构的、能为他人所理解的外部语言形式……全市首笔汽车行业数字人民币消费诞生重庆日报讯(记者王天翊)4月16日,市民蒋女士在位于两江新区的一家汽车销售公司,用数字人民币支付了维修费用。这是全市汽车行业发生的首笔数字人民币消费。前不久我就开通了数字……2022年中考热点作文素材关于科学的名言读史使人明智,读诗使人灵秀,数学使人周密,科学使人深刻,伦理学使人庄重,逻辑修辞使人善辩,凡有所学,皆成性格。mdash;mdash;培根我们需要真理,仅仅需要真理。千万……还未相知,就要分别不到三个月的时间,有的同学刚做成了朋友,有的同学刚熟悉了姓名,还有的同学甚至一句话也没有和他们说过。在这短短的三个月时间里,我们在繁忙的学习中认识。但是,我们彼此都还不太熟悉。……每经品牌100指数海外样本公司巡礼(二)农夫山泉拼多多百度小每经记者:曾子建每经编辑:何剑岭近日,中证指数有限公司发布公告,将于2022年5月10日正式发布中证每经上市公司品牌价值100指数(以下简称每经品牌100,代码:9318……
如何让甜瓜量质双升?研究发现两种生物可降解地膜是推手来源:工人日报客户端原标题:如何让甜瓜量质双升?研究发现两种生物可降解地膜是推手工人日报中工网记者黄哲雯通讯员孙敏涛近日,中国农科院蔬菜花卉研究所设施栽培课题……海康威视2021年营收814亿元增长28。21,明确智能物联4月15日晚间,海康威视公布2021年年报,实现营业总收入814。20亿元,同比增长28。21;归属于上市公司股东的净利润168。00亿元,同比增长25。51。值得一提的是,海……朋友的喜好的英语作文JennyisanAmericangirlSheis13yearsold。Sheisverytallandalittlethin。Shehaslongblackstraight……汗脚鲱鱼,哪个更臭?文徐锐发酵鲱鱼的臭鸡蛋味被描述为世界上最令人厌恶的气味,但它却是瑞典人的最爱。还有让一些人感到恶心的黑甘草,却是荷兰人的心头好。长期以来,科学家一直认为文化是这种气……ETC停止微信支付了吗近日,安徽交通一卡通控股有限公司停止提供微信支付服务一事引发关注。此事会对用户产生多大影响?记者采访交通运输部公路局获悉,安徽ETC平台停止使用微信支付渠道,只涉及ETC储值卡……linux后台任务执行近日迁移服务时,需要执行后台任务。linux执行后台任务的相关命令包括、nohup、bg等。简单记录,方便速查。命令在命令后面加上可实现后台运行。使用示例:sheasea……描写秋天景色的好句有哪些1、来到田野里,看见稻谷换上了金色的衣裳,那田间小路上车来人往,热闹非凡。有运玉米的,有拉高粱的;还有装豆子的。一辆辆运粮车,满载着丰收的喜悦。菜园里,要数大白菜最引人注目了,……大黄牛与小黄牛小学作文我爷爷家养了一头大黄牛和一头小黄牛。大黄牛全身金黄色的绒毛,腹部是白色的,头上长着一对弯弯的角,大大的眼睛,又宽又大的嘴巴。它那粗壮的四条腿,像四根柱子。每年春天,……哈勃望远镜确认有史以来最大彗星科技日报北京4月14日电(实习记者张佳欣)美国国家航空航天局(NASA)12日表示,哈勃空间望远镜发现了有记录以来最大的彗星。据估计,这颗名为C2014UN271的巨大彗星的彗……维持2。4亿罚款终身禁入,贾跃亭翻案被否乐视网十年财务造假,时任董事长贾跃亭被罚2。4亿元,终身禁入证券市场。针对上述证监会行政处罚和市场禁入决定,贾跃亭提起行政复议,最终被否。证监会4月15日披露了对贾跃亭的……宗教与人工智能宗教与人工智能好像是最近人们思考的问题,比如电影《人工智能》,它里面有一段讲的就是宗教和人工智能的关系。他们也在讲人工智能是人们创造出来的东西,是不是人应该算作造物主创造我们,……2016年圣诞节搞笑的话天使说只要站在雪中画99朵郁金香许愿,上帝就会听到。我把花画满了整个院子,终于听见上帝说:许个愿吧。我赶紧说:要看短信的人圣诞节快乐!1。天天各自忙,情意放心上,平时少问……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网