吴恩达机器学习练习SVM支持向量机（不存在学不会！）

爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

吴恩达机器学习练习SVM支持向量机（不存在学不会！）

　　这篇文章主要为我们带来了吴恩达机器学习的一个练习：SVM支持向量机，通过本次练习相信你能对机器学习深入更进一步，需要的朋友可以参考下！
　　【关注博主，持续分享编程干货】1SupportVectorMachines1。1ExampleDataset1matplotlibinlineimportnumpyasnpimportpandasaspdimportmatplotlib。pyplotaspltimportseabornassbfromscipy。ioimportloadmatfromsklearnimportsvm
　　大多数SVM的库会自动帮你添加额外的特征X以及，所以无需手动添加matloadmat（。dataex6data1。mat）print（mat。keys（））dictkeys（〔header，version，globals，X，y〕）Xmat〔X〕ymat〔y〕
　　defplotData（X，y）：plt。figure（figsize（8，5））plt。scatter（X〔：，0〕，X〔：，1〕，cy。flatten（），cmaprainbow）plt。xlabel（X1）plt。ylabel（X2）plt。legend（）plotData（X，y）
　　defplotBoundary（clf，X）：plotdecisionbondaryxmin，xmaxX〔：，0〕。min（）1。2，X〔：，0〕。max（）1。1ymin，ymaxX〔：，1〕。min（）1。1，X〔：，1〕。max（）1。1xx，yynp。meshgrid（np。linspace（xmin，xmax，500），np。linspace（ymin，ymax，500））Zclf。predict（np。c〔xx。ravel（），yy。ravel（）〕）ZZ。reshape（xx。shape）plt。contour（xx，yy，Z）
　　models〔svm。SVC（C，kernellinear）forCin〔1，100〕〕clfs〔model。fit（X，y。ravel（））formodelinmodels〕
　　title〔SVMDecisionBoundarywithC｛｝（ExampleDataset1。format（C）forCin〔1，100〕〕formodel，titleinzip（clfs，title）：plt。figure（figsize（8，5））plotData（X，y）plotBoundary（model，X）plt。title（title）
　　可以从上图看到，当C比较小时模型对误分类的惩罚增大，比较严格，误分类少，间隔比较狭窄。
　　当C比较大时模型对误分类的惩罚增大，比较宽松，允许一定的误分类存在，间隔较大。
　　1。2SVMwithGaussianKernels
　　这部分，使用SVM做非线性分类。我们将使用高斯核函数。
　　为了用SVM找出一个非线性的决策边界，我们首先要实现高斯核函数。我可以把高斯核函数想象成一个相似度函数，用来测量一对样本的距离，（x，y）
　　这里我们用sklearn自带的svm中的核函数即可。
　　1。2。1GaussianKerneldefgaussKernel（x1，x2，sigma）：returnnp。exp（（（x1x2）2）。sum（）（2sigma2））gaussKernel（np。array（〔1，2，1〕），np。array（〔0，4，1〕），2。）0。32465246735834974
　　1。2。2ExampleDataset2matloadmat（。dataex6data2。mat）X2mat〔X〕y2mat〔y〕plotData（X2，y2）
　　sigma0。1gammanp。power（sigma，2。）2clfsvm。SVC（C1，kernelrbf，gammagamma）modleclf。fit（X2，y2。flatten（））plotData（X2，y2）plotBoundary（modle，X2）
　　1。2。3ExampleDataset3mat3loadmat（dataex6data3。mat）X3，y3mat3〔X〕，mat3〔y〕Xval，yvalmat3〔Xval〕，mat3〔yval〕plotData（X3，y3）
　　Cvalues（0。01，0。03，0。1，0。3，1。，3。，10。，30。）sigmavaluesCvaluesbestpair，bestscore（0，0），0forCinCvalues：forsigmainsigmavalues：gammanp。power（sigma，2。）2modelsvm。SVC（CC，kernelrbf，gammagamma）model。fit（X3，y3。flatten（））thisscoremodel。score（Xval，yval）ifthisscorebestscore：bestscorethisscorebestpair（C，sigma）print（bestpair｛｝，bestscore｛｝。format（bestpair，bestscore））bestpair（1。0，0。1），bestscore0。965
　　modelsvm。SVC（C1。，kernelrbf，gammanp。power（。1，2。）2）model。fit（X3，y3。flatten（））plotData（X3，y3）plotBoundary（model，X3）
　　这我的一个练习画图的，和作业无关，给个画图的参考。importnumpyasnpimportmatplotlib。pyplotaspltfromsklearnimportsvmwecreate40separablepointsnp。random。seed（0）Xnp。array（〔〔3，3〕，〔4，3〕，〔1，1〕〕）Ynp。array（〔1，1，1〕）fitthemodelclfsvm。SVC（kernellinear）clf。fit（X，Y）gettheseparatinghyperplanewclf。coef〔0〕aw〔0〕w〔1〕xxnp。linspace（5，5）yyaxx（clf。intercept〔0〕）w〔1〕plottheparallelstotheseparatinghyperplanethatpassthroughthesupportvectorsbclf。supportvectors〔0〕yydownaxx（b〔1〕ab〔0〕）bclf。supportvectors〔1〕yyupaxx（b〔1〕ab〔0〕）plottheline，thepoints，andthenearestvectorstotheplaneplt。figure（figsize（8，5））plt。plot（xx，yy，k）plt。plot（xx，yydown，k）plt。plot（xx，yyup，k）圈出支持向量plt。scatter（clf。supportvectors〔：，0〕，clf。supportvectors〔：，1〕，s150，facecolorsnone，edgecolorsk，linewidths1。5）plt。scatter（X〔：，0〕，X〔：，1〕，cY，cmapplt。cm。rainbow）plt。axis（tight）plt。show（）print（clf。decisionfunction（X））
　　〔1。1。51。〕
　　2SpamClassification2。1PreprocessingEmails
　　这部分用SVM建立一个垃圾邮件分类器。你需要将每个email变成一个n维的特征向量，这个分类器将判断给定一个邮件x是垃圾邮件（y1）或不是垃圾邮件（y0）。
　　takealookatexamplesfromthedataset
　　withopen（dataemailSample1。txt，r）asf：emailf。read（）print（email）
　　Anyoneknowshowmuchitcoststohostawebportal？Well，itdependsonhowmanyvisitorsyoureexpecting。Thiscanbeanywherefromlessthan10bucksamonthtoacoupleof100。Youshouldcheckouthttp：www。rackspace。comorperhapsAmazonEC2ifyourerunningsomethingbig。。Tounsubscribeyourselffromthismailinglist，sendanemailto：groupnameunsubscribeegroups。com
　　可以看到，邮件内容包含aURL，anemailaddress（attheend），numbers，anddollaramounts。很多邮件都会包含这些元素，但是每封邮件的具体内容可能会不一样。因此，处理邮件经常采用的方法是标准化这些数据，把所有URL当作一样，所有数字看作一样。
　　例如，我们用唯一的一个字符串‘httpaddr来替换所有的URL，来表示邮件包含URL，而不要求具体的URL内容。这通常会提高垃圾邮件分类器的性能，因为垃圾邮件发送者通常会随机化URL，因此在新的垃圾邮件中再次看到任何特定URL的几率非常小。
　　我们可以做如下处理：1。Lowercasing：把整封邮件转化为小写。2。StrippingHTML：移除所有HTML标签，只保留内容。3。NormalizingURLs：将所有的URL替换为字符串httpaddr。4。NormalizingEmailAddresses：所有的地址替换为emailaddr5。NormalizingDollars：所有dollar符号（）替换为dollar。6。NormalizingNumbers：所有数字替换为number7。WordStemming（词干提取）：将所有单词还原为词源。例如，discount，discounts，discountedanddiscounting都替换为discount。8。Removalofnonwords：移除所有非文字类型，所有的空格（tabs，newlines，spaces）调整为一个空格。
　　matplotlibinlineimportnumpyasnpimportmatplotlib。pyplotaspltfromscipy。ioimportloadmatfromsklearnimportsvmimportreregularexpressionforemailprocessing这是一个可用的英文分词算法（Porterstemmer）fromstemming。porter2importstem这个英文算法似乎更符合作业里面所用的代码，与上面效果差不多importnltk，nltk。stem。porter
　　defprocessEmail（email）：做出了WordStemming和Removalofnonwords的所有处理emailemail。lower（）emailre。sub（〔〕，，email）匹配开头，然后所有不是，的内容，直到结尾，相当于匹配。。。emailre。sub（（httphttps）：〔s〕，httpaddr，email）匹配后面不是空白字符的内容，遇到空白字符则停止emailre。sub（〔s〕〔s〕，emailaddr，email）emailre。sub（〔〕，dollar，email）emailre。sub（〔d〕，number，email）returnemail
　　接下来就是提取词干，以及去除非字符内容。defemail2TokenList（email）：预处理数据，返回一个干净的单词列表IllusetheNLTKstemmerbecauseitmoreaccuratelyduplicatestheperformanceoftheOCTAVEimplementationintheassignmentstemmernltk。stem。porter。PorterStemmer（）emailpreProcess（email）将邮件分割为单个单词，re。split（）可以设置多种分隔符tokensre。split（〔。：〔〕？！（）｛｝，gt；lt；；〕，email）遍历每个分割出来的内容tokenlist〔〕fortokenintokens：删除任何非字母数字的字符tokenre。sub（〔azAZ09〕，，token）；UsethePorterstemmerto提取词根stemmedstemmer。stem（token）去除空字符串‘，里面不含任何字符ifnotlen（token）：continuetokenlist。append（stemmed）returntokenlist
　　2。1。1VocabularyList（词汇表）
　　在对邮件进行预处理之后，我们有一个处理后的单词列表。下一步是选择我们想在分类器中使用哪些词，我们需要去除哪些词。
　　我们有一个词汇表vocab。txt，里面存储了在实际中经常使用的单词，共1899个。
　　我们要算出处理后的email中含有多少vocab。txt中的单词，并返回在vocab。txt中的index，这就我们想要的训练单词的索引。defemail2VocabIndices（email，vocab）：提取存在单词的索引tokenemail2TokenList（email）index〔iforiinrange（len（vocab））ifvocab〔i〕intoken〕returnindex
　　2。2ExtractingFeaturesfromEmailsdefemail2FeatureVector（email）：将email转化为词向量，n是vocab的长度。存在单词的相应位置的值置为1，其余为0dfpd。readtable（datavocab。txt，names〔words〕）vocabdf。asmatrix（）returnarrayvectornp。zeros（len（vocab））initvectorvocabindicesemail2VocabIndices（email，vocab）返回含有单词的索引将有单词的索引置为1foriinvocabindices：vector〔i〕1returnvector
　　vectoremail2FeatureVector（email）print（lengthofvector｛｝numofnonzero｛｝。format（len（vector），int（vector。sum（））））lengthofvector1899numofnonzero45
　　2。3TrainingSVMforSpamClassification
　　读取已经训提取好的特征向量以及相应的标签。分训练集和测试集。Trainingsetmat1loadmat（dataspamTrain。mat）X，ymat1〔X〕，mat1〔y〕Testsetmat2scipy。io。loadmat（dataspamTest。mat）Xtest，ytestmat2〔Xtest〕，mat2〔ytest〕
　　clfsvm。SVC（C0。1，kernellinear）clf。fit（X，y）
　　2。4TopPredictorsforSpampredTrainclf。score（X，y）predTestclf。score（Xtest，ytest）predTrain，predTest（0。99825，0。989）
　　到此这篇关于机器学习SVM支持向量机的练习文章就介绍到这了，更多相关机器学习内容请关注博主或继续浏览下面的相关文章，希望大家以后多多支持！

全国象棋团体锦标赛浙江夺双冠2023年全国象棋团体锦标赛于3月25日在合肥市包河区落下帷幕。浙江队斩获男团和女团比赛冠军，成为本次比赛的最大赢家。本次比赛是第五届全国智力运动会象棋项目的测试赛，共有29支队伍马卡马竞第二次尝试引进塞巴略斯，球员还没有做出改变的意愿直播吧3月27日讯据世界体育报援引马卡报报道，马竞在这段时间已经第二次尝试引进塞巴略斯。塞巴略斯与皇马的合同将在6月30日到期，目前他仍未完成续约。自1月1日开始，他就可以与其他俱孤独症儿童三岁之前有什么表现和症状，能诊断出来吗？孤独症症状多数在出生后18个月时已有广泛表现，孤独症儿童的社会性行为早在周岁时即与正常儿童存在差别，在是否注视别人的脸意向性指点对名字的反应和意向性表达等方面尤为突出。若有抚育经验有没有小孩得了哮喘好了的？中药调理吧，我儿子小时候也是哮喘，住过好几次院，经常感冒，最怕感冒，每次流鼻涕然后就是咳嗽然后就是喘，在儿童医院从来没看好过，后来在中医院找一个我们这里很出名的医生，每次吃中药，那针对天津交通广播电台男女主持人吵架，你有什么看法？两主播因乾隆白菜是什么菜争吵，不合适，不应该，有失主持人的风度。作为公众人物一一尤其是有十多年播报经验的主持人来说，在播报时，面对的是千千万万的听众，自己的一言一行都会产生社会影响关于女排你都记得哪些？几个有趣的数据1。中国女排前三次夺冠，都是最后击败东道主。1981年11月16日，中国女排在第三届女排世界杯单循环最后一场比赛，在日本大阪以32击败东道主日本队首次夺冠，开创了中国国足11平澳大利亚，李铁执教渐入佳境，国内媒体为什么又喷他？迟了。早干嘛去了？主动辞职吧！早前干嘛呢？现在只是迫不得已而为之，不是真心实意。关键还是思维错乱，方向迷失。国内媒体喷之也是体现民心所向。渐入佳境？？？这是谁想出来的题目？？你见过中国足球那点事随着亚历山大扬科维奇拿起中国男子足球队的教鞭，尤其是对体脂要求不超过10的硬性指标，为了这个指标让头号球星埃克森离队，还是很刚的！不过，接下来的热身赛，没有选择和俄罗斯比赛而是选择继续实验！科尔谈因为小佩顿的回归某些球员会减少场上时间北京时间3月27日，NBA常规赛，勇士主场迎战森林狼。勇士教练科尔赛前接受记者采访。科尔赛前采访表示因为小佩顿的回归，他将继续进行实验，看看谁会因此而失去一些上场时间。科尔表示自己憋了3年，无锡马拉松破325704，前半程12814，后半程12850。跑步14年，除了做上马Pacer外的第9个全马，第3次挑战破3，终于圆梦！第1次2020年绍兴，失眠，35k后掉速，心力不足，301第二届中国青少年足球联赛（男子U17组）预选赛结束海南中海队闯进全国总决赛新海南客户端南海网南国都市报3月27日消息（记者陈望）3月27日，记者从海南省足协获悉，2023年第二届中国青少年足球联赛（男子高中年龄段U17组）南赛区预选赛（定南赛区）淘汰赛2

<<<<<<－>>>>>>

海昌新材2022年前三季度净利润5050。60万元同比下降28。74中证智能财讯海昌新材（300885）10月25日披露2022年第三季度报告。2022年前三季度，公司实现营业总收入1。83亿元，同比下降23。14归母净利润5050。60万元，同比牛人！用山水盆景浓缩千里汉江景观本月20号，家住襄城的冒新华，创作完成了山水盆景千里汉江图，二十多米长的盆景就像一幅美丽的画卷，赏心悦目。市风景园林学会副理事长何纯秀表示，这么长，这么有特色的山水画卷，还是非常少给狗报十万健身班，变形计变成功的富二代王晨正，现在怎样了在开始变形计之前，西安某学校的校长曾说你们要是让他去参加节目，说不定到最后，连你们的节目都毁了。这个他说的就是王晨正。抽烟喝酒，打架斗殴，一整个街头的溜子。他是家长口中的问题少年，千亩银杏林披上金装，呈现出醉人的美景在济南建邦大桥附近的黄河大堤上，千亩银杏林披上了金装，阳光熠熠，微风徐徐，金叶翩然，呈现出醉人的美景，许多市民前来寻找金秋时节的浪漫。银杏树为落叶乔木，雌雄异株，叶片成扇形。木材致诗家随笔徐荣丽封控散记封控散记作者浓茶淡品2022年8月21日省旅行发展大会就要在大庆召开了，时间定在28日。为了迎接省旅行发展大会，大庆把自己的面貌又重新打扮了一番，很多交通要道的公路和人行道都进行了中国公民可办理赴日5年多次签，有这回事吗？近日，中国公民可办理赴日5年多次签证的消息引发关注疫情前，日本是中国公民出境游最热门的目的地之一5年多次签证通道可以办是否意味着可以去日本了？记者求证可以受理，但有条件记者10月2辽阔草原上飞奔的骏马难以入眠的蒙古包和篝火烧烤已经不记得是在哪一年，北京夏天的气温快要冲破40度，为了避暑，我跟几个朋友一起坐大巴车来到了辉腾锡勒草原，那是我第一次登上大草原。当年的照片已经寻不到了，但时而回想还有一些清晰的记故乡的秋天秋日生活打卡季长白山下是故乡！朋友说挺能扯，长春市距离长白山500多公里，不行那么夸张的。长春是第二故乡，真正的故乡在泰山脚下，具体点说是文登，泰山距离文登也是500多公里，不近。马伊琍啥也不露，西装敞开穿配背心，老阿姨年纪也能穿出女团风马伊琍就算穿普通的衣服依旧是能够穿出女团风。前一段时间有人拍到马伊琍上节目的时候的照片。虽然她只是穿着一套西装，但是她刻意把西装敞开穿。里面搭配的是一件白色背心，就算是老阿姨的年龄vivoX90Pro试产16G512G版本，骁龙8Gen24800mAh电池，很强硬按照今年的高端机销量数据来看，国产中一直领先的是vivoX80系列和荣耀Magic4系列，比较意外，小米旗下的小米12系列竟然干不过vivo和荣耀。让人惊喜的是，现在vivo旗舰越香港创新科技嘉年华2022开幕参与者试玩沉浸式模拟烹饪虚拟实验室。陈永诺摄参与者试玩大力运输机械人。陈永诺摄参与者试玩虚拟实景单车机。陈永诺摄创新科技嘉年华2022现场。陈永诺摄参与者观看航天相关展品。陈永诺摄

友情链接：快好找快生活快百科快传网中准网文好找聚热点快软网