特征选择11种特征选择策略总结

作文动态
热点娱乐
育儿情感
教程科技
体育养生
教案探索
美文旅游
财经日志
励志范文
论文时尚
保健游戏
护肤业界

特征选择11种特征选择策略总结

　　太多的特征会增加模型的复杂性和过拟合，而太少的特征会导致模型的拟合不足。将模型优化为足够复杂以使其性能可推广，但又足够简单易于训练、维护和解释是特征选择的主要工作。
　　特征选择意味着可以保留一些特征并放弃其他一些特征。本文的目的是概述一些特征选择策略：删除未使用的列删除具有缺失值的列不相关的特征低方差特征多重共线性特征系数p值方差膨胀因子（VIF）基于特征重要性的特征选择使用scikitlearn进行自动特征选择主成分分析（PCA）
　　该演示的数据集在MIT许可下发布，来自PyCaret一个开源的低代码机器学习库。
　　数据集相当干净，但我做了一些预处理。请注意，我使用此数据集来演示不同的特征选择策略如何工作，而不是构建最终模型，因此模型性能无关紧要。
　　首先加载数据集：importpandasaspddatahttps：raw。githubusercontent。compycaretpycaretmasterdatasetsautomobile。csvdfpd。readcsv（data）df。sample（5）
　　该数据集包含202行和26列每行代表一个汽车实例，每列代表其特征和相应的价格。这些列包括：df。columnsIndex（〔symboling，normalizedlosses，make，fueltype，aspiration，numofdoors，bodystyle，drivewheels，enginelocation，wheelbase，length，width，height，curbweight，enginetype，numofcylinders，enginesize，fuelsystem，bore，stroke，compressionratio，horsepower，peakrpm，citympg，highwaympg，price〕，dtypeobject）
　　现在让我们深入研究特征选择的11种策略。删除未使用的列
　　当然，最简单的策略是你的直觉。虽然是直觉，但有时很有用的，某些列在最终模型中不会以任何形式使用（例如ID、FirstName、LastName等列）。如果您知道某个特定列将不会被使用，请随时将其删除。在我们的数据中，没有一列有这样的问题所以，我在此步骤中不删除任何列。删除具有缺失值的列
　　缺失值在机器学习中是不可接受的，因此我们会采用不同的策略来清理缺失数据（例如插补）。但是如果列中缺少大量数据，那么完全删除它是非常好的方法。totalnullvaluespercolumndf。isnull（）。sum（）symboling0normalizedlosses35make0fueltype0aspiration0numofdoors2bodystyle0drivewheels0enginelocation0wheelbase0length0width0height0curbweight0enginetype0numofcylinders0enginesize0fuelsystem0bore0stroke0compressionratio0horsepower0peakrpm0citympg0highwaympg0price0dtype：int64不相关的特征
　　无论算法是回归（预测数字）还是分类（预测类别），特征都必须与目标相关。如果一个特征没有表现出相关性，它就是一个主要的消除目标。可以分别测试数值和分类特征的相关性。
　　数值变量correlationbetweentargetandfeatures（df。corr（）。loc〔price〕。plot（kindbarh，figsize（4，10）））
　　在此示例中，peakrpm，compressionratio，stroke，bore，height，symboling等特征与价格几乎没有相关性，因此我们可以删除它们。
　　可以手动删除列，但我更喜欢使用相关阈值（在本例中为0。2）以编程方式进行：dropuncorrelatednumericfeatures（threshold0。2）corrabs（df。corr（）。loc〔price〕）corrcorr〔corr0。2〕colstodropcorr。index。tolist（）dfdf。drop（colstodrop，axis1）
　　分类变量
　　可以使用箱线图查找目标和分类特征之间的相关性：importseabornassnssns。boxplot（yprice，xfueltype，datadf）
　　柴油车的中位价高于汽油车。这意味着这个分类变量可以解释汽车价格，所以应放弃它。可以像这样单独检查每个分类列。低方差特征
　　检查一下我们的特征的差异：importnumpyasnpvarianceofnumericfeatures（df。selectdtypes（includenp。number）。var（）。astype（str））
　　这里的bore具有极低的方差，虽然这是删除的候选者。在这个特殊的例子中，我不愿意删除它，因为它的值在2。54和3。94之间，因此方差很低：
　　df〔bore〕。describe（）
　　多重共线性
　　当任何两个特征之间存在相关性时，就会出现多重共线性。在机器学习中，期望每个特征都应该独立于其他特征，即它们之间没有共线性。高马力车辆往往具有高发动机尺寸。所以你可能想消除其中一个，让另一个决定目标变量价格。
　　我们可以分别测试数字和分类特征的多重共线性：
　　数值变量
　　Heatmap是检查和寻找相关特征的最简单方法。importmatplotlib。pyplotaspltsns。set（rc｛figure。figsize：（16，10）｝）sns。heatmap（df。corr（），annotTrue，linewidths。5，center0，cbarFalse，cmapPiYG）plt。show（）
　　大多数特征在某种程度上相互关联，但有些特征具有非常高的相关性，例如长度与轴距以及发动机尺寸与马力。
　　可以根据相关阈值手动或以编程方式删除这些功能。我将手动删除具有0。80共线性阈值的特征。dropcorrelatedfeaturesdfdf。drop（〔length，width，curbweight，enginesize，citympg〕，axis1）
　　还可以使用称为方差膨胀因子（VIF）的方法来确定多重共线性并根据高VIF值删除特征。我稍后会展示这个例子。
　　分类变量
　　与数值特征类似，也可以检查分类变量之间的共线性。诸如独立性卡方检验之类的统计检验非常适合它。
　　让我们检查一下数据集中的两个分类列燃料类型和车身风格是独立的还是相关的。dfcatdf〔〔fueltype，bodystyle〕〕dfcat。sample（5）
　　然后我们将在每一列中创建一个类别的交叉表列联表。crosstabpd。crosstab（dfcat〔fueltype〕，dfcat〔bodystyle〕）crosstab
　　最后，我们将在交叉表上运行卡方检验，这将告诉我们这两个特征是否独立。fromscipy。statsimportchi2contingencychi2contingency（crosstab）
　　输出依次是卡方值、p值、自由度和预期频率数组。
　　p值0。05，因此我们可以拒绝特征之间没有关联的原假设，即两个特征之间存在统计上显着的关系。
　　由于这两个特征之间存在关联，我们可以选择删除其中一个。
　　到目前为止，我已经展示了在实现模型之前应用的特征选择策略。这些策略在第一轮特征选择以建立初始模型时很有用。但是一旦构建了模型，就可以获得有关模型性能中每个特征的适应度的更多信息。根据这些新信息，可以进一步确定要保留哪些功能。
　　下面我们使用最简单的线性模型展示其中的一些方法。dropcolumnswithmissingvaluesdfdf。dropna（）fromsklearn。modelselectionimporttraintestsplitgetdummiesforcategoricalfeaturesdfpd。getdummies（df，dropfirstTrue）XfeaturesXdf。drop（price，axis1）ytargetydf〔price〕splitdataintotrainingandtestingsetXtrain，Xtest，ytrain，ytesttraintestsplit（X，y，testsize0。3，randomstate42）fromsklearn。linearmodelimportLinearRegressionscalingfromsklearn。preprocessingimportStandardScalerscalerStandardScaler（）Xtrainscaler。fittransform（Xtrain）Xtestscaler。fittransform（Xtest）convertbacktodataframeXtrainpd。DataFrame（Xtrain，columnsX。columns。tolist（））Xtestpd。DataFrame（Xtest，columnsX。columns。tolist（））instantiatemodelmodelLinearRegression（）fitmodel。fit（Xtrain，ytrain）
　　现在我们已经拟合了模型，让我们进行另一轮特征选择。特征系数
　　如果正在运行回归任务，则特征适应度的一个关键指标是回归系数（所谓的beta系数），它显示了模型中特征的相对贡献。有了这些信息，可以删除贡献很小或没有贡献的功能。featurecoefficientscoeffsmodel。coefvisualizingcoefficientsindexXtrain。columns。tolist（）（pd。DataFrame（coeffs，indexindex，columns〔coeff〕）。sortvalues（bycoeff）。plot（kindbarh，figsize（4，10）））
　　某些特征beta系数很小，对汽车价格的预测贡献不大。可以过滤掉这些特征：filtervariablesnearzerocoefficientvaluetemppd。DataFrame（coeffs，indexindex，columns〔coeff〕）。sortvalues（bycoeff）temptemp〔（temp〔coeff〕1）（temp〔coeff〕1）〕dropthosefeaturescolscoefftemp。index。tolist（）XtrainXtrain〔colscoeff〕XtestXtest〔colscoeff〕p值
　　在回归中，p值告诉我们预测变量和目标之间的关系是否具有统计显著性。statsmodels库提供了带有特征系数和相关p值的回归输出的函数。
　　如果某些特征不显著，可以将它们一个一个移除，然后每次重新运行模型，直到找到一组具有显着p值的特征，并通过更高的调整R2提高性能。importstatsmodels。apiassmolssm。OLS（y，X）。fit（）print（ols。summary（））
　　方差膨胀因子（VIF）
　　方差膨胀因子（VIF）是衡量多重共线性的另一种方法。它被测量为整体模型方差与每个独立特征的方差的比率。一个特征的高VIF表明它与一个或多个其他特征相关。根据经验：VIF1表示无相关性VIF15中等相关性VIF5高相关
　　VIF是一种消除多重共线性特征的有用技术。对于我们的演示，将所有VIF高于10的删除。fromstatsmodels。stats。outliersinfluenceimportvarianceinflationfactorcalculateVIFvifpd。Series（〔varianceinflationfactor（X。values，i）foriinrange（X。shape〔1〕）〕，indexX。columns）displayVIFsinatableindexXtrain。columns。tolist（）vifdfpd。DataFrame（vif，indexindex，columns〔vif〕）。sortvalues（byvif，ascendingFalse）vifdf〔vifdf〔vif〕10〕
　　基于特征重要性选择
　　决策树随机森林使用一个特征来分割数据，该特征最大程度地减少了杂质（以基尼系数杂质或信息增益衡量）。找到最佳特征是算法如何在分类任务中工作的关键部分。我们可以通过featureimportances属性访问最好的特征。
　　让我们在我们的数据集上实现一个随机森林模型并过滤一些特征。fromsklearn。ensembleimportRandomForestClassifierinstantiatemodelmodelRandomForestClassifier（nestimators200，randomstate0）fitmodelmodel。fit（X，y）
　　现在让我们看看特征重要性：featureimportanceimportancesmodel。featureimportancesvisualizationcolsX。columns（pd。DataFrame（importances，cols，columns〔importance〕）。sortvalues（byimportance，ascendingTrue）。plot（kindbarh，figsize（4，10）））
　　上面的输出显示了每个特征在减少每个节点拆分处的重要性。
　　由于随机森林分类器有很多估计量（例如上面例子中的200棵决策树），可以用置信区间计算相对重要性的估计值。calculatestandarddeviationoffeatureimportancesstdnp。std（〔i。featureimportancesforiinmodel。estimators〕，axis0）visualizationfeatwithimportancepd。Series（importances，X。columns）fig，axplt。subplots（figsize（12，5））featwithimportance。plot。bar（yerrstd，axax）ax。settitle（Featureimportances）ax。setylabel（Meandecreaseinimpurity）
　　现在我们知道了每个特征的重要性，可以手动（或以编程方式）确定保留哪些特征以及删除哪些特征。使用ScikitLearn自动选择特征
　　sklearn库中有一个完整的模块，只需几行代码即可处理特征选择。
　　sklearn中有许多自动化流程，但这里我只展示一些：importmodulesfromsklearn。featureselectionimport（SelectKBest，chi2，SelectPercentile，SelectFromModel，SequentialFeatureSelector，SequentialFeatureSelector）
　　基于卡方的技术
　　基于卡方的技术根据一些预定义的分数选择特定数量的用户定义特征（k）。这些分数是通过计算X（独立）和y（因）变量之间的卡方统计量来确定的。在sklearn中，需要做的就是确定要保留多少特征。如果想保留10个功能，实现将如下所示：selectKbestfeaturesXbestSelectKBest（chi2，k10）。fittransform（X，y）numberofbestfeaturesXbest。shape〔1〕10
　　如果有大量特征，可以指定要保留的特征百分比。假设我们想要保留75的特征并丢弃剩余的25：keep75topfeaturesXtopSelectPercentile（chi2，percentile75）。fittransform（X，y）numberofbestfeaturesXtop。shape〔1〕36
　　正则化
　　正则化减少了过拟合。如果你有太多的特征，正则化控制它们的效果，或者通过缩小特征系数（称为L2正则化）或将一些特征系数设置为零（称为L1正则化）。
　　一些模型具有内置的L1L2正则化作为超参数来惩罚特征。可以使用转换器SelectFromModel消除这些功能。
　　让我们实现一个带有惩罚l1的LinearSVC算法。然后使用SelectFromModel删除一些功能。implementalgorithmfromsklearn。svmimportLinearSVCmodelLinearSVC（penaltyl1，C0。002，dualFalse）model。fit（X，y）selectfeaturesusingthemetatransformerselectorSelectFromModel（estimatormodel，prefitTrue）Xnewselector。transform（X）Xnew。shape〔1〕2namesofselectedfeaturesfeaturenamesnp。array（X。columns）featurenames〔selector。getsupport（）〕array（〔wheelbase，horsepower〕，dtypeobject）
　　序贯法
　　序贯法是一种经典的统计技术。在这种情况下一次添加删除一个功能并检查模型性能，直到它针对需求进行优化。
　　序贯法有两种变体。前向选择技术从0特征开始，然后添加一个最大程度地减少错误的特征；然后添加另一个特征，依此类推。
　　向后选择在相反的方向上起作用。模型从包含的所有特征开始并计算误差；然后它消除了一个可以进一步减少误差的特征。重复该过程，直到保留所需数量的特征。instantiatemodelmodelRandomForestClassifier（nestimators100，randomstate0）selectfeaturesselectorSequentialFeatureSelector（estimatormodel，nfeaturestoselect10，directionbackward，cv2）selector。fittransform（X，y）checknamesoffeaturesselectedfeaturenamesnp。array（X。columns）featurenames〔selector。getsupport（）〕array（〔bore，makemitsubishi，makenissan，makesaab，aspirationturbo，numofdoorstwo，bodystylehatchback，enginetypeohc，numofcylinderstwelve，fuelsystemspdi〕，dtypeobject）主成分分析（PCA）
　　PCA的主要目的是降低高维特征空间的维数。原始特征被重新投影到新的维度（即主成分）。最终目标是找到最能解释数据方差的特征数量。importPCAmodulefromsklearn。decompositionimportPCAscalingdataXscaledscaler。fittransform（X）fitPCAtodatapcaPCA（）pca。fit（Xscaled）evrpca。explainedvarianceratiovisualizingthevarianceexplainedbyeachprincipalcomponentsplt。figure（figsize（12，5））plt。plot（range（0，len（evr）），evr。cumsum（），markero，linestyle）plt。xlabel（Numberofcomponents）plt。ylabel（Cumulativeexplainedvariance）
　　20个主成分解释了超过80的方差，因此可以将模型拟合到这20个成分（特征）。可以预先确定方差阈值并选择所需的主成分数量。总结
　　这是对可应用于特征选择的各种技术的有用指南。在拟合模型之前应用了一些技术，例如删除具有缺失值的列、不相关的列、具有多重共线性的列以及使用PCA进行降维，而在基本模型实现之后应用其他技术，例如特征系数、p值、VIF等。虽然不会在一个项目中完全使用所有策略，这些策略都是我们进行测试的方向。
　　本文代码：https：github。commabalamfeatureselection
　　作者：MahbubulAlam

一句鼓励使生活更精彩作文800字语言的作用最强大的，在某种程度上可以影响甚至改变一个人。语言在生活中无处不在，这是人类独一无二的特点，正因有了它，生活才更精彩。一句鼓励的话语有时往往能燃烧起我们内心斗志……作文范文妈妈我爱你十一金秋，回家帮忙收获。见到妈妈，开心之余，却又有了最大的心理负担。花白的头发，蹒跚的步履，可还是我那个一直心态不老的妈妈吗？虚弱的身体，不稳的睡眠，可还是我那个一……我的中国梦每个人都有一个小小的梦想，正是因为有了这些梦想，这一个又一个看似微不足道的梦想，构成我们中华民族最伟大的梦想mdash；mdash；国富民强。中国是一个历史悠久的文明古国……明天你好的优秀作文泛黄的胶片，凝固了时光，每当旋律响起，淡淡的唏嘘和隽永便携着那个时代的气息在空气中悄悄弥散。如花美眷，似水流年，回得了过去，回不了当初，总要有一些人，一些事来怀念过去，感……开学新鲜事儿难忘的期初课程光阴似箭，日月如梭，时间过得真快，一转眼，小学生活即将成为我的过去。而在这最后一个学期，我度过了一个难忘的期初课程。在这次的期初课程，发生了许多难忘的事，最让我印象深刻的……关于黄河的作文黄河岸边风烟如画你有你的天，他有他的地。还好，我有我的河黄河。许多时候，我们都会去黄河岸边，沿黄公路上寻找风景，释放心情。总有一眼风景可以安抚自己荒芜的心情，总有一眼风景可以成为镜头里的……让更聪明的机器人赋能更多应用场景让更聪明的机器人赋能更多应用场景阅读提示随着我国人口老龄化程度持续加深以及劳动力成本的上升，服务型机器人规模化走入服务业成为迫切的现实，服务机器人产业也迎来了发展快……生活的美好在于与人交往生活的美好在于与人交往生活，是美好的。因为在生活中有友情，亲情陪伴着你，予你温暖与鼓励。但如果在生活中失去了友情与亲情，生活会成为一团乱麻，便失去了它应有的意义。假……不忘初心，牢记使命刚才听完了金一南教授的演讲《我们的时代，我们的奋斗》，现在回想起来，感慨万千。是！这就是我们中国人该拿出的面貌！《我们的时代，我们的奋斗》主要围绕三大中心来演讲。中……中国五冶集团中德智能网联汽车试验场地建设项目完工近日，中国五冶集团承建的中德智能网联汽车试验场地建设项目顺利完工。该项目位于成都市龙泉驿区洪安镇，总建筑面积4。26万平方米，包括高速环道、多功能测试道路、城市综合测试道……滴滴平台不负责任的判责司机，导致司机口吐鲜血滴滴平台不负责任的判责司机，导致司机口吐鲜血！4。17日一名黔西南跑滴滴网约车的驾驶员因准备出车时发现被扣了服务分6分，随即打电话咨询滴滴服务平台，平台回复是超过申诉时限……初中母亲节作文情系母亲节母亲，这个词一直是世界上最美丽的一个词语。她表达了所有人对妈妈的爱。曾几何时，我们还在妈妈的怀抱里娇生惯养，如今我们都已长大成人。感谢妈妈，感谢母亲。是她们给了我们生命，是她们……

<<<<<<－>>>>>>

纯电之魅长安新能源糯玉米长安新能源糯玉米开始预售啦，价格35万，共有七种外观颜色选择，三门四座，隐藏式门把手，续航155KM、210KM。接送萌娃神器，购物出行帮手，在预售阶段交158享六重豪礼，……中学校方致家长的一封信模板尊敬的家长：您好！美好的已如烟逝去，的钟声即将敲响。在过去的一年里，学校在您的关注与支持下，各项工作顺利开展，教育实效日趋显著，在此谨向您表示衷心的感谢！值此新春佳……马斯克被夸后回赞大众CEO推动电气化功不可没特斯拉CEO埃隆马斯克周四赞扬了大众汽车集团CEO赫伯特迪斯在推动该公司向电气化转型方面的贡献。马斯克发推称：迪斯在推动大众汽车快速迈向电气化方面功不可没。有他是大众的幸……心中有光，长庚不灭心中有光，长庚不灭我的新偶像观亲爱的同学们，大家好！当今世界在不断发展，社会的价值取向也随之无声改变，偶像一词已经不仅仅指代活跃在大荧幕上的演员或歌手，而拥有……路虎卫士110P400e插电式混动版车型根据《关于新能源汽车免征车辆购置税有关政策的公告》显示，2021年对新能源汽车消费较为重要的车辆购置税免征政策，将会进一步延续。从2021年1月1日至2022年12月31日，中……台风小学日记7月11日星期六大暴雨星期六，超强台风灿鸿正向我们逼近。呼呼呼大风在外面使劲的吹着。吹了一会儿，风好像没有力气了，又停了一会儿。然后又接着吹雨也一直下着我们只好躲在……关于军训的作文范文300字（通用10篇）无论是身处学校还是步入社会，许多人都写过作文吧，借助作文人们可以反映客观事物、表达思想感情、传递知识信息。那么你知道一篇好的作文该怎么写吗？以下是小编收集整理的关于军训的作文范……描写梦想的高中说明文作文梦想是一幅美丽的画，里面充满了无穷无尽的色彩。下面一起和小编学习一下关于梦想的作文吧！梦想说明文篇一：清晨，一抹淡淡的红光泛在天边，朝阳升起了，孕育着无人可测的事物。每一……写给西部小朋友的一封信品学网专稿未经允许不得转载西部的小朋友：你们好！西部的小朋友，你们好！我们虽然不认识，但是我想和你们交个朋友。我们虽然相隔甚远，但是，我通过课文了解了你们的习……漫步校园800字作文校园不是不美，是我们没有发现美。以下小编整理了漫步校园800字作文，希望对大家有所启发！漫步校园800字作文【1】我们学校坐落在黄河之畔，大青山脚下，有着四十年历史的一所……改写句子的方法下面是小编给大家整理的改写句子的方法，欢迎大家查看。一、陈述句改感叹句的方法1、把句中有ldquo；很rdquo；字改成ldquo；真rdquo；或ldquo；多么……荷的六年级作文七月的早晨，我漫步在山边。听见不远处不时传来叮叮咚咚的响声。我便随着声音来到了池塘，这时，扑进我眼帘的是一大片犹如天仙般美丽动人的荷花。荷花自古以来就有许多美称，比如荷花……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网