范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

从零开始学R数据分析,数据筛选与提取

  通常从系统中导出的数据字段有很多,并不是所有的字段都能用于数据分析中,这时候为了提高运算的速度,以及节省运算内存,需要筛选一些我们数据分析实际使用到的数据字段,通常筛选出数据字段后还需要做聚合运算,例如EXCEL中countif,sumif的用法,那么这些方法如何在R中使用呢?下面一起来学习。 示例工具:R x64 3.5.3、RStudio
  本文讲解内容:数据筛选与提取
  适用范围:数据筛选、多条件计数、多条件求和
  本次内容的学习需要先创建一组数据集,数据内容包含"ID"、"NAME"等五个字段,数据结果如下。 #手动创建数据表data data<-data.frame(ID=c("c001","c002","c003","c004","c005","c006","c007","c008","c009","c010"),                  NAME=c("Rmesh","Khilan","Kaushik","Chaitali","Hardik","Komal","Tom","Muffy","Susan","Kevin"),                  AGE=c(23,20,23,25,27,24,26,31,26,30),                  ADDRESS=c("Ahmed","Delhi","Kota","Mumbai","Bhopal","MP-A","MP-B","Indore","JP-No.1","JP-No.2"),                  SAL=c(2000,1500,2000,5000,8500,6500,5500,9500,7000,9000))
  1   数据筛选
  在R中数据筛选使用subset函数进行筛选,在subset函数的参数中添加逻辑运算和筛选条件,例如筛选条件等于、不等于、大于、小于,逻辑运算与、或、非的条件,这里用双等于号表示等于,如筛选名字中为Kevin的行,筛选结果如下所示: #数据筛选 subset(data,data$NAME=="Kevin")
  筛选名字中不包含Kevin的行,不等于号用"!="表示,筛选结果如下所示: #按非条件进行筛选 subset(data,data$NAME!="Kevin")
  subset函数可以添加多个条件,使用与的条件时用"&"符号连接起来,这里筛选年龄大于25且收入大于8000的行记录,结果如下: #按与的条件筛选 subset(data,data$AGE>25 & data$SAL>8000)
  如果是或的条件,用"|"符号表示,筛选年龄大于25岁或者收入大于8000的行记录,筛选结果如下所示: #按或的条件筛选 subset(data,data$AGE>25 | data$SAL>8000)
  2     数据提取
  数据提取一般有三种方法进行提取,即按位置提取、按索引提取和按条件提取,在pandas中类似于loc和iloc的用法,可以按照位置、按照列索引以及添加筛选条件进行数据提取。
  按位置提取数据使用中括号[ ],在中括号中逗号前提取的是行,逗号后提取的是列,要提取第一行数据结果如下: #提取数据表第一行 data[1,]
  要提取第一行到第五行的数据,在中括号中提取行1:5,逗号后面提取列可以不写,默认即可。 #提取数据表第一行至第五行 data[1:5,]
  提取数据表中第五列数据,省略逗号前行提取,直接写逗号后的列值即可。 #提取数据表第五列 data[5]
  提取第三列到第五列,逗号前的行提取默认不写,在逗号后的列提取第三列到第五列即可,提取结果如下: #提取数据表第三列至第五列 data[,3:5]
  如果同时提取行和列,比如提取第三行第五列的数据,可以在逗号的前面和后面分别写上行数和列数。 #提取数据表第三行第五列 data[3,5]
  提取特定的数据区域,可以使用":"冒号来提取,行和列的位置不变,只需要改变数据区域的大小即可。 #提取数据表特定区域数据 data[1:3,1:3]
  按索引提取数据,这里分为按照行索引提取和列索引提取,需要提取的行索引和列索引用引号括起来 ,如下提取第三行的数据。 #按索引提取行数据 data["3",]
  如果按照索引提取多行,需要用括号括起来,在中括号中逗号前的位置用于提取行,逗号后的位置用于提取列,与按位置提取数据方法一致。 #按索引提取多行数据 data[c("3","5"),]
  按照列名提取数据,需要将列名用括号括起来即可。 #按列名称提取 data["NAME"]
  需要提取特定行和特定列的数据,中括号中写上行索引和列索引即可。 #按索引提取行与列数据 data["4","NAME"]
  提取多个行与多个列数据,需要用括号将行索引和列索引括起来。 #按索引提取多个行与列数据 data[c("2","4"),c("NAME","SAL")]
  除了按位置和按索引提取数据,还有一种方法是按条件提取数据,使用which函数,后面加特定的聚合条件,比如这里提取薪水最高的行记录。 #查找薪水最高的所在行 data[which.max(data$SAL),]
  同理,提取薪水最低的行记录。 #查看年龄最小的所在行 data[which.min(data$AGE),]
  3   聚合运算
  筛选数据以及提取特定数据区域后,可以对这部分数据做聚合运算,与Excel中的筛选功能和countif和sumif功能相似,而countifs和sumifs是多条件计数和多条件求和。
  对年龄大于25岁以及收入大于8000的薪水多条件求和,使用subset函数数据筛选后,借助sum函数实现多条件求和的功能。 #Excel中的sumifs()函数求和 sum(subset(data,data$AGE>25 | data$SAL>8000)$SAL)
  多条件计数使用length函数计数。 #Excel中的countifs()函数计数 length(subset(data,data$AGE>25 | data$SAL>8000)$ID)
  多条件求平均这里使用mean函数,求年龄大于25岁或者收入大于8000的平均薪水,数据结果如下所示。 #Excel中的averageifs()函数计数 mean(subset(data,data$AGE>25 | data$SAL>8000)$SAL)

升级鸿蒙系统后微信还能用吗?感谢您的阅读!手机升级鸿蒙系统之后,微信还能使用吗?其实这个问题讨论的是鸿蒙系统的生态问题。鸿蒙的生态问题也是必须或者是着重要解决的问题,如果不能够解决鸿蒙时代问题,那么对于未来的ios14。4对比14。6哪个好?感谢您的阅读!我反而会觉得IOS14。4系统要比IOS14。6系统的体验会更好。我们必须要知道ios14。6系统它确实解决了一些问题增加一些功能,但是这款系统依然会在我看来有一些缺选择电脑,你是颜值党还是配置党?就像做人一样,光有能力,但不修边幅,别人看了会生厌,自然无法融世,如果光修边幅,没有智慧,就像绣花枕头,外表漂亮,里面全是糟糠也不行呀,所以嘛,又要有能力,又要有体面,如此才能融入电视台是自负盈亏吗?电视台是自负盈亏的。媒体都是事业单位企业管理自收自支,当然媒体的营收中也有获得支持的部分。现在大家的阅读和收看都集中到了手机端,原先的报纸电台与电视台,都面临着全新的运营突围。移动如何看待华为官宣鸿蒙后各厂商的态度?华为鸿蒙系统,是中国人的操作系统,在万物互联的互联世界里,由政府机关做起,公务办事很行车站机场家电汽车医院一切都是鸿蒙系统,人们只要拿起鸿蒙系统的手机,就可以和生活息息相关的万物互告别滴滴,入手美团打车,大家怎么看?不要对美团抱太多信心。美团现在纵容司机刷数据。也就是为了达到融资的目的而已。根本就没想过长远发展。不过现在还在没证跑车的司机,其实想想,应了那句老话,可怜之人必有可恨之处。曾经做个华为云手机可以替代5nm或者3nm的高端旗舰手机吗?9月1号,华为宣布启动云手机的公开测试。云手机的概念立刻吸引了世人的眼球。有人说云手机能够让华为彻底摆脱缺乏高端芯片的困境,同时也可以甩开美国对华为的芯片封锁。因为不需要那么多复杂网购平台打假难?亚马逊斥巨资销毁逾200万件假货据美国有线电视新闻网商业新闻网站报道,亚马逊去年销毁了超过200万件疑似假货,这些赝品是由第三方卖家寄往其订单执行中心的,这是亚马逊网站打击假冒伪劣商品行动的一部分。当地时间5月1中国汽车销量连涨13个月!4月新能源车销量激增180据路透社近日报道中国汽车工业协会(CAAM)的数据显示,4月份中国汽车销量与去年同期相比增长8。6,且连续第13个月保持增长。报道称,中国是全球最大的汽车市场,引领该行业从新冠疫情外媒应用务实令中国机器人优势显现来源经济参考报全球工业机器人应用需求在新冠疫情期间持续扩大。外媒近期纷纷表示,中国企业拥有在细分场景的解决方案,不仅成为近期机器人领域的亮点,还有望在全球市场竞争中占据优势。俄罗斯中芯7nm还没消息,中国院士又呼吁放弃EUV,高端芯片路有多难?本文原创,请勿抄袭和搬运,违者必究中国院士多次表态国产芯片处在成熟工艺水平,相对来说,在28nm到90nm领域,中国有一定的参与感。只要稍微努力,实现这类成熟工艺制程的自给自足不成
GalaxyS22和S22屏幕支持48120Hz动态刷新和原来宣传有别三星最近发布了GalaxyS22S22和S22Ultra,在最初的新闻稿中,三星向媒体透露,三星GalaxyS22和S22配备了10120Hz的动态AMOLED2X屏。然而3天后,从3399元跌至2099元,骁龙88812GB256GB,65W闪充旗舰性价比手机仍然是很多用户追捧的对象,即便性价比手机有时因为出现品质问题,开始时候我们可能骂骂咧咧,后面看到新一代手机性价比很高,就选择原谅了,还是一如反顾的选择入手,当然并不是所有顶级屏幕骁龙8120瓦快充,红米K50电竞版你会买么?什么时候红米还用顶级屏幕了?K50g用的是华星光电的柔性OLED屏,素质可能不错,但再好也好不过小米12的三星E5,所以这里用顶级屏幕是不是托大了?再说答案我是不会买!不会买的原因从4999元降到1298元,40w和鸿蒙,华为旗舰不贵了大家有买过二手的电子产品吗?作为数码编辑,其实二手机没少买,我个人认为二手手机的价值还是比较高的,尤其是安卓机跌价快,刚买了新机,没多久就降价。只要是渠道有保障,基本都不错,上一个RedmiK50预热海报发布,骁龙888旗舰降价不到2000让路下个月将会有多款搭载高通骁龙8Gen1处理器的高端旗舰手机推出,包括RedmiK50电竞版以及红魔7游戏手机。RedmiK50电竞版及红魔7都是游戏手机,硬件配置上都是搭载高通骁龙单从实用角度考虑,是两年一部千元机好还是五年一部旗舰机好?单从实用角度考虑,是两年一部千元机好还是五年一部旗舰机好?要是想要那种比较流畅的体验,现在打算换手机,到底是五六千买个旗舰机然后一用五年,还是两年换个千元机能搞到更好的体验呢?这个新款高颜值耳机开箱,看着挺养眼,用着也舒坦真无线耳机为什么会很普及?你听到最多的理由是不是便捷?现在如果再有人问同样的问题,我想社恐才是一个硬核理由。可以说,社恐一词不仅仅赋予了真无线耳机新的意义,也助推了耳机个性化的发展Redmi中端新机曝光搭载骁龙6955000mAh电池1000左右?除了RedmiK50系列之外,红米还有一款中低端5G新机在今天被曝光。据数码闲聊站带来的爆料称,红米的将会在近期推出一款全新的5G中低端新品,该机搭载了一块6。67英寸的OLED居高并发没锁可不行,三种分布式锁详解Java中的锁主要包括synchronized锁和JUC包中的锁,这些锁都是针对单个JVM实例上的锁,对于分布式环境如果我们需要加锁就显得无能为力。在单个JVM实例上,锁的竞争者通异地GA调查跨境通子公司财务流水权限难明2022开年以来,估计大家多方面都获取到很多唱衰跨境电商的消息。但是真实的行业反馈并不是这样,就目前来看,各大电商直播间打得火热,跨境电商在新的一年里还会迅猛发展。据知情人士透露,美最高法院内部分裂?美国互联网自由做过的恶,终于反噬自己都2022年了,美国人竟然还在为戴口罩的事情干架。1月19日,美国CNN报道称,最高法院的9名法官因开会是否应该戴口罩,产生了巨大分歧,直接闹翻了脸。这个看似简单的问题,却通过美国