范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

Pandas管理和操作数据比SQL更方便

  本文将比较Pandas和SQL在管理和操作数据方面哪一个更方便,Pandas是由数据科学家专门为数据分析设计的一款开源软件,并且有成千上万的代码贡献者帮助改进,工具函数越来越多,易用性越来越好。本系列文前面还有两篇《Pandas管理和操作数据比 SQL 更简洁!》和《Pandas 管理和操作数据比SQL更灵活》,感兴趣的可阅读。特别说明,本文以下内容摘译自英文ponder网,头条文章中不允许提供网站链接,感兴趣可自己搜索;示例代码测试环境为VScode下的Jupyter Notebook。
  数据准备import pandas as pd sf_permits = pd.read_csv("E:/archive/Building_Permits.csv") sf_permits.head()
  输出结果如下图:
  构建复杂查询
  使用Pandas构建比较复杂的查询,可以在其他查询的结果上进一步增加新的查询,同时还可以查询此前其他查询的结果,以便检查此前其他查询结果的正确性。例如,在准备好的数据集中,想查询与"Geary"相关的街道名称,查询代码如下:sf_permits[sf_permits["Street Name"] == "Geary"]
  输出结果如下图:
  从输出结果中可以看出,与"Geary"相关的许多相邻的街道信息"Neighborhoods - Analysis Boundaries",如下图:
  整个数据的输出结果一共有43列,如果只想要"Neighborhoods - Analysis Boundaries"这一列,把其他42列删除,那么只需要在前面语句的末尾增加[["Neighborhoods - Analysis Boundaries"]],代码如下:sf_permits[sf_permits["Street Name"] == "Geary"][["Neighborhoods - Analysis Boundaries"]]
  输出结果如下图:
  一共有1966行,在此基础上做进一步查询。假如想要进一步查询与Geary相邻的街道信息,按"permits"值从大到小排序,那只需要在前面查询语句的基础上,增加"sort_values(by = ["Neighborhoods - Analysis Boundaries"]).value_counts()"即可,代码如下:sf_permits[sf_permits["Street Name"] == "Geary"][["Neighborhoods - Analysis Boundaries"]].sort_values(by = ["Neighborhoods - Analysis Boundaries"]).value_counts()
  输出结果如下图:
  以上这些查询语句,用SQL都可以实现,但是写SQL查询代码是非常痛苦的,不能一层层地在末尾追加查询条件,因为每一个查询条件的变化都有特定的位置,例如,SQL查询语句中要改变输出数据的列,就需要修改此前的查询SELECT的内容,而使用Pandas就可以顺着思路一步一步地追加查询条件。处理查询的中间结果
  Pandas自诞生以来,就借鉴了其他编程语言对数据操作的惯用方法,例如,可以把dataframe赋值给变量,可以直接操作该变量,也可以把该变量赋值给其他变量。现在写一段代码,查询数据集中有多少空值,并且检查每列有多少个空值,代码如下:missing_values_count = sf_permits.isnull().sum() missing_values_count
  输出结果如下:
  从输出结果中可以看出,整个数据集共有43列、199000行,非空值是大多数列都有空值,因此就需要对该数据集进行清理,设定一个清理条件:非空值不能低于190000,否则就删除该列,操作代码如下:sf_permits_cleaned = sf_permits.dropna(axis="columns",thresh=190000) sf_permits_cleaned
  输出结果如下:
  从输出结果可以看出,清理以后的数据集只有198900行19列,这样的操作在Pandas中是非常方便的,只需要定义一个新的变量 "sf_permits_cleaned",按照一般变量赋值即可;如果用SQL来操作,可以达到类似的结果,但是需要定义视图,然后在视图的基础上进行操作,不那么直观,也比较难处理!快速获得数据集的统计信息
  使用Pandas,有许多方法可以快速获得dataframe的数据及其元数据的全部信息,也可以使用函数head/tail()获得头部或尾部的几行数据及其元数据的信息。为了方便起见,适应显示其大小,用"..."隐藏了更多列和行的信息。使用info()函数可以获得dataframe的总体信息,代码如下:sf_permits_cleaned.info()
  输出结果如下:
  从图中可以看出,含有空值的列都是描述性的列,其他列几乎都没有空值。Pandas还提供了一个函数describe(),用于专门获取描述性的列的统计数据,如总数、均值、方差及其分位数,代码如下:sf_permits_cleaned.describe()
  输出结果如下:
  以上结果出现了一个奇怪的现象,street number的min是0,其实就是某个街道不存在。
  这样的操作对于SQL来说,就很繁琐了,需要写专门的查询语句,并且数值类型的列越多,查询语句越长。数据可视化
  Pandas内置了可视化函数,而SQL没有可视化能力。看看示例代码:sf_permits_cleaned["Current Status"].value_counts().plot(kind ="bar")
  输出结果如下:
  图中包含了各分类的数据柱状图。
  Pandas和SQL在以上几个方面的比较,只是站在终端用户的角度来看,Pandas有很多优点;但是二者的目标不同,设计理念也不同,Pandas因数据科学而生,应用在机器学习方面肯定非常方便,而SQL是从属于数据库系统,从更多的角度看,两者都没有可比性。

故土野人山什么时候能够回归?野人山位于缅甸最北方,是属于密支那以北一片没有开发的原始森林,向北面是喜马拉雅山。野人山海拔高度为3411米山脉,是缅甸中比较高的山脉,缅甸只有少数超过3000米的高峰。野人山周边女主播护士服听诊诱惑太大,网友黑丝女仆YYDS我的生活也是头条小小奶瓶在参加完恋综后粉丝大涨,专业日语导师的奶瓶,在和粉丝聊天中,也时不时秀出日语水平。而在平时的直播中,小小奶瓶,解锁新奇开播姿势。跪姿在椅子上,疯狂撩腿,无论内含福利浙江各地免费游景区清单大放送!还有专属红包封面限时限量领取!新年(放假)的脚步越来越近了,大家都想好去哪玩了吗?有出游打算的小伙伴,千万别错过浙游君整理的这份浙江免费景区清单!一起来看看吧杭州HangZhou上下滑动阅览西溪国家湿地公园一到山东泰山大胜武汉三镇,晋级足协杯4强,他们能否夺冠?今年的山东泰山用起伏不定来形容一点也不为过,论投入,在中超也是数一数二,他们买了多位世界级球星,如费莱尼贾德松孙准浩莫伊塞斯等人,可是他们却错失今年的中超冠军,败给谁呢?当然是败给累计捐款超1亿!武汉盛帆女篮老板热心公益扶持女篮还助力养老头条创作挑战赛中国女篮时隔28年重夺世界杯亚军让中国篮球又一次闪耀世界,女篮也逐渐得到了人们的关注。武汉盛帆集团作为武汉盛帆女篮的投资公司也是豪言捐赠300万奖励中国女篮,为了扶持杨绛人这一生,好不好都得自己走头条创作挑战赛图片来自于网络人这一生,好不好都得自己走,累不累都得自己承受。每个人都有难言之苦,每个人都有无声的泪,岁月可曾饶过谁!杨绛谁的人生都是二两酒,一两心酸,一两愁。不要总开这个主题号的初衷为什么要开这样一个主题号呢?我想主要基于两点一是从宝贝出生到现在,22个半月了,发现有很多值得记录下来的地方,大多是很小的地方,不能很及时记录的话,很快就忘记了。后来在某一时刻突然司马南对社会的具体伤害不平凡的2022人间一切美好来源于智慧,而智慧来源于苦难当一个人春风得意之时,往往正在丧失智慧走向愚昧所以就有了个人的命运沉浮现象,有了社会的兴衰现象。智慧源自人类知苦,但并不是每热血传奇拥有屠龙刀的太子丹,被黑社会线下威胁至退游?我不会卖号,如果哪天我离开了游戏,账号的归属不是转于他人,是删号这句豪情的话是当年太子丹说的,当年许多玩家并没在意,只觉得太子丹是说的狠话,谁知道后面真的验证了,最终太子丹还是消失泰拉瑞亚新手教程游戏新春创作纪创建地图,大中小随意。当然大地图的物资越丰富。新手还是玩小地图吧。一个小地图玩糟了可以换。想致富!先撸树!几乎和MC一样生存法。不是致富,是生存。2造房子,这都会吧?紧抓数字化关键变量?看长沙这些县域如何出招近十年来,长沙的GDP从6399。91亿元增长到13270。7亿元,跨越7个千亿台阶,位列全国省会城市第六,居民人均可支配收入也同步实现了翻倍增长。2022年,长沙连续两年蝉联中国
手足癣灰指甲?送你一味凤仙花,活血又祛风,养眼又养生这次突如其来的疫情,大家有没有发现会一点中医知识还是挺有用的。至少让我们在如今看病难的时候,可以坦然的面对我们自身的不适。可有人就会说了,中医离不开中药,现如今又不能出门抓药,会中拒绝脑梗心梗,3个小技巧,让你的心脑血管年轻健康心脑血管疾病已经成了现在社会工人白领和学生的心头大患,为了保护血管健康我们必须提前就树立预防意识,以免年纪大了各种情况突发,到时候不但害了自己,也苦了家人。1健康生活是关键日常生活都来给我看,你是否有这7种常见的营养缺乏症,医生强烈推荐您可能认为营养缺乏已成为过去,只有远航的水手才会经历。但即使在今天,您的身体仍可能缺乏一些必需的营养素,以使身体发挥最佳的功能。钙和维生素D的缺乏会导致骨质减少或骨质疏松症,这两种菜吧38间茅草房为何能成顶级网红村,每年吸引超30万游客打卡?乡村振兴热潮之下,乡村旅游成为乡村振兴的方向之一村里有条小水沟就要搞农家乐,有几棵树就想做个民宿,有几亩菜花田就要办油菜花节各路投资者也从中嗅到了商机,但往往开头大张旗鼓,结果烂尾初登白帝城来源人民网人民日报海外版重庆市奉节县白帝城掩映在满山青翠中,与清澈的江面相映成趣。饶国君摄(人民图片)对白帝城最初的想象来源于诗歌,唐代诗人高适写道青枫江上秋帆远,白帝城边古木疏。省钱!少走弯路!生活中9个出行小窍门1如果不赶时间,可以坐公交地铁。如果赶时间,可以细心一点留意公交地铁的出发班次时间,这样就可以踩点或者提前到达等待。2赶时间,用网约车选择经济型。平时留意各个渠道的小车接送广告,关风动茉莉,心动横州!茉莉花开等你来邂逅一朵花的芬芳爱上一朵花的家乡时光流转横州花开成海苍翠醇香的茶洁白无瑕的花二者相遇氤氲一城风雅茉莉花开宾客云来盛会启筵扬名四海横州花田万亩沃野千里四季瓜果飘香大粽丰腴江鲜肥美乡愁比玻璃栈道更有趣的设计在欧洲丹麦,有一处螺旋式的树状走道,极具艺术感,无论是从立体结构还是线条美感,都让人心旷神怡。由上到下,只有一条路。想看更远处的风景,就一直往上直至顶层。如果累了,可以随时往下,每六味地黄丸还能治疗糖尿病?提示这4类人不建议吃说到六味地黄丸,相信没有人不知道它。这是一种补肾的中成药,这种药物对于缓解肾阴虚有很好的效果,还能改善腰酸背痛。如果身边有肾虚的人,会听到他说正在服用六味地黄丸,或者家里有人肾虚,沙漠俱乐部度假酒店项目信息项目名称麦迪逊沙漠俱乐部设计团队科瓦奇设计工作室项目类型酒店,民宿位置美国拉昆塔关键词(自选)酒店,民宿,景观,度假这座度假屋位于拉昆塔传说中的麦迪逊俱乐部,旨在为喜欢在城民宿营销关于民宿酒店官方图那些事儿因为一直有自建摄影师团队,拍了30多家民宿酒店后,我想从如何更好营销应用的角度,聊一聊平台官方图那些事儿首先,我其实最想问民宿老板们一个问题,你真的想好你想要什么了吗?为什么想这么