范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

Pandas管理和操作数据比SQL更方便

  本文将比较Pandas和SQL在管理和操作数据方面哪一个更方便,Pandas是由数据科学家专门为数据分析设计的一款开源软件,并且有成千上万的代码贡献者帮助改进,工具函数越来越多,易用性越来越好。本系列文前面还有两篇《Pandas管理和操作数据比 SQL 更简洁!》和《Pandas 管理和操作数据比SQL更灵活》,感兴趣的可阅读。特别说明,本文以下内容摘译自英文ponder网,头条文章中不允许提供网站链接,感兴趣可自己搜索;示例代码测试环境为VScode下的Jupyter Notebook。
  数据准备import pandas as pd sf_permits = pd.read_csv("E:/archive/Building_Permits.csv") sf_permits.head()
  输出结果如下图:
  构建复杂查询
  使用Pandas构建比较复杂的查询,可以在其他查询的结果上进一步增加新的查询,同时还可以查询此前其他查询的结果,以便检查此前其他查询结果的正确性。例如,在准备好的数据集中,想查询与"Geary"相关的街道名称,查询代码如下:sf_permits[sf_permits["Street Name"] == "Geary"]
  输出结果如下图:
  从输出结果中可以看出,与"Geary"相关的许多相邻的街道信息"Neighborhoods - Analysis Boundaries",如下图:
  整个数据的输出结果一共有43列,如果只想要"Neighborhoods - Analysis Boundaries"这一列,把其他42列删除,那么只需要在前面语句的末尾增加[["Neighborhoods - Analysis Boundaries"]],代码如下:sf_permits[sf_permits["Street Name"] == "Geary"][["Neighborhoods - Analysis Boundaries"]]
  输出结果如下图:
  一共有1966行,在此基础上做进一步查询。假如想要进一步查询与Geary相邻的街道信息,按"permits"值从大到小排序,那只需要在前面查询语句的基础上,增加"sort_values(by = ["Neighborhoods - Analysis Boundaries"]).value_counts()"即可,代码如下:sf_permits[sf_permits["Street Name"] == "Geary"][["Neighborhoods - Analysis Boundaries"]].sort_values(by = ["Neighborhoods - Analysis Boundaries"]).value_counts()
  输出结果如下图:
  以上这些查询语句,用SQL都可以实现,但是写SQL查询代码是非常痛苦的,不能一层层地在末尾追加查询条件,因为每一个查询条件的变化都有特定的位置,例如,SQL查询语句中要改变输出数据的列,就需要修改此前的查询SELECT的内容,而使用Pandas就可以顺着思路一步一步地追加查询条件。处理查询的中间结果
  Pandas自诞生以来,就借鉴了其他编程语言对数据操作的惯用方法,例如,可以把dataframe赋值给变量,可以直接操作该变量,也可以把该变量赋值给其他变量。现在写一段代码,查询数据集中有多少空值,并且检查每列有多少个空值,代码如下:missing_values_count = sf_permits.isnull().sum() missing_values_count
  输出结果如下:
  从输出结果中可以看出,整个数据集共有43列、199000行,非空值是大多数列都有空值,因此就需要对该数据集进行清理,设定一个清理条件:非空值不能低于190000,否则就删除该列,操作代码如下:sf_permits_cleaned = sf_permits.dropna(axis="columns",thresh=190000) sf_permits_cleaned
  输出结果如下:
  从输出结果可以看出,清理以后的数据集只有198900行19列,这样的操作在Pandas中是非常方便的,只需要定义一个新的变量 "sf_permits_cleaned",按照一般变量赋值即可;如果用SQL来操作,可以达到类似的结果,但是需要定义视图,然后在视图的基础上进行操作,不那么直观,也比较难处理!快速获得数据集的统计信息
  使用Pandas,有许多方法可以快速获得dataframe的数据及其元数据的全部信息,也可以使用函数head/tail()获得头部或尾部的几行数据及其元数据的信息。为了方便起见,适应显示其大小,用"..."隐藏了更多列和行的信息。使用info()函数可以获得dataframe的总体信息,代码如下:sf_permits_cleaned.info()
  输出结果如下:
  从图中可以看出,含有空值的列都是描述性的列,其他列几乎都没有空值。Pandas还提供了一个函数describe(),用于专门获取描述性的列的统计数据,如总数、均值、方差及其分位数,代码如下:sf_permits_cleaned.describe()
  输出结果如下:
  以上结果出现了一个奇怪的现象,street number的min是0,其实就是某个街道不存在。
  这样的操作对于SQL来说,就很繁琐了,需要写专门的查询语句,并且数值类型的列越多,查询语句越长。数据可视化
  Pandas内置了可视化函数,而SQL没有可视化能力。看看示例代码:sf_permits_cleaned["Current Status"].value_counts().plot(kind ="bar")
  输出结果如下:
  图中包含了各分类的数据柱状图。
  Pandas和SQL在以上几个方面的比较,只是站在终端用户的角度来看,Pandas有很多优点;但是二者的目标不同,设计理念也不同,Pandas因数据科学而生,应用在机器学习方面肯定非常方便,而SQL是从属于数据库系统,从更多的角度看,两者都没有可比性。

爱豆扎堆演戏,究竟是内娱无舞台还是你不够热爱?时隔三年,张艺兴线上演唱会于7月23日在湘江再度起航。小编很高兴能成为其中一名观众,也很欣慰还能在内娱看到唱跳俱佳的爱豆。因为前些年选秀浪潮的来袭,我们误以为这是内娱爱豆的崛起。殊70年代年代女巨贪包养七名情夫,生活奢淫无度,最终被情夫举报1977年7月24日,江苏如东县,酷暑刚过。如东中学的操场上酷热难耐,但本该在树荫下乘凉的人们却聚集在这里。今天,将在这个操场上举行公开审判会议,宣布对一名囚犯的判决。眼看处罚车近老牌歌手齐聚富婆家,杭天琪董文华如复制,任静面容僵硬认不出饿了吗?戳右边关注我们,每天给您送上最新出炉的娱乐硬核大餐!7月25日,一名网友在社交账号上晒出一段视频,向大家分享自己与数名老牌歌手聚会的画面,引发持续热议。据悉,这位网友名叫丽起底接待吴啊萍供奉日军战犯牌位的僧人初中辍学,曾驾车撞死人7月25日,有新闻媒体报道,在接待吴啊萍供奉日军战犯牌位的当值僧人灵松初中辍学,曾驾车撞死人,赔偿了70多万元,同时获刑两年!7月24日晚,南京发布官方公布了南京玄奘寺供奉日军战犯你信鬼神巫仙吗?看看这个地主怎么就信得乱七八糟这个地主的内心异常刚强,却对鬼神巫仙信得乱七八糟。一不值一屑他35岁之前是不信的,这有巫婆荣大娘驱赶他亡父之魂为证。荣大娘来礼贺他喜得次子时,偶遇次子发病。荣大娘水碗立筷,查出他父东北黑老大乔四,作风狠毒不可一世,他又是如何败落的?如果您觉得我们的这篇文章给你带来不错的阅读体验,请点击右上方的关注,感谢您的支持和鼓励,我们将持续给您带来优质的内容。在东北,有位出了名的黑老大乔四,他可以狠到砍起自己手指来眼睛都大同一高中教师年薪不到5万,网友们有两种不同看法教师工资的高低,向来是个很敏感的话题。教师虽然被誉为人类灵魂的工程师,但教师也是人,也食人间烟火,也为人父为人母为人子女,教师不仅承担着教书育人的重任,还承担着家庭的责任。所以,教7月25日各纸厂废纸收购价格信息华东地区安徽宿州鑫光纸业,废纸价格上调30元吨。安徽萧县林平纸业,废纸价格上调30元吨。山东邹城太阳宏河纸业,废纸价格上调30元吨。江苏徐州中兴(建平)纸业,废纸价格上调20元吨。湖北网咖利用上网免费不要钱,一月收款37万,这套路值得借鉴今天给大家分享一个案例湖北一家开网咖的老板,通过人性贪婪做营销,利用上网免费不要钱,在一个月内疯狂收款37万。老板这招免费模式适用于各行各业,不管你是开餐饮店服装店还是水果店超市,爸爸,什么是性骚扰?性教育有必要普及那么早吗?往往,每一次强奸都是在暴力性骚扰之后发生的极端后果。而全球30以上的女性曾经历过强制性暴力行为。性骚扰,似乎是变态的前戏。他们利用肮脏的语言手对受害人进行骚扰。甚至在公共场合,光明全球外汇储备数据出炉欧元占20,美元占58。81,人民币呢?目前全球外汇储备前5名分别是美元,欧元,日元,英镑,人民币。这是国际上最常用来结算的货币币种,而第一的位置始终是美元这件事是无可置疑的。外汇储备是为了应对国际贸易需求,购买其它国家
好久不见!泰国商户中国游客最喜欢的菜已备好(央视财经第一时间)泰国政府对本国的出入境政策做出了调整,为迎接中国游客的回归做准备。当地旅游业者表示,中国游客将帮助泰国经济加速复苏。视频加载中央视财经第一时间栏目视频泰国旅游协现在喝酒人数那么多,单纯是因为喜欢?还是另有隐情?现在这个社会,不管自己要去见什么人,还是去做什么事,基本免不了喝酒,几乎在很多重要的场合都要喝酒。当你结婚的时候要喝酒去敬客人酒,当你想敲定一个合同的时候,要喝酒去陪那些大客户,当女子晒婚后5年攒的金首饰,项链手镯摆满一地板不喜欢的就融掉女人天生喜欢购物,比如购买漂亮的衣服,名牌包包,各种化妆品,总之,就像商家所说的那样女人的钱最好赚,只要抓住了女人的心理,那么,财源滚滚来。不过,衣物和包包,化妆品一类属于纯消耗品骨传导原理是什么,2023年性能最高的几款骨传导耳机分享在高新科技时代下的我们,数码产品成为了我们生活中必不可少的物品,其中最具有代表性的便是耳机,无论是在日常还是运动的场景,通常都会选择耳机作为过程中的伴侣。在近些年迅速火起的骨传导耳一家四口在三亚溺水,3死1失联,家属回应1月7日下午海南省三亚市海棠区后海村附近海域4人溺水其中,3人死亡1人失联目前仍未找到失联游客记者了解到,不幸溺水的4人为甘肃兰州的一家人,在城关区滩尖子经营一家烟酒店,近日去三亚又一波福利来袭!背蜀道难免票游玩剑门关!探访三国故事重磅福利来袭福利来袭自2023年1月1日开始,游客本人在剑门关景区南北门游客中心咨询处,以普通话全文背诵出蜀道难,即可免费获得剑门关景区当日有效门票1张,每人每天限1次跟着邮票游武夷山,品茗大红袍茶武夷山邮票1994年中国邮政发行武夷山邮票,采用横四连张印制,突出了武夷山风景区特点,武夷山两侧山峰突兀,雄伟秀丽,九曲溪水流清澈,水源充沛,众多景色一览无余,确是一套令人喜爱的山去西安看城墙,穿越千年,领略汉唐雄风,秦的霸气头条创作挑战赛去西安看城墙西安的城墙,建于明代,历经风雨500年,厚重雄伟,像一座丰牌屹立在古城之中,让炎黄故事上下传说几千年。西安城墙,是西安人心中最雄伟的丰牌,更是世界人民向往刚出湖的鱼是热气腾腾的冬捕节开启查干湖旅游暖春吉林省松原市查干湖面积420平方公里,结满冰的湖面在冬日阳光的照射下熠熠生辉,一派千里冰封的北国风光。马拉绞盘冰下走网冰湖腾鱼查干湖第21届冬捕节近日开幕,湖面上人头攒动,各地游客陈乔恩与老公牵手走机场,羽绒马甲搭配半身长裙,时髦又减龄!头条创作挑战赛陈乔恩与老公艾伦又现身机场被拍到了一组照片,夫妻俩牵手一起走实在太甜了吧?要说偶像剧女王陈乔恩与艾伦是在综艺节目中相识相恋,可真的就像是偶像剧一样,两人也是没少撒狗粮2023翩翩而来,你是否能够看清她的模样?过去的2022年,多灾多难百味杂陈,无论如何,旧日的时光已经去,新的生活还要开始。2023,就像一个朦胧的女神,已经向我们翩翩走来。面对她依稀可辨的模样,我们该怎样看待她,怎样与她