范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

Python和Excel终于互通了!这个插件能自动生成代码实现数据分析

  加载一个Jupyter插件后,无需写代码就能做数据分析,还帮你生成相应代码?
  没错,只需要加载这个名为Mito的小工具包,用Python做数据分析,变得和用Excel一样简单:
  介绍
  以 Excel 为代表的电子表格是探索数据集的最重要、最具适应性的方式之一。它可以帮助对数据类型进行必要的更改、创建新特征、对数据进行排序以及从现有特征中创建新特征。
  遵循以上相同的思路,Mito是一个Jupyter-Lab扩展和Python库,它使得在支持GUI的电子表格环境中操作数据变得超级容易。
  Mito的出现,像是将 Python 的强大功能、和 Excel 的易用性进行了结合。
  只需要掌握Excel的用法,就能使用Python的数据分析功能,还能将写出来的代码 "打包带走"  。
  它弥补了Excel在数据分析上的几个 缺陷 : Excel无法做大数据分析(大型数据集处理得不好) Excel运行缓慢 Excel无法轻松创建可重复流程
  同时,又比SQL和Python更 简单 、直观。毕竟这些专业工具对于0基础初学者来说,需要至少几年时间,才能完全上手。
  在本文中,我们将一起学习: 如何合理设置Mito 如何debug安装错误 使用 Mito 提供的各种功能 数据库如何为对数据集所做的所有操作生成 Python 等效代码 安装Mito
  Mito 是一个 Python 库,可以通过 pip 包管理器安装。它需要 Python 3.6 及以上版本。此外,系统上需要安装 Nodejs,一个 JavaScript 运行时环境。
  另外,可以在单独的环境(虚拟环境)中安装这个包,可以避免一些依赖错误。接下来在终端中运行这些命令,完成安装即可。 1. 创建环境
  我正在使用 Conda 创建一个新环境。你还可以使用 Python 的 "venv"  来创建虚拟环境。 conda create -n mitoenv python=3.8 2. 激活环境conda activate mitoenv 3. 通过pip安装Mitopip install mitoinstaller 4. 运行 Mito 安装程序python -m mitoinstaller install
  此过程将需要一段时间来安装和设置 Mito。 5. 启动 Jupyter Labjupyter lab 报错解决
  当启动 Jupyter Lab时,可能会遇到如下错误: File "c:userslenovoanaconda3envsmitoenvlibsite-packagesjupyter_corepaths.py", line 387, in win32_restrict_file_to_user     import win32api ImportError: DLL load failed while importing win32api: The specified module could not be found.
  要修复此错误,只需运行以下命令: pip install --upgrade pywin32==225
  如果你遇到其他困难,请随时在下面发表评论。我很乐意提供帮助。 MitoSheets 界面
  在 Jupyter Lab中,创建一个新笔记本并初始化 Mitosheet: import mitosheet mitosheet.sheet()
  第一次,系统会提示输入你的电子邮件地址进行注册:
  填写完基础知识后,将被重定向到 GUI 电子表格。接下来我们一起看看这个接口的所有特性,并一起学习如何生成 Python 等效代码。 加载数据集
  要在 MitoSheets 中加载数据集,只需单击导入。有两个选择: 从当前文件夹添加文件: 这将列出当前目录中的所有 CSV 文件,可以从下拉菜单中选择文件。 按文件路径添加文件: 这将仅添加该特定文件。
  如下图所示
  如果你看下面的单元格,你会发现Python等效的代码导入一个数据集使用pandas已经生成了适当的注释!
  这就是 Mito 的魅力,你在 Mitosheet 执行的每个操作都将转换为 Python 等效代码!接下来我们一起详细探讨一下 Mito 的所有功能。 添加和删除列添加列
  就像在 Excel 等电子表格中一样,你可以添加一个新列,该列可能是从现有列或特征创建的。要在 Mito 中执行此操作,只需单击 "Add Col"  按钮。该列将添加到当前选定的列表旁边。最初,列名将是一个字母表,列的所有值都为零。
  编辑新列的内容单击行列名称(分配的字母表) 将弹出侧边栏菜单,你可以在其中编辑列的名称。 要更新该列的内容,请单击该列的任何单元格,然后输入值。你可以输入一个常量值,也可以根据数据集的现有特征创建数据。如果要从现有列创建值,则直接使用要执行的运算符调用列名。 新列的数据类型根据分配的值进行更改。
  下面的 GIF 演示了上面提到的所有内容:
  删除列通过单击选择任何列。 单击 "Del Col"  ,该特定列将从数据集中删除。
  Python代码
  在下一个单元格中生成带有正确注释的 Python 等效代码,用于执行的操作是: # MITO CODE START (DO NOT EDIT) from mitosheet import * # Import necessary functions from Mito register_analysis("UUID-7bf77d26-84f4-48ed-b389-3f7a3b729753") # Let Mito know which analysis is being run # Imported edxCourses.csv import pandas as pd edxCourses_csv = pd.read_csv("edxCourses.csv") # Added column H to edxCourses_csv edxCourses_csv.insert(7, "H", 0) # Renamed H to newCol in edxCourses_csv edxCourses_csv.rename(columns={"H": "newCol"}, inplace=True) # Set newCol in edxCourses_csv to =coursePrice + courseEnrollments edxCourses_csv["newCol"] = edxCourses_csv["coursePrice"] + edxCourses_csv["courseEnrollments"] # Deleted column newCol from edxCourses_csv edxCourses_csv.drop("newCol", axis=1, inplace=True) # MITO CODE END (DO NOT EDIT) 创建数据透视表
  数据透视表是一个重要的环节 excel 功能,它根据另一个分类特征汇总数字变量。要使用 Mito 创建这样的表, 单击 "Pivot"  并选择源数据集(默认加载 CSV) 选择数据透视表的行、列和值列。还可以为值列选择聚合函数。所有下拉选项,如求和、平均值、中值、最小值、最大值、计数和标准偏差都可用。 选择所有必要的字段后,将获得一个单独的表,其中包含数据透视表的实现。
  下面的 GIF 演示了如何为聚合函数 "均值"  创建数据透视表:
  Python代码# MITO CODE START (DO NOT EDIT) from mitosheet import * # Import necessary functions from Mito register_analysis("UUID-a35246c0-e0dc-436b-8667-076d4f08e0c1") # Let Mito know which analysis is being run # Imported edxCourses.csv import pandas as pd edxCourses_csv = pd.read_csv("edxCourses.csv") # Pivoted edxCourses_csv into df2 pivot_table = edxCourses_csv.pivot_table(     index=["courseOrganization"],     values=["coursePrice"],     aggfunc={"coursePrice": "mean"} ) # Reset the column name and the indexes df2 = pivot_table.rename_axis(None, axis=1).reset_index() # MITO CODE END (DO NOT EDIT) 合并两个数据集
  合并数据集是数据科学项目的重要组成部分。通常,数据集被划分到不同的表格中,以增加信息的可访问性和可读性。合并 Mitosheets 很容易。 单击 "Merge"  并选择数据源。 需要指定要对其进行合并的键。 也可以从数据源中选择合并后要保留的列。默认情况下,所有列都将保留在合并的数据集中。
  Python代码# MITO CODE START (DO NOT EDIT) from mitosheet import * # Import necessary functions from Mito register_analysis("UUID-88ac4a92-062f-4ed8-a55d-729394975740") # Let Mito know which analysis is being run # Imported Airport-Pets.csv, Zipcode-Data.csv import pandas as pd Airport_Pets_csv = pd.read_csv("Airport-Pets.csv") Zipcode_Data_csv = pd.read_csv("Zipcode-Data.csv") # Merged Airport_Pets_csv and Zipcode_Data_csv temp_df = Zipcode_Data_csv.drop_duplicates(subset="Zip") Airport_Pets_csv_tmp = Airport_Pets_csv.drop(["State", "Division"], axis=1) Zipcode_Data_csv_tmp = temp_df.drop(["Mean_Income", "Pop"], axis=1) df3 = Airport_Pets_csv_tmp.merge(Zipcode_Data_csv_tmp, left_on=["Zip"], right_on=["Zip"], how="left", suffixes=["_Airport_Pets_csv", "_Zipcode_Data_csv"]) # MITO CODE END (DO NOT EDIT) 修改列数据类型、排序和过滤
  你可以更改现有列的数据类型,按升序或降序对列进行排序,或通过边界条件过滤它们。在 Mito 中的这些都很简单,可以通过选择屏幕上的选项通过GUI本身完成。 单击所需的列 将看到一个数据类型列表。可以根据需要从下拉列表中选择任何数据类型,该数据类型将应用于整个列。 接下来可以通过选择提供的选项按升序或降序对数据进行排序。 还可以使用自定义过滤器过滤数据。
  Python代码# MITO CODE START (DO NOT EDIT) from mitosheet import * # Import necessary functions from Mito register_analysis("UUID-cc414267-d9aa-4017-8890-ee3b7461c15b") # Let Mito know which analysis is being run # Imported edxCourses.csv import pandas as pd edxCourses_csv = pd.read_csv("edxCourses.csv") # Changed coursePrice from int64 to float edxCourses_csv["coursePrice"] = edxCourses_csv["coursePrice"].astype("float") # Sorted coursePrice in edxCourses_csv in descending order edxCourses_csv = edxCourses_csv.sort_values(by="coursePrice", ascending=False, na_position="first") edxCourses_csv = edxCourses_csv.reset_index(drop=True) # Filtered coursePrice in edxCourses_csv edxCourses_csv = edxCourses_csv[edxCourses_csv["coursePrice"] >= 500] edxCourses_csv = edxCourses_csv.reset_index(drop=True) # MITO CODE END (DO NOT EDIT) 图表和统计数据生成
  还可以直接在此扩展中生成图形,而无需编写绘图逻辑。默认情况下,此扩展生成的所有图都是使用 Plotly 制作的。这意味着绘图是交互式的,可以即时修改。
  注意,这里并没有像操作列一样,在下一个单元格中生成图形代码(也许开发人员会在以后的更新中推送此代码)
  可以使用 Mito 生成两种类型的图: 1. 通过点击图表按钮
  你将看到一个侧边栏菜单,用于选择图形类型和要选择的相应轴。
  2. 通过点击列名
  当你点击电子表格中的列名称时,可以看见过滤器和排序选项。但如果你导航到 "Summary Stats"  ,则会根据变量的类型显示线图或条形图以及变量的摘要。此摘要更改为文本和没有文本变量。
  保存和回放
  对数据集所做的所有转换都可以保存并用于其他类似的数据集。这在 Excel 中采用宏或 VBA 的形式。也可以通过这些功能完成相同的操作。
  文件是以Python编写的,而不是用比较难懂的VBA。
  回溯执行的所有步骤
  要想重复上面的步骤的话,也非常容易,Mito自带 "重复已保存分析步骤"  功能,一键就能用同样的方法分析其他数据。这个功能是最有趣的。你实际上可以追踪在Mitosheet 中应用的所有转换。所有操作的列表都带有适当的标题。
  此外,你可以查看该特定步骤!这意味着假设你更改了一些列,然后删除了它们。你可以退回到未删除的时间。
  写在最后
  新工具 "Mito"  ,用于在 Python 环境中实现类似电子表格的功能,并为所做的每一步生成等效操作的 Python 代码。
  参考来源:数据STUDIO

2月VR大数据微软MR头显一年翻一倍,HTCVive份额持续下滑Hello大家好,每月一期的VR内容硬件大数据统计又和大家见面了。想了解VR软硬件行情么?关注这里就对了。我们会统计Steam平台的用户及内容等数据,每月初准时为你推送,不要错过喔网联联姻支付宝并招人,深圳地铁支持银联闪付,央行开942万高罚单这一周为移动支付网打造的轻阅读栏目,关注移动支付行业一周热点,涵盖各大新技术创新及应用领域等。点击标题可直接阅读原文。3月起,网联清算有限公司(以下简称网联)同支付宝将正式开展跨境陈天桥雒芊芊研究院发布首份年报4位科学家获奖中新网3月4日电近日,陈天桥雒芊芊脑科学研究院(TianqiaoandChrissyChenInstitute,以下简称TCCI)公布了成立以来的首份年度报告,阐述了过去一年TCC最前线券商看好折叠手机前景,供应链迎来投资机会折叠手机是刚刚结束的MWC(世界移动通信大会)最热门的话题。三星华为等一线手机厂商纷纷发布或展示了折叠手机。多家券商发布了相关研报,一致看好折叠手机的长期前景,虽然2019年终端产独家Model3疑被暂停放行每经编辑裴健如图片来源每经记者刘玲摄(资料库)每经记者段思瑶蘧毛毛赵成3月4日,一份疑似从海关流出的文件显示,各汽车整车进口口岸海关暂停放行进口特斯拉Model3纯电动车和签发相应LinuxKernel5。0正式面向公众发布LinusTorvalds今日宣布期待已久的Linux5。0内核系列,终于在今天迎来了面向公众发布的大版本更新。Linux5。0内核系列的开发工作,属于两个月前。期间,维护团队一共什么品牌的路由器耐用又稳定?应邀回答本行业问题。路由器的选择要从自身的需求入手,结合自身的实际情况才能选择一款合适的路由器。光猫入户普及化的今天,家庭路由器已经成为了家庭组网中最重要的网络,路由器的选择,建议5年上亿美元!中国自主搞定革命性小芯片MWC2019世界通信大会期间,就在Intel突然中断5G合作之时,紫光展会亮出了5G的两把利剑5G通信技术平台马卡鲁,展锐首款5G基带芯片春藤510。春藤510基带采用台积电12银保监会提示信托违规引流风险理财通等多家平台被点名每经记者冷辉每经编辑易启江引流创意图图片来源摄图网日前,每日经济新闻记者获悉,银保监会信托部于近期向各银保监局发布风险提示函,对信托公司通过第三方互联网机构违规引流至资金信托产品,坐等打脸!雷军小米9首月供货不足百万台,就去工厂拧螺丝一直以来,小米热门产品的供货都是一个不小的问题,尤其是在产品上市初期。和过去一样,2月底上市的小米9也遇到了这个问题。对此,小米方面曾多次表示,将会加紧生产,让大家能够更轻松地买到官司缠身!FF贾跃亭又陷11起新诉讼共被索赔近8000万美元盖世汽车讯据外媒报道,自电动汽车初创公司法拉第未来(FaradayFuture)于去年十月份首次宣布大规模裁员和减薪以来,该公司如今又面临着一个新挑战供应商和承包商对其共提起了11
如何使助听器治疗耳鸣效果最大化?目前一些高端助听器是有掩蔽耳鸣的功能,但是也只是起到缓解的作用,起不到治疗的作用。你可以到就近的门店去感受一些。您好,这个问题需要这样看。助听器的耳鸣掩蔽功能参考用户的耳鸣频率,给今日头条是国内最好的新闻资讯平台吗?今日头条应该是国内最好的新闻资讯平台,这里比较活跃。虽然参差不齐,但能欣赏到你需要的内容,有很多有良知的人参与其中,这是通过几家平台对比得出的结论,知乎,新浪微博都差的很远。我认为李小龙是近代中国功夫的一张名片,为什么国内一些人要否定掉?李小龙对于中国功夫电影华人的形象没有人会否定,也不能否定,但是对于他的功夫体系有严重的夸张,已经是越来越神话,这一点不利于中国搏击的发展。李小龙的伟大就在于他正面的宣传了中国人的英2022,实体店路在何方?线上,线下,结合物流。网购打掉中间环节造成大量的失业,年轻人大多都在送餐送快递,普通人很难再创业。财富更加集中到少数人手里,而网购的商家都在拼倾销,都没有利润,便宜买的东西是用大量余额宝为什么要每天九点限售?没办法,树大容易招风。余额宝全称天弘余额宝货币,是一只货币基金,基金代码为000198,而货币基金主要投资于短期货币工具(一般期限在一年以内,平均期限120天),如国债央行票据商业媲美苹果iOS系统,小米MIUI上线纯净模式,华为鸿蒙也支持小米于去年9月开启MIUI纯净模式内测招募,前期发放5000个名额提供申请,经过小半年的内测之后终于正式上线。按照小米的说法,纯净模式可以帮助用户远离木马病毒,检查应用是否存在违规12年iPhone用户入手小米12一周有感苹果已不再具备优势从iPhone4时代就一直在用苹果手机,每两年换一台新机,上一台是iPhone12ProMax。身边很多朋友像我一样,一入苹果深似海,主要是iOS用习惯了。上周我和朋友逛小米之家,行业观察原材料价格上涨芯片紧缺集成化高速化芯片国产化成电驱动降本关键财联社(杭州,记者汪斌)讯,新能源车销售量的高速增长带动了电驱动系统行业的发展,电驱动系统搭载量不断攀升。根据NE时代统计数据,2021年新能源乘用车电机电控累计搭载量达354万台聚合支付的优势聚合支付实际上是对第三方支付平台服务的拓展,介于第三方支付机构与商户之间,连接着第三方支付机构和商户。聚合支付二维码除了可以聚合微信支付宝,还可以聚合QQ钱包百度钱包蚂蚁花呗信用卡互联网巨头们的那些爱而不得2022是一个堪称完美的对偶性数字,下一个更完美的对偶性要再等200年。可在论日按月计算的互联网,很多事情坚持了几年,就已经算很漫长的时间了。所以,很多互联网大厂的执念就看起来很感今日热点微信新增语音播放暂停功能猿辅导取得办学许可证1张文宏谈第四针疫苗现在还不需要那么着急国家传染病医学中心主任张文宏针对包括变异体在内的研究确凿显示,新冠疫苗在降低重症和死亡率方面效果显著,尤其第三针疫苗可以使抗体水平升高几十倍