范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

PySpark基本入门(附python代码示例)

  在整理数据,处理数据上。对于大规模数据分析,相较于hadoop来说,spark是个更为方便的工具。今天为大家带来pyspark的快速入门,希望对大家的工作和学习有帮助。
  基本概念介绍
  首先介绍一下spark中常见的基本概念:
  RDD:弹性分布式数据集的简称,是一个分布式对象集合,「本质上是一个只读的分区记录集合。不能直接修改,只能通过一定的转换操作(map, reduce, join, group by)来创建新的RDD。」
  DAG:有向无环图,反应了RDD之间的依赖关系。
  Executor:一个进程,负责运行任务。
  Application:用户编写的spark应用程序。
  Task:运行在Excutor上的工作单元。
  Job:一个job包含多个RDD以及对应的RDD上的各种操作。
  Stage:作业的基本调度单位。一个作业会被分为多组Task,每组任务称为一个stage。
  其中,RDD是一种高度受限的内存模型,一次只能对RDD全集进行修改。听完上述说明,大家可能理解起来很抽象,接下来我将介绍RDD编程模型,并通过程序例子来说明,方便大家理解。
  RDD编程例子
  1. 从文件系统中加载数据并转化成RDD格式
  下面的例程可以将文本文件转化成RDD数据格式读入,便于Spark对RDD数据并行处理。
  from pyspark import SparkConf, SparkContext
  sc = SparkContext()
  # 可以通过sc.textFiles来将text文件转化成RDD格式的数据。
  # 如果是本地文件, 要加上 "file:///"
  lines = sc.textFiles("file:///usr/local/sparl/example.txt")
  # 下面三条语句是完全等价的
  lines = sc.textFiles("hdfs://localhost:9000/user/hadoop/example.txt")
  lines = sc.textFiles("/user/hadoop/example.txt")
  lines = sc.textFiles("example.txt")
  lines.foreach(print)
  2. 将数组转化成RDD格式
  array = [1, 2, 3, 4, 5]
  # 通过sc.parallelize将数组转化成RDD格式
  rdd = sc.parallelize(array)
  rdd.foreach(print)
  #1
  #2
  #3
  #4
  #5
  3. RDD操作:Transformation
  1. Filter
  lines = sc.parallelize(["Spark is very fast", "My name is LiLei"])
  # 筛选出含有"Spark"的行,操作为并行。
  linesWithSpark = lines.filter(lambda line: "Spark" in line)
  # 每行并行打印
  linesWithSpark.foreach(print)
  # Spark is very fast
  2. Map
  lines = sc.parallelize(["Spark is very fast", "My name is LiLei"])
  # 每一行通过map并行处理。
  words = lines.map(lambda line:line.split(" "))
  words.foreach(print)
  # ["Spark", "is", "very", "fast"]
  # ["My", "name", "is", "LiLie"]
  3. groupByKey
  words = sc.parallelize([("Hadoop",1),("is",1),("good",1),
  ("Spark",1),("is",1),("fast",1),("Spark",1),("is",1),("better",1)])
  # groupByKey() 应用于 (K,V) 键值对的数据集时, 返回一个新的 (K, Iterable) 形式的数据集
  words1 = words.groupByKey()
  words1.foreach(print)
  #("Hadoop", )
  #("better", )
  #("fast", )
  #("good", )
  #("Spark", )
  #("is", )
  4. reduceByKey
  words = sc.parallelize([("Hadoop",1),("is",1),("good",1),("Spark",1),
  ("is",1),("fast",1),("Spark",1),("is",1),("better",1)])
  # reduceByKey:相同的key通过指定操作进行聚合,下方代码利用求和进行聚合
  words1 = words.reduceByKey(lambda a,b:a+b)
  words1.foreach(print)
  #("good", 1)
  #("Hadoop", 1)
  #("better", 1)
  #("Spark", 2)
  #("fast", 1)
  #("is", 3)
  4. RDD操作:Action
  由于Spark的惰性机制,当RDD通过Transformation操作,直到遇到Action操作后,才会执行真正的计算, 从文件中加载数据, 完成一次又一次Transformation操作, 最终, 完成Action操作得到结果。
  rdd = sc.parallelize([1,2,3,4,5])
  ## rdd的数量
  rdd.count()
  #5
  ## 第一行rdd
  rdd.first()
  #1
  ## 前三行rdd
  rdd.take(3)
  #[1, 2, 3]
  rdd.reduce(lambda a,b:a+b)
  #15
  ## 以数组的形式返回rdd中所有元素
  rdd.collect()
  #[1, 2, 3, 4, 5]
  rdd.foreach(lambda elem:print(elem))
  总结
  通过将输入(文件,数组)转化成RDD,并将多个简单的Transformation和Action操作进行串联,Spark可以高效的完成很多复杂数据的处理。同时,在完成大规模的数据处理后,我们也可以利用Spark中内置的机器学习算法来对这些大规模的数据进行学习和建模。Spark中内部实现了很多分布式机器学习算法,例如SVM,Word2Vec等,我们将在后面的文章分享

耳聋到何程度需要佩戴助听器?其实对于助听器的佩戴,一般建议如果是出现了一定程度听力损伤的情况下,还是需要尽早地佩戴,因为越早配戴对于听力的进一步下降具有明显的缓解作用。而在现实生活中,很多人可能觉得佩戴助听器有没有极力推荐的APP?你最爱的APP是什么?中国大学有top9,实用软件也有top9,这九款app堪称宝藏软件!我的桌面我的桌面是一款精致女孩必备的个性化绝美手机桌面定制软件。它功能强大,涵盖小组件主题壁纸三大功能。其中小组你的下一台笔记本,考虑换什么?欢迎在点击右上角关注太平洋电脑网,不定时放送福利哦!岁月催人老,电脑的性能迭代更加无情。三年花了大价钱买的顶配游戏笔记本,当时还信誓旦旦地宣称五年内性能不落伍,然而到了今年想用它一收评沪指跌超2险守3000点国产软件股领涨中国经济网北京5月6日讯今日三大指数大幅低开,随后全天维持低位震荡,沪指盘中一度失守3000点关口。板块方面,互联网电商板块国产软件股逆市大涨,新冠检测油气开采中药等板块走强机场航终于挖到了这个文字转换工具,独享近10种功能,也太能打了吧不上班不知道,原来干文字这方面的活这么累,在这里要特别点名一下做会议记录,全程低头狂写,最后还是落了一大截。想录个音吧,会后还得花大把时间去听,真的愁死人!今天就要给各位小伙伴分享恐龙的灭亡事件?恐龙灭绝没有确切的原因。主要有以下几种理论1大陆漂移说地质研究证明,在恐龙时代,地球上只有一个大陆,即潘加大陆。由于地壳的变化,该大陆在侏罗纪时期经历了一次大的分裂和漂移,最终导致中兴Axon40将至,4nm芯片坐镇,5000mAh1TB存储讨人喜欢中兴作为国产老品牌巨头,虽然现在的处境有些不景气,但在曾经的中华联酷时代,中兴也赫赫有名,拥有着较高较稳的市场份额占比。不过在这个风云变幻的智能手机市场,谁又能一直红火下去呢?如今电动车续航都是骗人的?4种测试一个比一个虚,到底谁最靠谱?4月,由于上海封城等因素影响,整个汽车市场都处在大跌的环境下,但新能源乘用车却还能零售28。2万辆,同比暴增78。5。不管你信不信,新能源大趋势已经到来。很多人对新能源车的痛点是,抖音热卖的智能手表质量堪忧笔者在看头条视频的时候,被抖音视频广告吸引,购买了一只智能手表M2pro智能通话语音手表。购买不到半年竟然手表电池发生严重衰减,充满电不到3小时开始显示没电,根本没法正常戴啊。我滴京东发布2022春节消费观察,山东成交额居全国第五日前,京东发布的春节消费趋势显示,截至2月5日,2022春节期间成交额同比增长超50,其中,山东在春节期间的成交额排全国各省市第五位,前四位是广东江苏北京四川。此外,河南江西西藏湖春节假期全国共揽收投递快递包裹7。49亿件来源国家邮政局国家邮政局监测数据显示,今年春节期间(1月31日至2月6日),全国邮政快递业共揽收和投递快递包裹7。49亿件,较去年农历同期增长16,邮政快递传递亲情温暖人心的作用进
华为突然开卖新机,一切让人没有想到,麒麟芯配鸿蒙OS仅售2099元华为手机由于麒麟芯片的产能原因,所以在手机的供应方面一直都是有所欠缺的,这也导致了华为手机在市场中的占有率大幅度下降。不过虽然华为手机面临不小的困难,但是并没有阻止华为对于芯片受限网络基础知识路由器之前几篇文章都在内网转悠(有兴趣的朋友可以关注作者查看作者文章)。但是世界这么大总想去浪一浪。网络世界里如果从内网连到外网呢。这就要一个网关这个东西了。先看一下下面这个命令。ipr学生党,买什么笔记本好呢?学生党,买什么笔记本好?前言说实话关于这个学生买笔记本我个人还是不太建议为什么这么说呢?因为我认为在学习期间那就应该多把时间花在学习上面,估计这里有人会反驳我了认为买电脑不也是为了互联网大厂集体过冬缩减人员砍业务线不烧钱了深燃(shenrancaijing)原创作者李秋涵编辑魏佳1个月时间里,伍冬经历了两次裁员。10月,他还是腾讯PCG事业群下某业务线的员工,部门设置了一场考核考试,没过关即淘汰,他马航失联7年,传言美国劫持了机上的华为芯片专家。传言可信吗?不知从何时起,这个世界悬而未决的事情堆成了山,我们忙着探秘也似乎不再如幼时那般好奇心满满。2014年发生的马航失联事件,至今为止,历经多次调查取证却依旧无法得知事故真相,由此引发的上市两个月,iPhone13终于开始降价,最低5300,值得买吗?今年iPhone的火爆程度相信大家也都有目共睹,上市两个月一直处于缺货状态,甚至还一度溢价。不过在双十一之后,随着产能提升,货量也充足了,现在一些第三方平台,128g的iPhone马斯克别给苹果抛光布交智商税,快来买319元的特斯拉哨子IT之家12月1日消息,特斯拉推出了一款新的限量产品,为赛博卡车造型的哨子,售价高达50美元(约319元人民币)。马斯克为该产品在Twitter卖力宣传,表示别给苹果抛光布交智商税特斯拉跑滴滴能行吗?大家好,要说跑滴滴能不能行,我觉得肯定能行,但是要说特斯拉跑滴滴有多大优势不好说,有没有必要用特斯拉跑滴滴,我就更怀疑了!网上有上海网友说,买特斯拉27W多,跑滴滴一天赚700,这1安装基本工具1常用快捷键CtrlA将光标移动到行首CtrlC中止当前进程CtrlD注销终端会话CtrlE将光标移动到行尾CtrlK从光标删除到行尾CtrlL清除终端CtrlZ挂起(发送SIGTSpaceX星链正测试为飞机提供互联网服务南方财经12月1日电,据报道,SpaceX公司的星链项目正在利用多架飞机测试其基于卫星的物联网服务,并且希望尽快向航空公司提供该服务,即非飞机上的机组人员和乘客提供互联网接入服务S取消共享单车势在必行取消共享单车势在必行!共享单车作为最近几年流行的一种新型交通工具,因为其价格低廉,灵活便利,绿色环保的特性,受到上班一族的青睐,已成为上班族从地铁站到单位最后一公里的常用出行工具。