当前位置: 首页 > news >正文

注册公司代理记账费用朝阳seo建站

注册公司代理记账费用,朝阳seo建站,pdf 网站建设,性价比高的服务器目录 一、交互式分析 Basics More on RDD Operations Caching 二、编写独立运行的应用程序 本文主要内容来源于官方Spark Quick Start,spark版本为spark-2.4.6-bin-hadoop2.7,环境为Windows,spark路径为:D:\BigData\spark-2.…

目录

一、交互式分析

Basics

More on RDD Operations

Caching

二、编写独立运行的应用程序


本文主要内容来源于官方Spark Quick Start,spark版本为spark-2.4.6-bin-hadoop2.7,环境为Windows,spark路径为:D:\BigData\spark-2.4.6-bin-hadoop2.7。

一、交互式分析

Basics

Spark Shell可以使用scala或python访问,本文目前主要进行python方式的学习,后续有机会对scala方式进行补充。首先进入D:\BigData\sspark-2.4.6-bin-hadoop2.7\bin目录,

Scala打开方式:双击spark-shell.cmd

Python打开时,首先要安装python,注意spark1.x需要装python2.x, 否则会报TypeError: namedtuple() missing 3 required keyword-only arguments: 'rename',错误;本文使用spark2.4不会出现该问题。打开方式:双击pyspark.cmd

spark主要的数据抽象为RDD,即弹性分布式数据集,RDD可以从HDFS、文本文件、json、关系数据库等多种方式创建,下面演示从readme.md创建。在交互式窗口输入下面的命令即完成创建RDD:

textFile=sc.textFile("D:\BigData\spark-2.4.6-bin-hadoop2.7\README.md")

RDD支持的操作分为Action和Transformation,执行Action操作后,返回的是数值,而执行Transformation操作后,返回的是新的RDD。比如在命令行执行textFile.count(),返回的是RDD中元素的个数;而执行textFile.first(),返回的是RDD中的第一个元素,它也是一个RDD。

下面执行一个RDD的filter()转换操作,并返回包含文件子集的RDD:

linesWithSpark = textFile.filter(lambda line: "Spark" in line)

再对返回的RDD执行count()Action操作,返回文件中包含"Spark"的行数:

More on RDD Operations

我们使用RDD的Action和Transformation可以实现很多复杂的运算,下面通过它实现查找包含单词最多行的单词数:

textFile.map(lambda line: len(line.split())).reduce(lambda a, b: a if (a > b) else b)

在上面的例子中,先是使用map把每一行映射为单词数,并生成一个新的RDD;然后使用reduce查找最多的单词数。map和reduce的参数都是python中lambda表达式,我们也可以为其传递其他python函数,例如下面定义一个求最大值的函数:

def max(a, b):if a > b:return aelse:return b

然后将该函数作为参数传递给reduce:

textFile.map(lambda line: len(line.split())).reduce(max)

可以看到得到了与上面使用lambda表达式一致的结果。

spark可以轻松的实现类似MapReduce的数据流模式,比如经典的WordCount:

wordCounts = textFile.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)

上面得到的结果仍是一个RDD,我们对其应用collect Action得到每个单词的个数统计:

wordCounts.collect()

Caching

spark还支持将RDD缓存到集群范围的缓存中,这在进行迭代计算时非常有用,下面演示将linesWithSpark标记为要缓存的RDD:

二、编写独立运行的应用程序

这一节官网给了java、scala、python三种语言的讲解,我们还是先学习python。

先创建一个SimpleApp.py文件。

"""SimpleApp.py"""
from pyspark import SparkContextlogFile = "D:\BigData\spark-2.4.6-bin-hadoop2.7\README.md"  # Should be some file on your system
sc = SparkContext("local", "Simple App")
logData = sc.textFile(logFile).cache()numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()print("=================================================")
print("a: %i, b: %i" % (numAs, numBs))
print("=================================================")

上面的程序实现统计文件中a和b的个数。对于使用自定义类或第三方库的应用程序,还可以通过将代码依赖关系打包到.zip文件中,通过其--py-files参数将代码依赖项添加到spark-submit中(有关详细信息,请参见spark-submit --help)。当然,对于上面的SimpleApp非常简单,我们不需要指定任何代码依赖项。

下面使用bin/spark-submit脚本运行此应用程序:

spark-submit --master local[4] SimpleApp.py

执行结果:

原文链接:http://spark.apache.org/docs/1.6.0/quick-start.html
相关链接:

Spark programming guide 、deployment overview 

http://www.lbrq.cn/news/2566189.html

相关文章:

  • 电子商务网站建设视频教程最新旅游热点
  • 做网站应该用什么镜像百度排名软件
  • 成都房地产网搜索引擎优化实训
  • 有什么网站可以做java算法免费模板素材网站
  • 自己如何做网站源码百度热线人工服务电话
  • 设计官网论坛苏州关键词优化软件
  • 网站主题制作一键建站
  • 金山区做网站吗优化营商环境个人心得
  • 小猫mip网站建设如何做公司网站推广
  • 小程序做网站百度公司官方网站
  • 福州做网站的个体户电话查询知了seo
  • 工业产品设计流程图百度竞价优化
  • 互联网网站模块广州优化疫情防控举措
  • 利用php做网站教程公司网站建设步骤
  • 网站制作公司武汉网络营销策划案范本
  • 三好街做网站的公司信息流优化师面试常见问题
  • 商业网站备案流程近三年成功的营销案例
  • 做问答的网站线上营销
  • 新疆网站建设介绍谷歌搜索引擎免费入口2022
  • 淘宝哪些做网站关键词排名的有用吗谷歌浏览器怎么下载
  • seo站长工具查询武汉网站排名提升
  • 做二手设备的网站成人再就业培训班
  • 招聘网站做销售营销网站建设都是专业技术人员
  • 武汉专业网站制作设计怎么注册个人网站
  • 做网站需要营业执照嘛外贸网站推广怎么做
  • 门户网站建设厂商名录谷歌代运营
  • 做视频网站容易收录吗郑州网站建设方案
  • 织梦 公司网站模板代做网页设计平台
  • 网站做信息流全网网络营销
  • 人大门户网站建设方案推广产品的软文怎么写
  • 快速了解决策树
  • Android13文件管理USB音乐无专辑图片显示的是同目录其他图片
  • 数字化生产管理系统设计
  • 【Linux网络】netstat 的 -anptu 各个参数各自表示什么意思?
  • 32. flex 的子元素可以浮动吗
  • Qt 开发自动化测试框架搭建