当前位置: 首页 > news >正文

阿里外贸平台网站建设西安网站seo诊断

阿里外贸平台网站建设,西安网站seo诊断,怎么用node做网站,免费创一个网站2019独角兽企业重金招聘Python工程师标准>>> 本文以WordCount为例, 画图说明spark程序的执行过程 WordCount就是统计一段数据中每个单词出现的次数, 例如hello spark hello you 这段文本中hello出现2次, spark出现1次, you出现1次. 先上完整代码: object WordCount …

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

本文以WordCount为例, 画图说明spark程序的执行过程
WordCount就是统计一段数据中每个单词出现的次数,
例如hello spark hello you 这段文本中hello出现2次, spark出现1次, you出现1次.
先上完整代码:

object WordCount {def main(args: Array[String]) {val conf = new SparkConf().setAppName("WordCount");val sc = new SparkContext(conf)val lines = sc.textFile("hdfs://xxx:9000/spark.txt", 3); val words = lines.flatMap { line => line.split("\s+") }   val pairs = words.map { word => (word, 1) }   val wordCounts = pairs.reduceByKey { _ + _ }wordCounts.foreach(wordCount => println(wordCount._1 + " appeared " + wordCount._2 + " times."))  }
}

上面几行代码就把hdfs上的spark.txt中每个单词出现的个数计算完成.
Spark集群的执行单位是Application,任何提交的任务都会产生一个Application。一个Application只会关联上一个Spark上下文,也就是SparkContext。构建SparkContext时可以传入Spark相关配置,也就是SparkConf,它可以用来指定Application的名称,任务需要的CPU核数/内存大小,调优需要的配置等等. 以下两行创建了SparkContext:

val conf = new SparkConf().setAppName("WordCount");
val sc = new SparkContext(conf)

创建完SparkContext之后, spark.txt的文件数如何被spark处理的呢,让我们一起看一下:
首先我们假设spark.txt在hdfs上对应着3个文件,文件内容都一样,sc.textFile("hdfs://xxx:9000/spark.txt", 3)也执行了最小分区数为3.
然后wordcount执行过程如下:


说明:

  1. 绿,红,黄色箭头的地方发生了`Shuffer,把整个任务分成了2个Stage(2个蓝色虚线框)
  2. 红色虚线框代表一个Partition窄依赖(每个分区只被子RDD的一个分区所使用)的运行过程, 多个partition是并行执行的
  3. reduceByKey会先把每个Partition中的数据预聚合(groupByKey不会)
  4. Stage中的数据都是在内存中,不像MapReduce会频繁写磁盘,速度很快.
  5. 补充:其实textFile,flatMap,map,reduceByKey等transformation操作都是lazy的,程序执行到这里不会立即执行,只有再触发action操作的时候才会执行,此例中为wordCounts.foreach这个action操作.

--Posted from Rpc

转载于:https://my.oschina.net/wangt10/blog/3053732

http://www.lbrq.cn/news/2505691.html

相关文章:

  • 网站权重为零百度收录api怎么提交
  • 淮安谁家做网站湘潭高新区最新新闻
  • 黄石做网站公司北京百度科技有限公司电话
  • 惠东网页定制网站seo工具
  • 做公司网站需要几天百度指数怎么分析
  • 门户型网站都有哪些怎么网络推广自己业务
  • 给艺术家做网站的工作阿里云建网站
  • 衡水网站建设服务电商怎么做新手入门
  • 爱网站在线观看视频文山seo公司
  • 齐大胜请于果做网站是第几集免费网站建设哪家好
  • 容易做的网站百度搜索引擎网址
  • 贵州网络推广咨询富阳网站seo价格
  • 工控机做网站服务器东莞疫情最新通告
  • 嵌入式培训一般多少钱seo整站优化哪家专业
  • wordpress边栏尺寸优化软件
  • wordpress 弹出窗口武汉seo引擎优化
  • 从哪里下载wordpress整站外包优化公司
  • 东莞网站建设网络推广站长工具的使用seo综合查询运营
  • 在哪可以接企业网站建设的活福州网络推广运营
  • 连云港网站优化公司百度查重入口
  • 网站开发哪些公司保定seo推广
  • 无锡网站建设外贸互联网广告是做什么的
  • 做展板好的网站seo技术外包 乐云践新专家
  • dw制作学校官网页面seo快速排名系统
  • 做网站的为什么不给域名和密码巢湖seo推广
  • 网站建设消费者群体分析业务多平台怎么样
  • dw网页制作教程个人网站云南网络推广公司排名
  • 建设网站怎样做效果好的关键词如何优化
  • 分类信息网站建设方案网站免费客服系统
  • 开发网站那个好google站长工具
  • 抵御酒店管理系统收银终端篡改攻击 API 加密的好处及实现——仙盟创梦IDE
  • c++: 尾置返回类型(Trailing Return Type)
  • 【kafka】消息队列
  • 基于Spring Boot+Vue的吉他社团系统设计和实现(协同过滤算法)
  • Docker搭建Hadoop集群
  • VUE2 学习笔记11 脚手架