当前位置: 首页 > news >正文

营销型网站建设公司推荐/推广普通话的意义

营销型网站建设公司推荐,推广普通话的意义,东莞公司注册多少钱,wordpress建电影网站目录shuffle为什么要有shuffleshuffle分类Shuffle WriteShuffle Readshuffle可能会面临的问题HashShuffle优化解决问题reduce分区数决定因素SortShuffleshuffle 为什么要有shuffle shuffle:为了让相同的key进入同一个reduce 每一个key对应的value不一定都在同一个…

目录

  • shuffle
    • 为什么要有shuffle
    • shuffle分类
      • Shuffle Write
      • Shuffle Read
    • shuffle可能会面临的问题
    • HashShuffle优化解决问题
      • reduce分区数决定因素
    • SortShuffle

shuffle

为什么要有shuffle

shuffle:为了让相同的key进入同一个reduce
每一个key对应的value不一定都在同一个分区中,也未必都在同一个节点上,而是极可能分布在各个节点上

shuffle分类

Shuffle Write

发生在map端的shuffle,需要将数据进行分组排序,将数据写出去

Shuffle Read

发生在reduce端的shuffle,将数据读进来

shuffle可能会面临的问题

在这里插入图片描述

为了让不同分区的文件进入同一个reduce(这里有三个reduce),这里会形成map的数量*reduce数量的文件,reduce的数量由分区数决定,分区数量由切片数量决定,切片数量差不多是128MB一个切片
假如我们这里有10G的文件,128MB切一个文件,差不多就是80个文件,那这里就有80*80=6400个文件,小文件非常多,会很影响效率

HashShuffle优化解决问题

在这里插入图片描述
每个Executor都带1核,每次最多只能执行一个task,这里面的task依次运行,每次只能生成一个文件,每一个Executor最终生成和reduce个数对应的文件
这里的文件就是核数reduce个数,而凡是shuffle类的算子都可以指定分区

reduce分区数决定因素

val conf: SparkConf = new SparkConf().setMaster("local").setAppName("Demo10Broadcast")//通过conf设置spark默认的并行度conf.set("spark.default.parallelism","4")val sc: SparkContext = new SparkContext(conf)//在集群中运行的时候,默认最少是两个分区val stuRDD: RDD[String] = sc.textFile("D:\\BigDaTa\\JAVA_Project\\ShuJia01\\data\\students.txt",2)println(stuRDD.getNumPartitions) //2个分区//如果没有产生shuffle,那么子RDD的分区数由父RDD的分区数决定val wordsRDD: RDD[String] = stuRDD.flatMap(_.split(","))println(wordsRDD.getNumPartitions)val mapRDD: RDD[(String, Int)] = wordsRDD.map(word=>(word,1))println(mapRDD.getNumPartitions)val repRDD: RDD[(String, Int)] = mapRDD.repartition(4)println(repRDD.getNumPartitions)//shuffle类的算子可以手动指定分区数//相当于手动设置reduce个数val wordCntRDD: RDD[(String, Int)] = mapRDD.reduceByKey(_+_,3) //这里如果不指定为3的话,就会使用默认的并行度4println(wordCntRDD.getNumPartitions)/*** shuffle类算子产生的RDD的分区数决定因素* 1、如果没有指定,默认和父RDD分区数一样* 2、可以手动指定修改分区数* 3、通过默认参数设置** 手动设置 > 默认设置 > 父RDD的分区数*/}

SortShuffle

spark使用的shuffle机制
在这里插入图片描述

  • 普通运行机制
  • bypass运行机制
    相比较普通运行,少了排序,reduce个数小于200,默认这种方式

这里的内存数据初始化时5MB,不够用了就*2
索引文件可以区分不同的分区,在找文件的时候可以更快一些
这里最后产生的文件的数量就是 2×分区 的数量

感谢阅读,我是啊帅和和,一位大数据专业大四学生,祝你快乐。

http://www.lbrq.cn/news/1438687.html

相关文章:

  • 免费做产品画册的网站/北京seo外包 靠谱
  • 目前网站开发技术/品牌营销策划方案怎么做才好
  • 微信网站建设知识/1元涨1000粉
  • 飞机多少钱一架/优化网站标题是什么意思
  • 江苏省建设工程一站式申报网站/360关键词排名推广
  • 上海市城乡建设与管理委员会网站/韩国日本比分
  • w网站建设/优化课程设置
  • 青岛建站合作/网站查询服务器
  • 中国社会科学院/石家庄百度快照优化排名
  • 如何针对你的网站做搜索优化/网站搜索优化官网
  • 什么是域名解析/网络优化推广公司哪家好
  • 个人动漫网站怎么做页面/信息流广告模板
  • 成都b2c网站/百度之家
  • 做跟单员的话应该关注哪些网站/东莞企业推广网站制作
  • 英文建站模板/网址怎么创建
  • php靓号网站源码/属于网络营销特点的是
  • 翻译国外网站做原创/免费b2b
  • 网页开发者工具怎么用/苏州seo报价
  • 做网站有用吗/百度网盘资源搜索引擎搜索
  • 运维网站制作/会计培训班初级费用
  • 线下推广活动/南昌网站seo外包服务
  • 两人做性视频网站/深圳seo博客
  • 如何建立自己的平台/惠州市seo广告优化营销工具
  • 高中男女做那个视频网站/bing收录提交
  • 织梦网站在css中怎样做导航栏/免费二级域名注册申请
  • 广东哪家网站建设网页设计服务/营销策略手段有哪些
  • 在建项目备案人员查询/南宁seo产品优化服务
  • 企业网站seo外包 s/国际新闻网
  • 网站制作工资/网络优化工程师前景
  • 深圳营销外贸网站制作/百度用户服务中心人工24小时电话
  • Linux下的软件编程——framebuffer(文件操作的应用)
  • provide()函数和inject()函数
  • 自然语言处理( NLP)基础
  • 开发避坑指南(23):Tomcat高版本URL特殊字符限制问题解决方案(RFC 7230 RFC 3986)
  • Java 大视界 -- Java 大数据在智能教育学习效果评估指标体系构建与精准评估中的应用(394)
  • 论文阅读:Aircraft Trajectory Prediction Model Based on Improved GRU Structure