当前位置: 首页 > news >正文

怎么在国税网站上做实名认证/爱站工具下载

怎么在国税网站上做实名认证,爱站工具下载,html首页,数商云医药行业一、MapReduce是用于解决什么问题的? 每一种技术的出现都是用来解决实际问题的,否则必将是昙花一现,那么MapReduce是用来解决什么实际的业务呢? 首先来看一下MapReduce官方定义: 总结一句话:MapReduce就是批…

一、MapReduce是用于解决什么问题的?

每一种技术的出现都是用来解决实际问题的,否则必将是昙花一现,那么MapReduce是用来解决什么实际的业务呢?

首先来看一下MapReduce官方定义:

 

总结一句话:MapReduce就是批量处理海量数据的分布式计算框架。

在数据规模比较小时,如果要批量处理一些数据,通常都是在凌晨跑一个或者多个定时任务,定时任务直接连接业务库,从业务库中读取然后批量处理,但是当业务规模逐渐大了之后,像凌晨跑定时任务的方式已不足以支撑业务开展,这时分布式计算诞生了,分布式计算将一个很大的任务切分成很小的子任务,然后将子任务分发到集群上的节点上去执行,执行完之后在合并结果并对外提供服务,MapReduce就是用来解决这种业务场景的。

 

二、MapReduce架构

< 未完> 

 

三、MapReduce执行流程

 

执行流程说明:

1. 如果在HDFS上存在一份数据,这份数据被分成4个Block存储(这里假设一个Block就是一个Record), 当MapReduce处理这份数据时,会启动4个Map Task去批量处理,输出的结果是键值对形式

2. Map Task将输出结果写入内存缓冲区(memory buffer),并根据设定Reduce个数据对内存缓冲区里的数据做partition,这时候内存缓冲区的数据有键值对形式变成三元组的形式,如上图(Partition结果),三元组第一个元素为分区号,表示该行数据会分到哪个区。

3. 做完partition之后接着就是sort, 这里排序有2次

  3.1 第一次排序:对分区号做排序

  3.2 第二次排序:对每个分区里的数据做排序

  2次排序之后得到的结果如上图中红框所示

4. 如果Map Task输出的数据量很大,超过100M。当达到80M时spill线程会将结果溢写到磁盘,在磁盘上可能会产生很多个spill文件,

5. 当所有的Map Task执行完之后,MapReduce框架将多个spill文件merge成一个大的文件,这个大文件也是分区好了的

6. 这时TaskTracker通过心跳上报JobTracker, 告诉JobTracker Map Task任务已经跑完了,JobTracker将分配Reduce资源,然后TaskTracker将第5步骤里的大文件按分区号远程拷贝到Reduce机器上

7. Reduce Task对Map Task输出的结果处理,然后生成处理结果写入到HDFS上。注意:一个Reduce Task产生一个文件。

 

转载于:https://www.cnblogs.com/jsnr-tdyd/p/7821534.html

http://www.lbrq.cn/news/1461565.html

相关文章:

  • 门户网站做等级保护测评/百度热搜榜第一
  • 什么网站做h5不收费/石家庄百度关键词搜索
  • 对网站开发语言的统计/2023年新闻热点事件
  • 网络服务商简称/seod的中文意思
  • 建网站热线电话/百度搜索排名机制
  • 做网站怎么把字弄图片上去/卖网站链接
  • 专门做网上链接推广的网站/搜索引擎优化的具体措施
  • 云梦网站开发/网页广告怎么做
  • 网站开发需要多少钱/优化资源配置
  • 住房和城市建设部网站/网络营销广告名词解释
  • 私人可以做org后缀网站吗/深圳网络推广解决方案
  • asp网站怎么做404页面/网站推广seo招聘
  • 制作网站需要注意什么/广告联盟赚钱app
  • 分析公司网站的开发策略/百度关键词投放
  • 邮箱163登录/唐山百度搜索排名优化
  • 狗爹域名网站/百度网络营销app
  • 微信开发网站/上海网站推广广告
  • 百姓网创建不了位置交易地点/seo教程有什么
  • 江苏建设网站公司/凡科建站和华为云哪个好
  • 免费b站不收费网站2023/哈尔滨关键词优化方式
  • 网站开发笔记/问卷调查网站
  • 网站建设用什么软件/网络营销方法
  • 有哪些程序网站/百度关键词搜索量统计
  • 济南 规划 网站/seo系统源码出售
  • 电视剧下载网站 免费糖醋蒜怎样做/扬州seo
  • 国内优秀网站设计师/武汉seo报价
  • 装饰公司怎样做网站/打开百度搜索网站
  • 什么做直播网站好/广东vs北京首钢
  • 企业网站跟微信支付怎么做/阿里云免费域名
  • 常州市天宁区建设局网站/百度网盘24小时人工电话
  • openwrt 23.05编译intel igb5.19.4驱动
  • 关于Web前端安全之XSS攻击防御增强方法
  • 跨语言模型中的翻译任务:XLM-RoBERTa在翻译任务中的应用
  • node.js常用函数
  • (FD Conv)Frequency Dynamic Convolution for Dense Image Prediction论文精读(逐段解析)
  • [硬件电路-114]:模拟电路 - 信号处理电路 - 放大器的种类与比较