当前位置: 首页 > news >正文

分销/郑州seo优化外包公司

分销,郑州seo优化外包公司,房地网,与狗做网站Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。 Hadoop生态圈: MapReduce:分布式计算框架 Yarn:集群资源管理…

 

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。

 

Hadoop生态圈:

MapReduce:分布式计算框架

Yarn:集群资源管理和调度平台

Hdfs:分布式文件系统

Hive:数据仓库

HBase:实时分布式数据库

Flume:日志收集工具

Sqoop:数据库ETL工具

Zookeeper:分布式协作服务

Mahout:数据挖掘库

 

Hadoop由4个主要构成部分:

 

1) 基础核心:提供基础的通用的功能,一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC和持久化数据结构)

2) HDFS:分布式存储,高容错性适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序,HDFS块的默认大小64 MB

3) MapReduce:分布式计算

4) YARN:资源分配(多个任务是排队执行还是同时执行)

 

HDFS由3种主要的节点构成:

 

1) NameNode :用来存储数据的存放位置等元数据(不存放数据)(如文件名、文件大小、文件所在目录、所有者名称、读写执行权限等)

2) DataNode :只用来存储数据

3) SecondaryNameNode :辅助NameNode运行,将NameNode产生的元数据持久化到磁盘上,与NameNode进行通信,以便定期地保存HDFS元数据的 快照,如果NameNode发生问题,SecondaryNameNode可以及时地作为备用NameNode使用。HDFS目前使用zookeeper来确保仅有一个活动namenode。

HDFS适用于高吞吐量,一次写入,多次读取的应用场景,不适合大量小文件的存储,低时间延迟,多用户读写操作的场景。

 

HDFS 文件读取
1. 首先创建RPC连接; 
2. 从namenode 中获取文件数据块的位置; 
3. 客户端与datanode之间建立socket链接,选择与客户端最近的datanode节点; 
4. 下载文件的数据块

 

HDFS 文件写入

1. 创建RPC连接; 
2. 创建文件元数据; 
3. 为文件分配块; 
4. 客户端与DataNode,DataNode之间建立socket(4,5,6),并且几者之间socket均建立成功才算成功,才能进行数据块的写入操作; 
5. 每个DataNode接收完某个块会向NameNode进行报告; 
6. 如果一个文件的每个块的三个副本中,只要有一个副本报告给NameNode,客户端发送消息给NameNode确认文件完成;

MapReduce  并行计算框架

主从结构,一个JobTracker和多个TaskTracker

JobTracker:1作业调度2分配任务、监控任务执行进度3监控TaskTracker的状态 
TaskTracker:1、执行任务 2、汇报任务状态 

1) MapReduce是由一个单独运行在主节点上的JobTacker和运行在每个集群从节点上的TaskTracker共同组成的。JobTacker负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上。总结点监控他们的执行情况,并且重新执行之前失败的任务;从节点仅负责由主节点指派的任务。

2)  MapReduce模型原理是利用一个输入的key/value对集合来产生一个输出的key/value队集合,使用Map和Reduce函数来计算

3)  MapReduce将大数据分解为成百上千小数据集,每个数据集分别由集群中的一个节点(一般是一台计算机)并行处理生成中间结果,然后这些中间结果又由大量的节点合并,形成最终结果。

 

hadoop集群三种模式

本地模式(单机模式),伪分布模式,全分布式模式

单机模式:没有守护进程,所有东西运行在jvm上,使用的是本地文件系统, 没有dfs,使用开发过程中运行mapreduce程序,是使用最少的一种模式

伪分布模式:在一台服务器上模拟集群安装环境, 即多个进程运行在一个服务器上;使用与开发和测试环境,所有 守护进程在同一台机子上

全分布式模式:N台主机组成一个Hadoop集群,Hadoop守护进程运行在每一台主机上;分布式模式中,主节点和从节点会分开

网络连接方式

host-only:宿主机(windows)与客户机(虚拟机中的客户机)单独组网,与主机当前的网络是隔离的

bridge:宿主机和客户机网络是连接的,在同一个局域网中,可以相互访问

NAT(network address translation): 虚拟机不占用主机所在局域网ip,通过使用主机的NAT功能访问区域网和互联网,此种方式虚拟机不用设置静态ip,只需要使用DHCP功能自动获取ip即可(绝大多数上网使用此种方式)

转载于:https://www.cnblogs.com/wayneLOVEdoris/p/9400215.html

http://www.lbrq.cn/news/1414657.html

相关文章:

  • 江阴网络公司做网站/百度站长工具使用方法
  • 青海网站建设公司/网页设计制作网站html代码大全
  • ppt模板怎么做 下载网站/新闻稿范文300字
  • 网站logo怎么改/网站推广要点
  • 做网站的代码难吗/软文推广文案范文
  • 怎么做旅游网站推广/windows优化大师如何卸载
  • 破解php网站后台密码/nba最新排名
  • 做网站需要哪些流程/充电宝关键词优化
  • 黄岛网站建设/天堂tv在线观看
  • 做网站是怎么赚钱的/辅导机构
  • 如果一个网站没有备案/今日预测足球比分预测
  • 建行网站会员是什么/广州网站推广服务
  • 大连公司名称大全/河北seo
  • 口碑好的网站建设哪家好/网络seo优化推广
  • 淮安做网站的公司/最近的国际新闻
  • 网站设计与制作/百度推广如何获取精准的客户
  • 政府门户网站 建设方案/南通百度seo代理
  • 一个主机可以建设多少个网站/站长工具seo推广 站长工具查询
  • 青岛网站改版/谷歌seo排名优化
  • 郑州网站设计收费低/网站百度收录
  • 多个网站一个域名/百度关键词搜索指数查询
  • 菠菜彩票网站怎么建设/二级域名查询网站
  • 美食网站开发的目标/个人对网络营销的看法
  • 网站开发的硬件环境/爱站
  • 网站死链接怎么提交/百度官网推广
  • 免费网站建设seo/seo营销软件
  • 做网站端口映射/整合营销策略有哪些
  • 成都有哪些网站建设的公司/如何在百度做免费推广产品
  • 做快递网站制作/宁德市古田县
  • 邢台市网站制作 网站建设/广告网站建设网站排名优化
  • 静配中心配药智能化:基于高并发架构的Go语言实现
  • 智能汽车领域研发,复用云原生开发范式?
  • Honor of Kings 101star (S40) 2025.08.17
  • 《设计模式》工厂方法模式
  • Python语言一键整理xhs评论 基于github的开源项目 MediaCrawler
  • JavaEE 初阶第十九期:网络编程“通关记”(一)