当前位置: 首页 > news >正文

什么网站上可以做国际贸易/西安seo优化工作室

什么网站上可以做国际贸易,西安seo优化工作室,购物的网站功能,网站的二级栏目怎么做Hadoop 主要记录了Hadoop各个组件的基本原理,处理过程和关键的知识点等,包括HDFS、YARN、MapReduce等。 硬件问题:复制数据解决(RAID) 分析需要从不同的硬盘读取数据:MapReduce 而Hadoop提供了 1.可靠的…

Hadoop

主要记录了Hadoop各个组件的基本原理,处理过程和关键的知识点等,包括HDFS、YARN、MapReduce等。

硬件问题:复制数据解决(RAID)

分析需要从不同的硬盘读取数据:MapReduce

而Hadoop提供了

1.可靠的共享存储(分布式存储) 2.抽象的分析接口(分布式分析)

关键技术

1.数据分布在多台机器

可靠性:每个数据块都复制到多个节点

性能:多个节点同时处理数据

2.计算随数据走

网络IO速度 << 本地磁盘IO速度,大数据系统会尽量地将任务分配到离数据最近的机器上运行(程序运行时,将程序及其依赖包都复制到数据所在的机器运行

代码向数据迁移,避免大规模数据时,造成大量数据迁移的情况,尽量让一段数据的计算发生在同一台机器上

3.串行IO取代随机IO

传输时间 << 寻道时间,一般数据写入后不再修改

Hadoop 简介

Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点

特别适合写一次,读多次的场景

适合

  • 大规模数据
  • 流式数据(写一次,读多次)
  • 商用硬件(一般硬件)

不适合

  • 低延时的数据访问
  • 大量的小文件
  • 频繁修改文件(基本就是写1次)

Hadoop架构

  • HDFS: 分布式文件存储
  • YARN: 分布式资源管理
  • MapReduce: 分布式计算
  • Others: 利用YARN的资源管理功能实现其他的数据处理方式

内部各个节点基本都是采用Master-Woker架构

Hadoop 写文件

 

1.客户端将文件写入本地磁盘的 HDFS Client 文件中

2.当临时文件大小达到一个 block 大小时,HDFS client 通知 NameNode,申请写入文件

3.NameNode 在 HDFS 的文件系统中创建一个文件,并把该 block id 和要写入的 DataNode 的列表返回给客户端

4.客户端收到这些信息后,将临时文件写入 DataNodes

  • 4.1 客户端将文件内容写入第一个 DataNode(一般以 4kb 为单位进行传输)
  • 4.2 第一个 DataNode 接收后,将数据写入本地磁盘,同时也传输给第二个 DataNode
  • 4.3 依此类推到最后一个 DataNode,数据在 DataNode 之间是通过 pipeline 的方式进行复制的
  • 4.4 后面的 DataNode 接收完数据后,都会发送一个确认给前一个 DataNode,最终第一个 DataNode 返回确认给客户端
  • 4.5 当客户端接收到整个 block 的确认后,会向 NameNode 发送一个最终的确认信息
  • 4.6 如果写入某个 DataNode 失败,数据会继续写入其他的 DataNode。然后 NameNode 会找另外一个好的 DataNode 继续复制,以保证冗余性
  • 4.7 每个 block 都会有一个校验码,并存放到独立的文件中,以便读的时候来验证其完整性

5.文件写完后(客户端关闭),NameNode 提交文件(这时文件才可见,如果提交前,NameNode 垮掉,那文件也就丢失了。fsync:只保证数据的信息写到 NameNode 上,但并不保证数据已经被写到DataNode 中)

Rack aware(机架感知)

通过配置文件指定机架名和 DNS 的对应关系

假设复制参数是3,在写入文件时,会在本地的机架保存一份数据,然后在另外一个机架内保存两份数据(同机架内的传输速度快,从而提高性能)

整个 HDFS 的集群,最好是负载平衡的,这样才能尽量利用集群的优势

HDFS - 读文件

  1. 客户端向NameNode发送读取请求
  2. NameNode返回文件的所有block和这些block所在的DataNodes(包括复制节点)
  3. 客户端直接从DataNode中读取数据,如果该DataNode读取失败(DataNode失效或校验码不对),则从复制节点中读取(如果读取的数据就在本机,则直接读取,否则通过网络读取)

HDFS - 可靠性

HDFS 的可靠性主要有以下几点:

  • 冗余副本策略
  • 机架策略
  • 心跳机制
  • 安全模式
  • 效验和
  • 回收站
  • 元数据保护
  • 快照机制

 

1.冗余副本策略

  可以在 hdfs-site.xml 中设置复制因子指定副本数量

  所有数据块都可副本

  DataNode 启动时,遍历本地文件系统,产生一份 HDFS 数据块和本地文件的对应关系列表 (blockreport) 汇报给 Namenode

2.机架策略

  HDFS 的"机架感知",通过节点之间发送一个数据包,来感应它们是否在同一个机架

  一般在本机架放一个副本,在其他机架再存放一个副本,这样可以防止机架失效时丢失数据,也可以提高带宽利用率

3.心跳机制

  NameNode 周期性从 DataNode 接受心跳信息和块报告

  NameNode 根据块报告验证元数据

  没有按时发送心跳的 DataNode 会被标记为宕机,不会再给他任何 I/O 请求

  如果 DataNode 失效造成副本数量下降,并且低于预先设定的值,NameNode 会检测出这些数据库,并在合适的时机重新复制

  引发重新复制的原因还包括数据副本本身损坏,磁盘错误,复制因子被增大等

4.安全模式

  NameNode 启动时会先经过一个 "安全模式" 阶段

  安全模式阶段不会产生数据写

  在此阶段 NameNode 收集各个 DataNode 的报告, 当数据块达到最小副本数以上时,会被认为是"安全"的

  在一定比例(可设置) 的数据块被确定为"安全" 后 ,在过若干时间,安全模式结束

  当检测到副本数不足的数据块时,该块会被复制,直到达到最小副本数

5.效验和  

  在文件创立时,每个数据块都产生效验和

  效验和会作为单独一个隐藏文件保存在命名空间下

  客户端获取数据时可以检查效验和是否相同,从而发现数据块是否损坏

  如果正在读取的数据块损坏,则可以继续读取其他副本

6.回收站

  删除文件时,其实是放入回收站 /trash

  回收站里的文件是可以快速恢复的

  可以设置一个时间值,当回收站里文件的存放时间超过了这个值,就被彻底删除,并且释放占用的数据块

7.元数据保护

  映像文件和事物日志是 NameNode 的核心数据.可以配置为拥有多个副本

  副本会降低 NameNode 的处理速度,但增加安全性

  NameNode 依然是单点,如果发生故障要手工切换

HDFS - 命令工具

fsck: 检查文件的完整性

start-balancer.sh: 重新平衡HDFS

hdfs dfs -copyFromLocal 从本地磁盘复制文件到HDFS

http://www.lbrq.cn/news/1238617.html

相关文章:

  • 番禺做网站服务/百度引流推广哪家好
  • 网站开发用什么软件/小程序定制
  • 新闻网站域名/百度网盘会员
  • 利用vs做网站/seo课
  • 网站模板和定制的区别/seo 公司
  • 上海弄网站的/网络营销的整体概念
  • 阜阳做网站的公司/泰州seo排名扣费
  • 日常网站维护/推广关键词怎么设置
  • 建和做网站/杭州seo公司服务
  • 欧美浅蓝色新闻网站css模板/推广论坛有哪些
  • 南京网站建设王道下拉??/外贸网站推广怎么做
  • 徐州市中宇建设工程有限公司网站/万能优化大师下载
  • 建行网站/网页搜索优化
  • 北京网站制作公司招聘信息/全球搜官网
  • 如何用css做网站/工厂管理培训课程
  • wordpress 蓝色主题/百度seo发帖推广
  • 奉化建设网站/推广普通话演讲稿
  • 深圳建设网站上市/营销推广工作内容
  • 网站建设与管理的现状/百度首页排名优化平台
  • 网站开发参考文献期刊/google广告投放
  • wordpress add_action/武汉排名seo公司
  • 大型集团网站建设/企业网站设计规范
  • 许昌做网站公司报价/域名ip查询入口
  • 青岛做网站建网站/站长统计幸福宝2022年排行榜
  • 网站建设及维护业务服务合同/搜索词分析
  • 安宁网站建设 熊掌/怎么理解搜索引擎优化
  • 河北网络推广/大连seo外包平台
  • 建设淘宝网站需要多少钱/百度营销中心
  • 南京做网站多少钱/有效获客的六大渠道
  • 海口网站运营托管咨询/软文投放平台有哪些
  • HCIE-Datacom题库_07_设备【道题】
  • 动态置信度调优实战:YOLOv11多目标追踪精度跃迁方案(附完整代码)
  • 标记-清除算法中的可达性判定与Chrome DevTools内存分析实践
  • Linux 高级 I/O 系统调用详解
  • java中的synchronized关键字​
  • PYTHON从入门到实践-18Django从零开始构建Web应用