大数据—Hadoop生态圈

发布时间:2022-08-19 11:45

前言

整理了一下目前常用的hadoop组件,后续将会对这些组件的具体应用场景和使用细节进行展开分析。如果大家发现有更好的建议欢迎大家在下方留言。

生态圈

大数据—Hadoop生态圈_第1张图片

数据存储:HDFS

HDFS,它是 Hadoop 技术体系中的核心基石,负责分布式存储数据,你可以把它理解为一个分布式的文件系统。此文件系统的主要特征是数据分散存储,一个文件存储在 HDFS 上时会被分成若干个数据块,每个数据块分别存储在不同的服务器上。
大数据—Hadoop生态圈_第2张图片
如上图:

  • NameNode:HDFS管理节点,存储元数据,同时负责读,写调度和存储分配。
  • DataNode:数据存储节点,用来存储数据。在DataNode上的每个数据块会根据设置的副本数进行分级复制,保证同一个文件的每个数据块副本都不在同一台机器上。

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号