大数据技术概述_第一章笔记

发布时间:2023-06-22 17:00

第一章笔记

  • 1.1大数据的概念与关键技术
    • 1.1.1 大数据概念
    • 1.1.2大数据关键技术
  • 1.2代表性大数据技术
    • 1.2.1 Hadoop
      • 1.2.1.1 HDFS
      • 1.2.1.2 MapReduce
      • 1.2.1.3 YARN(重点)
      • 1.2.1.3 hbase、hive、flume、sqoop、
    • 1.2.2Spark(重点)
    • 1.2.3Flink
    • 1.2.4Beam
  • 1.3编程语言的选择(java scala pyhton)

大数据的重要性
大数据技术概述_第一章笔记_第1张图片

大数据的思维方式:
全样而非抽样
效率而非精确
相关而非因果

1.1大数据的概念与关键技术

1.1.1 大数据概念

大数据的“4V”
volume 数据量大 ZB TB GB级别
variety 数据类型多 10%结构化数据 90%非结构化数据(邮件、音频、视频、微信微博,位置信息,链接、手机信息,网络日志)
velocity 处理速度快 秒级响应、实时响应(与传统数据挖掘有本质的区别)
value 价值密度低 分散在海量数据中

1.1.2大数据关键技术

技术的不同层面

数据采集与预处理
**数据存储**与管理
==数据处理==与分析
数据可视化
数据安全和隐私保护

大数据计算模式

批处理计算    大规模数据的批量处理
流处理计算       流数据的实时计算
图计算         大规模图结构数据的处理
查询分析计算    大规模数据的存储于查询分析

1.2代表性大数据技术

1.2.1 Hadoop

Apache公司 java
核心:HDFS(分布式文件系统)和MapReduce
大数据技术概述_第一章笔记_第2张图片

1.2.1.1 HDFS

大数据技术概述_第一章笔记_第3张图片

namenode名称结点:管理文件系统命名、客户端对文件的访问
client客户端:处理文件的读写

1.2.1.2 MapReduce

大于1TB的并行计算
数据在hdfs中分成分片,被map并行处理,输入到reduce中,最后输出结果到分布式文件系统中。
大数据技术概述_第一章笔记_第4张图片

1.2.1.3 YARN(重点)

一个集群多个框架:一个集群统一管理其他计算框架。实现集群资源共享,资源弹性收缩,提高集群利用率。避免数据跨集群移动。

1.2.1.3 hbase、hive、flume、sqoop、

1.2.2Spark(重点)

AMP实验室
大数据技术概述_第一章笔记_第5张图片

大数据技术概述_第一章笔记_第6张图片
大数据技术概述_第一章笔记_第7张图片

1.2.3Flink

Apache公司
大数据技术概述_第一章笔记_第8张图片

1.2.4Beam

谷歌公司

1.3编程语言的选择(java scala pyhton)

hadoop :java python c c++
spark : java scala pyhton R

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号