发布时间:2023-06-22 17:00
大数据的思维方式:
全样而非抽样
效率而非精确
相关而非因果
大数据的“4V”
volume 数据量大 ZB TB GB级别
variety 数据类型多 10%结构化数据 90%非结构化数据(邮件、音频、视频、微信微博,位置信息,链接、手机信息,网络日志)
velocity 处理速度快 秒级响应、实时响应(与传统数据挖掘有本质的区别)
value 价值密度低 分散在海量数据中
技术的不同层面
数据采集与预处理
**数据存储**与管理
==数据处理==与分析
数据可视化
数据安全和隐私保护
大数据计算模式
批处理计算 大规模数据的批量处理
流处理计算 流数据的实时计算
图计算 大规模图结构数据的处理
查询分析计算 大规模数据的存储于查询分析
Apache公司 java
核心:HDFS(分布式文件系统)和MapReduce
namenode名称结点:管理文件系统命名、客户端对文件的访问
client客户端:处理文件的读写
大于1TB的并行计算
数据在hdfs中分成分片,被map并行处理,输入到reduce中,最后输出结果到分布式文件系统中。
一个集群多个框架:一个集群统一管理其他计算框架。实现集群资源共享,资源弹性收缩,提高集群利用率。避免数据跨集群移动。
谷歌公司
hadoop :java python c c++
spark : java scala pyhton R