数据湖概念以及数据湖产生的背景和价值

发布时间:2022-08-19 12:59

一、数据湖的概念

数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

是构建在低成本分布式存储之上,提供更好事物和性能支持的统一数据存储系统。典型分层如下图所示:

数据湖概念以及数据湖产生的背景和价值_第1张图片

  • 最底层为存储层:一般依赖HDFS或者公有云存储(比如S3)保存数据;数据格式为开放格式,比如Parquet或者ORC;
  • 中间层为数据表抽象层:它的关键作用在于提供了表格式的抽象,比如能够支持ACID;
  • 最上层为计算层:基于表抽象层,可以扩展出不同的计算引擎,满足不同的计算需求。

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号