发布时间:2023-07-20 09:30
在业界的数据湖方案中有 Hudi、Iceberg 和 Delta 三个关键组件可供选择。
Iceberg 官网中是这样定义的:
Apache Iceberg is an open table format for huge analytic datasets
即 Iceberg 是大型分析型数据集上的一个开放式表格式。通过该表格式,将下层的存储介质(HDFS、S3、OSS等)、文件格式(Parquet、Avro、ORC等)与上层计算引擎(Flink、Spark、Presto、Hive等)进行解耦,如下图所示。
计算与存储的解耦给我们带来了更多的灵活性,在计算引擎上有了更多的选择,可以根据实际的需求选择不同的计算引擎。通过表格式屏蔽了下层的存储细节,对上层引擎呈现的都只是一张 Iceberg 表。
为了便于理解 Iceberg 的几个重要的特性,我们先简单介绍下 Iceberg 的文件的组织形式。
如下图所示,Iceberg 文件组织分为四层,分别为Metadata、Snapshot、Manifest、File。
void* data 数据类型参数以及void *data[ ]解释
论文《一种改进的基于邻域信息的人口普查变换立体匹配算法》学习
SAP Fiori 注解 @ObjectModel.readOnly工作原理解析
人体关节点检测 c++ tensorrt实现openpose mmpose
超详细教程:windows安装MSYS2(mingw && gcc)——更新于2021.11
js与ts中各种循环遍历方式:for...in,for…of,forEach(),filter(),map(),every(),some() ,reduce(),reduceRight()之间的区别