开源交流丨批流一体数据集成工具 ChunJun 同步 Hive 事务表原理详解及实战分享

发布时间:2022-12-09 18:00

原文链接:批流一体数据集成工具ChunJun同步Hive事务表原理详解及实战分享

课件获取:关注公众号__ “数栈研习社”,__后台私信__ “ChengYing”__ 获得直播课件

视频回放:点击这里

ChengYing 开源项目地址:github gitee 喜欢我们的项目给我们点个__ STAR!STAR!!STAR!!!(重要的事情说三遍)__

技术交流钉钉 qun:30537511

本期我们带大家回顾一下无倦同学的直播分享《Chunjun同步Hive事务表详解》

一、Hive事务表的结构及原理

Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。

在分享Hive事务表的具体内容前,我们先来了解下HIve 事务表在 HDFS 存储上的一些限制。

Hive虽然支持了具有ACID语义的事务,但是没有像在MySQL中使用那样方便,有很多局限性,具体限制如下:

  • 尚不支持BEGIN,COMMIT和ROLLBACK,所有语言操作都是自动提交的
  • 仅支持ORC文件格式(STORED AS ORC)

    • 默认情况下事务配置为关闭,需要配置参数开启使用

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号