《Spark实用教程_v3.1.2》简介

发布时间：2022-12-22 10:30

《Spark实用教程》（基于3.1.2）预览版下载：这里下载

大数据分析一直是个热门话题，需要大数据分析的场景也越来越多。Apache Spark 是一个用于快速、通用、大规模数据处理的开源项目。现在，Apache Spark 已经成为一个统一的大数据处理平台，拥有一个快速的统一分析引擎，可用于大数据的批处理、实时流处理、机器学习和图计算。

2009 年，Spark 诞生于伯克利大学AMP 实验室，最初属于伯克利大学的研究性项目。它于2010 年被正式开源，于2013 年被转交给Apache 软件基金会，并于2014 年成为Aparch 基金的顶级项目，整个过程不到五年时间。Apache Spark 诞生以后，迅速发展成为了大数据处理技术中的佼佼者，目前已经成为大数据处理领域炙手可热的技术，其发展势头非常强劲。

自2010 年首次发布以来，Apache Spark 已经成为最活跃的大数据开源项目之一。如今，Apache Spark实际上已经是大数据处理、数据科学、机器学习和数据分析工作负载的统一引擎，是从业人员以及希望进入大数据行业人员必须要学习和掌握的大数据技术之一。但是作为大数据的初学者，在学习Spark 时通常会遇到以下几个难题：

缺少面向零基础小白的Spark 入门教程。
缺少系统化的Spark 大数据教程。
现有的Spark 资料、教程或图书过时陈旧或者碎片化。
官方全英文文档难以阅读和理解。
缺少必要的数据集、可运行的实验案例及学习平台。
......

特别是Spark 3 发布以后，性能得到了极大的提升，并且增加了对数据湖等下一代大数据技术的支持。为此，既是为了自己能更系统更及时地跟进Spark 的演进和迭代，另一方面也是为了（感同身受地）解决面向零基础小白学习Spark（以及其他大数据技术）的入门难度，编写了这一本《Spark 实用教程》。

个人以为，本书具有以下几个特点：

面向零基础小白，知识点深浅适当，代码完整易懂。
内容全面系统，包括架构原理、开发环境及程序部署、流和批计算、图云计算等，并特别包含了Delta Lake、Iceberg、Hudi 等数据湖内容。
版本先进，所有代码均基于Spark 3.1.2。

《Spark实用教程_v3.1.2》简介

相关推荐