发布时间:2022-12-22 10:30
《Spark实用教程》(基于3.1.2)预览版下载:这里下载
大数据分析一直是个热门话题,需要大数据分析的场景也越来越多。Apache Spark 是一个用于快速、通用、大规模数据处理的开源项目。现在,Apache Spark 已经成为一个统一的大数据处理平台,拥有一个快速的统一分析引擎,可用于大数据的批处理、实时流处理、机器学习和图计算。
2009 年,Spark 诞生于伯克利大学AMP 实验室,最初属于伯克利大学的研究性项目。它于2010 年被正式开源,于2013 年被转交给Apache 软件基金会,并于2014 年成为Aparch 基金的顶级项目,整个过程不到五年时间。Apache Spark 诞生以后,迅速发展成为了大数据处理技术中的佼佼者,目前已经成为大数据处理领域炙手可热的技术,其发展势头非常强劲。
自2010 年首次发布以来,Apache Spark 已经成为最活跃的大数据开源项目之一。如今,Apache Spark实际上已经是大数据处理、数据科学、机器学习和数据分析工作负载的统一引擎,是从业人员以及希望进入大数据行业人员必须要学习和掌握的大数据技术之一。但是作为大数据的初学者,在学习Spark 时通常会遇到以下几个难题:
特别是Spark 3 发布以后,性能得到了极大的提升,并且增加了对数据湖等下一代大数据技术的支持。为此,既是为了自己能更系统更及时地跟进Spark 的演进和迭代,另一方面也是为了(感同身受地)解决面向零基础小白学习Spark(以及其他大数据技术)的入门难度,编写了这一本《Spark 实用教程》。
个人以为,本书具有以下几个特点: