Spark3.x入门到精通-阶段三(深度剖析spark处理数据全流程)

发布时间：2022-12-20 19:00

深度剖析spark原理

简介

深度剖析源码加图解spark处理数据全流程

spark内核

开篇图

下面是Standalone集群模式的情况，yarn集群也是大同小异

向集群submit一个应用以后，启动一个Application,里面会启动一个Driver进程
Driver里面会生成一个sparkContext，每一个action执行都会启动一个job
初始化sparkContext以后会生成一个DAGschedule和一个Taskschedule
然后Driver向Master申请Executor资源
Executor申请下来以后会向Driver注册自己的信息
DAGschedule根据启动的job生成一个个stage,每一个stage里面是一个taskset
Taskschedule把生成的taskset发送到对应的Executor的线程池里面执行
相同stage里面的parition处理是在一个Task里面处理的
一个stage处理完以后Taskschedule就会处理另外一个，直到处理完为止

相关推荐

PTA Python第十一周题解

华为回应与陈春花教授相关传言；iPhone14Pro系列将独占A16芯片；Bug太多，Python 3.11推迟发布|极客头条

Helm3安装带有ik分词的ElasticSearch

C#并行库Task类介绍

效率提升神器之Guava-Joiner

破解JavaScript高级玩法[6章]学习笔记

C语言之数组的定义及其使用方法

Hadoop生态圈之Flume（一）

基于STM32单片机的蓝牙智能手环系统

Mybatis 如何批量删除数据

C++初阶（4）——Date日期类的具体实现

ssm基于微信小程序的警局服务管理系统--(ssm+uinapp+Mysql)

一文理解OpenStack网络

anaconda配置pytorch(无需单独安装python)

如何借助 Redis 实现实现排行榜功能？

玩转Linux与运维岗（14）

StoneDB 宣布开源，一体化实时 HTAP 架构为何是当前最优解

java创建文件和相关操作

MySQL索引详解及演进过程及面试题延伸

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网，如有侵权请联系：561261067@qq.com

桂ICP备16001015号