Spark平台（高级版一）介绍

发表于2020-07-072020-07-18 作者 chpdirector

完整目录、平台简介、安装环境及版本：参考《Spark平台（高级版）概览》

一、总体介绍

通过本部分学习，你将了解到本书总体讲什么，能学到什么，能获取到什么，以及学习过程中需要准备什么，本部分将一一道来。

1.1 什么是大数据

大数据主要包含两个方面，一个是基础设施，一个是方法论。

1.1.1 基础设施

数据量呈现爆炸式增长，但是大部分企业用的还是传统的关系型数据库进行数据存储、处理，并利用传统的方法进行数据分析，这就典型的编写一个自包含的简单应用程序或者说拿pandas（Python Data Analysis Library）编写一个简单应用程序，而这这就是目前见到的常态，这种方法已经不符合大数据发展的方向了。

1.1.2 方法论

随着数据量的越来越多，特别是5G物联网的出现，面临着这么多的数据使用什么方法进行分析，这就需要一套行之有效的理论来支撑我们分析大数据，这种方法论又结合了人工智能的特点或借助了人工智能的算法来达到分析数据的最终目。而且随着快速发展，不学习或者不通过大数据的观点去处理我们面临的问题，将会丢失一个时代，特别是那些从事IT开发的工程师或产品经理，更需要学习大数据的理论，学习大数据作为基础设施的实践方法。

1.2 为什么学习本教程

1.2.1 教程体系

1.2.1.1 Spark快速大数据处理

以Hadoop3和Spark为核心，同时集成Hive和Oozie。主要有以下几部分：

ZooKeeper-分布式过程协同组件：通过一个例子讲解ZooKeeper如何实现主从分布，如何实现加锁等等概念。以实例的方式讲解ZooKeeper的使用。
Hadoop3-大数据基础组件：主要从三部分进行讲解：即HDFS、Yarn、MapReduce，其中MapReduce主要讲MapReduce的思想和计算逻辑。
Tez-Yarn底层计算引擎：Tez是一个计算DAG的Yarn底层计算引擎，透明的提供MapReduce计算框架，可以加快大数据处理速度。
Hive2-大数据仓库：Hive的基本操作以及原理。
Spark2实时大数据处理：Spark的最新API，如以Structured Streaming、Dataset以及DataFrame SQL这两类API为中心进行讲解。
Oozie-大数据流程引擎：Oozie将以Hadoop、MapReduce、Hive、Spark这些为核心内容，讲解如何将这些核心内容用流程引擎串起来，Oozie主要用来解决此问题。

1.2.1.2 Flink实时大数据处理

流处理以及实时机器学习是我们时代的未来，是构建在快速大数据处理即Hadoop基础之上的。我们在做数据处理、搬运数据时，数据的流动性在集群里面是比较困难的，因为数据量太大。但是我们处理的流动性是非常容易的，即代码流动性是很容易的。Hadoop3提供了一个数据存储的集群化环境HDFS，同时提供了一个管理集群、计算框架的平台Yarn，在此之外，还产生了另一个思想MapReduce，MapReduce是我们Spark或者Flink计算框架的发展源头，没有MapReduce，大数据处理将失去本来的意义。

1.2.1.3 大数据处理细想发展史

本教材适合架构师和产品经理，以及做大数据处理的管理者、总监、VP，以及那些需要了解大数据处理思想的源头以及未来的发展方向。本教材沿着数据处理发展轨迹讲述，特别是那些能够产生思想光辉的重要节点，结合着我们的通俗语言讲解大数据处理的思想发展史。

1.2.1.4 Hadoop集群自动化项目：HFS

如果你对项目LFS （Linux From Scratch）比较熟悉的话，那么就能够理解HFS所要做的事情，即构建一个从源码到集群的自动化编译、部署的项目。

1.2.1.5 Flink实时机器学习

将以架构层次的讲解结合实时机器学习的特点，以及现有的机器学习或者人工智能发展的最新成果一起构成本模块的主要内容。

1.2.2 集群拓扑

如图1-1所示，集群包含三个ZK（ZooKeeper）节点，三个DN（DataNode）节点，两个NameSpace节点，其中每个NameSpace有三个JN（Journal Node）节点、两个NN（NameNode）节点做HA，整个集群有两个RM（Resource Manager），计算底层选择Tez作为计算底层。在这个集群的基础上，架构了Spark Standalone集群、Hive以及Oozie。

1.2.3 安装软件

集群需要安装以下软件：Anaconda、Expect、Mysql、Scala、Jupyter、Toree、Pyecharts等。

1.2.4 教程特点

基于最新版本讲解API：包括 Hadoop3、Spark2、Hive3、Oozie5。通过最新版本的组合，最终搭建集群。
手工搭建：详细讲解如何编译和搭建整个集群环境，环境的搭建是学习大数据最基础也是最难的门槛。
配套资源：有响应的配套文件，包括课件、镜像、安装资源等。
案例为主：以案例为主，进行讲解，而不是直接对着API接口文档进行讲解。主要以分模块案例以及天池数据分析竞赛作为核心例子进行展开讲解。
故障教学：以故障教学的模式进行引导，帮助大家在遇到问题时，不要惊慌，一步步分析问题，然后找到解决故障的方法。在大数据开发里面，经常发现很多莫名其妙的问题，这些问题常常是因为某一个配置或者某一个操作不当而延迟产生的结果。注意这里说到延迟，是因为大部分故障不会立即产生结果，对于立即产生的结果，容易分析和解决，而延迟产生的，则需要对整个系统运行模式、运行理论、运行过程非常熟悉，才能知道故障产生的根本原因，而非表象原因。
完整实战项目：以天池数据分析为例，基于2014年淘宝的数据作为案例数据源，通过数据分析可以真切感受到淘宝或者电商的发展路径。