Spark平台(高级版)概览

简介:

CentOS7上安装Zookeeper+Hadoop3+Tez+Hive+Spark+Jupyter+Oozie

安装环境及版本:

虚拟机:VirtualBox6.0
操作系统:CentOS-7-x86_64-Everything-1804.iso
Zookeeper:zookeeper-3.4.10.tar.gz
Hadoop3:hadoop-3.1.2.tar.gz
Maven:apache-maven-3.6.0-bin.tar.gz
Tez:apache-tez-0.9.0-src.tar.gz
MySQL:mysql-5.7.18
Hive:apache-hive-3.1.1-bin.tar.gz
Spark:spark-2.4.0-bin-hadoop3.1.2.tgz
Anaconda3:Anaconda3-2018.12-Linux-x86_64.sh
Toree:toree-0.3.0.tar.gz
findspark:findspark-1.3.0-py2.py3-none-any.whl
Scala:scala-2.11.12.tgz
Oozie:oozie-5.0.0-distro.tar.gz、oozie-sharelib-5.0.0.tar.gz

目录:

一、总体介绍
    1.1 什么是大数据
    1.1.1 基础设施
    1.1.2 方法论
    1.2 为什么学习本教程
        1.2.1 教程体系
        1.2.2 集群拓扑
        1.2.3 安装软件
        1.2.4 教程特点
        1.2.5 资源清单
    1.3 开发环境介绍
        1.3.1 VirtualBox
        1.3.2 加载虚拟机
        1.3.3 挂载操作系统文件
        1.3.4 网络介绍
        1.3.5 启动虚拟机
        1.3.6 环境介绍
        1.3.7 关闭
    1.4 起点准备

二、安装Centos7操作系统
    2.1 创建虚拟机
    2.2 安装操作系统
        2.2.1 下载系统文件
        2.2.2 挂载系统
        2.2.3 安装系统
    2.3 系统设置
        2.3.1 双网卡
        2.3.2 设置IP
        2.3.3 设置主机名
        2.3.4 防火墙
        2.3.5 关闭SELINUX

三、基础环境安装
    3.1 新建用户
    3.2 JDK
        3.2.1 创建目录
        3.2.2 安装文件
        3.2.3 环境变量
        3.2.4 验证
    3.3 SSH免密登录
    3.4 将节点hadoop1复制到hadoop2
        3.4.1 设置IP
        3.4.2 设置主机名
    3.5 将节点hadoop1复制到hadoop3
    3.6 /etc/hosts
    3.7 SSH免密连接
        3.7.1 app-11节点
        3.7.2 app-12节点
        3.7.3 app-13节点
    3.8 expect
    3.9 protobuf-2.5.0
    3.10 组件
        3.10.1  zip unzip
        3.10.2  bzip2
        3.10.3  net-tools

四、ZooKeeper-分布式过程协同组件
    4.1 ZooKeeper概要
        4.1.1 什么是分布式过程协同
        4.1.2 分布式过程协同架构设计的难点
        4.1.3 为什么选择ZooKeeper
    4.2 原理
        4.2.1 服务器角色介绍
        4.2.2 选取流程
        4.2.3 操作流程
    4.3 环境搭建与案例分析
        4.3.1 环境搭建
        4.3.2 启停
        4.3.3 案例:锁
        4.3.4 案例:主从应用

五、Hadoop3-大数据基础组件
    5.1 基本集群环境搭建
        5.1.1 集群拓扑图
        5.1.2 集群搭建
        5.1.3 启动集群
        5.1.4 测试
        5.1.5 Web页面
        5.1.6 关闭集群
    5.2 HDFS
        5.2.1 HDFS基本原理
        5.2.2 基本操作
        5.2.3 HDFS HA配置文件详解
        5.2.4 安装总结
        5.2.5 HDFS Federation/ViewFS
    5.3 MapReduce
        5.3.1 MR基本原理
        5.3.2 MR编程实战
        5.3.3 MR内部机制与调优
    5.4 YARN
        5.4.1 YARN的产生背景
        5.4.2 YARN架构
        5.4.3 YARN基本命令操作
        5.4.4 RM HA配置
        5.4.5 调度器配置
        5.4.6 YARN应用编程实战
        5.4.6.5 运行

六、Tez 
    6.1 基本概念
        6.1.1 为什么要Tez
        6.1.2 Tez的特征
    6.2 搭建环境
        6.2.1 安装apache-maven
        6.2.2 编译Tez
        6.2.3 安装Tez
        6.2.4 拷贝到app-12
        6.2.5 拷贝到app-13
    6.3 编程实践
        6.3.1 总体架构与创建
        6.3.2 代码解析
        6.3.3 编译
        6.3.4 运行

七、Hive
    7.1 Hive是什么
        7.1.1 SQL on OLAP
        7.1.2 Hive Arch
    7.2 Hive环境安装
        7.2.1 安装Mysql
        7.2.2 安装Hive
    7.3 基本命令行操作
        7.3.1 基本命令
        7.3.2 操作HDFS
    7.4 HiveQL数据定义
        7.4.1 创建数据库
        7.4.2 创建表
        7.4.3 导入数据
        7.4.4 HDFS关系
        7.4.5 MySQL关系
        7.4.6 外部表/内部表
    7.5 HiveQL查询
        7.5.1 hive –f运行脚本
        7.5.2 tez引擎
        7.5.3 mr引擎
    7.6 Hive锁
        7.6.1 加锁
        7.6.2 解锁
        7.6.3 实验
    7.7 Hive调优
        7.7.1 执行计划
        7.7.2 分区表

八、Spark
    8.1 Spark是什么
        8.1.1 vs MR/Tez/Flink
        8.1.2 统一分析引擎
        8.1.3 Python/Scala/Java
    8.2 Spark环境安装
        8.2.1 编译
        8.2.2 安装Spark
    8.3 SparkSQL例子
        8.3.1 Spark集群模式
        8.3.2 例子
    8.4 Spark编程模型
        8.4.1 Spark编程模型
        8.4.2 Spark基本架构
        8.4.3 SparkContext
        8.4.4 Spark任务调度
        8.4.5 Tez任务调度
        8.4.6 部署模式
        8.4.7 计算引擎
    8.5 安装Jupyter
        8.5.1 安装Anaconda
        8.5.2 安装Jupyter
        8.5.3 安装Toree和findspark
    8.6 修改集群启动脚本
        8.6.1 启停脚本
        8.6.2 开关配置
        8.6.3 停止
        8.6.4 启动

九、Spark快速大数据处理综合案例实战
    9.1 SparkSQL/DataFrame API
        9.1.1 API概述
    9.2 淘宝用户行为分析案例
        9.2.1 数据分析任务
        9.2.2 数据源
        9.2.3 数据加载
        9.2.4 用户行为分析
        9.2.5 商品分析

十、Spark Structured Streaming API
    10.1 什么是流、动态表
    10.2 Streaming WordCount原理
    10.3 时间与窗口
    10.4 事件迟到
    10.5 水印
    10.6 进一步学习材料

十一、集群环境对称处理
    11.1 安装Anaconda
        11.1.1 app-12
        11.1.2 app-13
        11.1.3 环境变量
        11.1.4 确认

十二、Spark数据统计与可视化
    12.1 准备
        12.1.1 启动集群
        12.1.2 数据准备
    12.2 新建项目
    12.3 创建SparkSession
    12.4 创建类型
        12.4.1 RDD
        12.4.2 DataFrame
        12.4.3 SparkSQL
    12.5 获取指定字段
        12.5.1 RDD
        12.5.2 DataFrame
        12.5.3 SparkSQL
    12.6 计算
        12.6.1 RDD
        12.6.2 DataFrame
        12.6.3 SparkSQL
    12.7 条件查询
        12.7.1 RDD
        12.7.2 DataFrame
        12.7.3 SparkSQL
    12.8 单个字段排序
        12.8.1 RDD
        12.8.2 DataFrame
        12.8.3 SparkSQL
    12.9 多个字段排序
        12.9.1 RDD
        12.9.2 DataFrame
        12.9.3 SparkSQL
    12.10 去除重复数据
        12.10.1 RDD
        12.10.2 DataFrame
        12.10.3 SparkSQL
    12.11 分组统计
        12.11.1 RDD
        12.11.2 DataFrame
        12.11.3 SparkSQL
    12.12 连接join
        12.12.1 读取zipcode并整理
        12.12.2 DataFrame
        12.12.3 SparkSQL
    12.13 pandas绘图
        12.13.1 DataFrame
        12.13.2 SparkSQL

十三、Oozie-大数据流程引擎
    13.1 工作流的必要性
    13.2 Oozie基本概念
        13.2.1 架构
        13.2.2 流程
    13.3 环境搭建
        13.3.1 编译
        13.3.2 安装
        13.3.3 自动启停
    13.4 编程实战
        13.4.1 启动集群
        13.4.2 准备
        13.4.3 配置文件解析
        13.4.4 Cron Action
        13.4.5 Shell Action
        13.4.6 MR Action
        13.4.7 Spark Action
        13.4.8 PySpark Action
        13.4.9 Hive2 Action
    13.5 总结

十四、Spark推荐引擎构建
    14.1 推荐模型分类
        14.1.1 内容过滤
        14.1.2 协同过滤
    14.2 矩阵分解
        14.2.1 显式矩阵分解
        14.2.2 隐式矩阵分解
    14.3 ALS训练
        14.3.1 标准流程
        14.3.2 参数设置
        14.3.3 策略调整
    14.4 案例
        14.4.1 下载数据源
        14.4.2 上传数据源
        14.4.3 测试-手动
        14.4.4 测试-submit
    14.5 案例-RMSE
        14.5.1 准备
        14.5.2 创建Hive
        14.5.3 测试-手动
        14.5.4 测试-submit

十五、Spark MLlib二元决策树
    15.1 介绍
    15.2 节点划分
        15.2.1 基尼指数(Gini)
        15.2.2 熵(Entropy)
    15.3 案例
        15.3.1 介绍
        15.3.2 数据源
        15.3.3 上传数据
        15.3.4 测试-jupyter
        15.3.5 测试-submit

十六、Spark ML Pipeline机器学习
    16.1 Pipeline组件
        16.1.1 DataFrame数据集
        16.1.2 Transformer转换器
        16.1.3 Estimator预测器
        16.1.4 Pipeline
        16.1.5 Parameter
    16.2 基本过程
        16.2.1 数据准备ETL
        16.2.2 训练模型
        16.2.3 评估模型
        16.2.4 应用模型
    16.3 案例
        16.3.1 整体流程
        16.3.2 数据上传
        16.3.3 新建项目
        16.3.4 创建SparkSession
        16.3.5 读取并分析文件
        16.3.6 整理数据
        16.3.7 StringIndexer
        16.3.8 OneHotEncoder
        16.3.9 VectorAssembler
        16.3.10 DecisionTreeClassifier
        16.3.11 RandomForestClassifier
        16.3.12 显示结果

十七、附件
    17.1 附件A:自动启停操作
        17.1.1 config.conf 
        17.1.2 remoteSSH.exp
        17.1.3 remoteSSHNOTroot.exp
        17.1.4 startAll.sh 
        17.1.5 stopAll.sh 
        17.1.6 启动
        17.1.7 停止
    17.2 附件B:修改hosts文件
    17.3 附件C:环境变量

发表回复