Spark平台（精简版）概览

发表于2020-07-182020-07-18 作者 chpdirector

1、简介：

Ubuntu上安装Python+Spark2.0+Hadoop

2、安装环境及版本：

系统环境：Ubuntu-14.04LTS
Spark版本：spark-2.0.0-bin-hadoop2.6.tgz
Hadoop版本：hadoop-2.6.0.tar.gz
Scala版本：scala-2.11.6.tgz
JDK版本：1.7.0_201

3、目录：

一、准备
    1.1 安装Ubuntu
    1.2 设置root密码
    1.3 安装VMTools
    1.4 允许root登录
    1.5 设置IP地址
    1.6 允许SSH连接
    1.7 设置更新源

二、Hadoop单节点安装
    2.1 安装JDK
    2.2 SSH免密登录
    2.3 下载安装Hadoop
    2.4 设定Hadoop环境变数
    2.5 配置文件
        2.5.1 修改hadoop-env.sh
        2.5.2 修改core-site.xml
        2.5.3 修改yarn-site.xml
        2.5.4 修改mapred-site.xml
        2.5.5 修改hdfs-site.xml
    2.6 建立与格式化HDFS 目录
    2.7 启动Hadoop
        2.7.1 故障：NameNode未启动
    2.8 开启Hadoop ResourceManager Web接口
    2.9 NameNode HDFS Web接口

三、Hadoop多节点安装
    3.1 克隆Single NodeCluster到data1
    3.2 设置data1服务器
        3.2.1 设置IP地址
        3.2.2 设置主机名
        3.2.3 编辑hosts文件
        3.2.4 修改core-site.xml
        3.2.5 修改yarn-site.xml
        3.2.6 修改mapred-site.xml
        3.2.7 修改hdfs-site.xml
        3.2.8 重启
    3.3 克隆data1至data2、data3、master
        3.3.1 克隆
        3.3.2 修改配置
    3.4 设置data2、data3服务器
        3.4.1 设置IP
        3.4.2 设置主机名
        3.4.3 重启
    3.5 设置master服务器
        3.5.1 设置IP
        3.5.2 设置主机名
        3.5.3 重启
        3.5.4 修改hdfs-site.xml
        3.5.5 编辑master文件
        3.5.6 编辑slaves文件
        3.5.7 重启
    3.6 Master连data1、data2、data3建HDFS目录
        3.6.1 Master通过ssh连data1，并创建HDFS目录
        3.6.2 Master通过ssh连data2，并创建HDFS目录
        3.6.3 Master通过ssh连data3，并创建HDFS目录
    3.7 创建并格式化NameNode HDFS 目录
        3.7.1 创建
        3.7.2 格式化
    3.8 启动集群
        3.8.1 查看master进程
        3.8.2 查看进程node1
        3.8.3 查看进程node2
        3.8.4 查看进程node3
        3.8.5 打开Hadoop ResourceManager Web页面
        3.8.6 打开Namenode Web页面
        3.8.7 故障1

四、操作HDFS目录
    4.1 创建与查看mkdir/ls
        4.1.1 递归显示
        4.1.1 多级目录
    4.2 本地复制到HDFS copyFromLocal/put
        4.2.1 拷贝
        4.2.2 强制覆盖
        4.2.3 复制多个文件
        4.2.4 复制目录
    4.3 HDFS复制到本地 copyToLocal/get
        4.3.1 文件复制
    4.4 HDFS目录间复制
    4.5 删除HDFS文件及目录
    4.6 通过页面管理
        4.6.1 下载故障

五、MapReduce 之 WordCount
    5.1 前期准备
    5.2 创建并编译
    5.3 准备测试数据
        5.3.1 故障：安全模式
        5.3.2 上传数据
    5.4 运行
    5.5 查看运行结果

六、Spark Python
    6.1 Scala安装与启动
    6.2 Spark安装
    6.3 启动pyspark
    6.4 测试文本文件
        6.4.1 本地及HDFS上运行pyspark
        6.4.2 Yarn上运行pyspark
        6.4.3 WEB查看
    6.5 Spark standalone cluster运行环境
        6.5.1 搭建
        6.5.2 拷贝到data1节点
        6.5.3 拷贝到data2节点
        6.5.4 拷贝到data3节点
        6.5.5 编辑slaves文件
        6.5.6 运行
        6.5.7 页面

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

发表回复 取消回复

发表回复取消回复