小知识：使用docker快速搭建Spark集群的方法教程

前言

spark 是 berkeley 开发的分布式计算的框架，相对于 hadoop 来说，spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。下面来一起看看使用docker快速搭建spark集群的方法教程。

适用人群

正在使用spark的开发者正在学习docker或者spark的开发者

准备工作

安装docker (可选)下载java和spark with hadoop

spark集群

spark运行时架构图

%小知识：使用docker快速搭建Spark集群的方法教程-猿站网-插图

如上图: spark集群由以下两个部分组成

集群管理器(mesos, yarn或者standalone mode) 工作节点(worker)

如何docker化(本例使用standalone模式)

1、将spark集群拆分

base(基础镜像)

master(主节点镜像)

worker(工作镜像)

2、编写base dockerfile

注: 为方便切换版本基础镜像选择的是centos, 所以要下载java和spark, 方便调试, 可以下载好安装文件后本地搭建一个静态文件服务器, 使用node.js 的http-server可以快速搞定

命令如下

npm install http-server -g

http-server -p 54321 ~/downloads

正式开始写dockerfile

from centos:7

maintainer ravenzz <raven.zhu@outlook.com>

# 安装系统工具

run yum update -y

run yum upgrade -y

run yum install -y byobu curl htop man unzip nano wget

run yum clean all

# 安装 java

env jdk_version 8u11

env jdk_build_version b12

# 如果网速快,可以直接从源站下载

#run curl -lo “http://download.oracle.com/otn-pub/java/jdk/$jdk_version-$jdk_build_version/jdk-$jdk_version-linux-x64.rpm” -h cookie: oraclelicense=accept-securebackup-cookie && rpm -i jdk-$jdk_version-linux-x64.rpm; rm -f jdk-$jdk_version-linux-x64.rpm;

run curl -lo “http://192.168.199.102:54321/jdk-8u11-linux-x64.rpm” && rpm -i jdk-$jdk_version-linux-x64.rpm; rm -f jdk-$jdk_version-linux-x64.rpm;

env java_home /usr/java/default

run yum remove curl; yum clean all

workdir spark

run \

curl -lo http://192.168.199.102:54321/spark-2.1.0-bin-hadoop2.7.tgz && \

tar zxf spark-2.1.0-bin-hadoop2.7.tgz

run rm -rf spark-2.1.0-bin-hadoop2.7.tgz

run mv spark-2.1.0-bin-hadoop2.7/* ./

env spark_home /spark

env path /spark/bin:$path

env path /spark/sbin:$path

3、编写master dockerfile

from ravenzz/spark-hadoop

maintainer ravenzz <raven.zhu@outlook.com>

copy master.sh /

env spark_master_port 7077

env spark_master_webui_port 8080

env spark_master_log /spark/logs

expose 8080 7077 6066

cmd [“/bin/bash”,”/master.sh”]

4、编写worker dockerfile

from ravenzz/spark-hadoop

maintainer ravenzz <raven.zhu@outlook.com>

copy worker.sh /

env spark_worker_webui_port 8081

env spark_worker_log /spark/logs

env spark_master “spark://spark-master:32769”

expose 8081

cmd [“/bin/bash”,”/worker.sh”]

5、docker-compose

version: 3

services:

spark-master:

build:

context: ./master

dockerfile: dockerfile

ports:

– “50001:6066”

– “50002:7077” # spark_master_port

– “50003:8080” # spark_master_webui_port

expose:

– 7077

spark-worker1:

build:

context: ./worker

dockerfile: dockerfile

ports:

– “50004:8081”

links:

– spark-master

environment:

– spark_master=spark://spark-master:7077

spark-worker2:

build:

context: ./worker

dockerfile: dockerfile

ports:

– “50005:8081”

links:

– spark-master

environment:

– spark_master=spark://spark-master:7077

6、测试集群

docker-compose up

访问http://localhost:50003/ 结果如图

%小知识：使用docker快速搭建Spark集群的方法教程-1猿站网-插图

参考链接

本例源代码

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对服务器之家的支持。

原文链接：http://www.jianshu.com/p/4801bb7ab9e0

声明： 猿站网有关资源均来自网络搜集与网友提供，任何涉及商业盈利目的的均不得使用，否则产生的一切后果将由您自己承担！本平台资源仅供个人学习交流、测试使用所有内容请在下载后24小时内删除，制止非法恶意传播，不对任何下载或转载者造成的危害负任何法律责任！也请大家支持、购置正版！。本站一律禁止以任何方式发布或转载任何违法的相关信息访客发现请向站长举报，会员发帖仅代表会员个人观点，并不代表本站赞同其观点和对其真实性负责。本网站的资源部分来源于网络，如有侵权烦请发送邮件至：2697268773@qq.com进行处理。

{{userData.name}}已认证

小知识：使用docker快速搭建Spark集群的方法教程

小知识：VMWare安装Centos 6.9教程

小知识：分享nginx+php-fpm实现大文件下载排坑的过程

支持亿级连接并开源的分布式MQTT消息服务器分享

Nginx配置同时支持http和https的两种方式

Docker搭建Redis Cluster集群

如何基于Docker镜像逆向生成Dockerfile

服务器配置参数怎么看？服务器配置参数详解

访问nginx显示未找到站点的问题分析及解决方案

{{userData.name}}已认证

小知识：VMWare安装Centos 6.9教程

小知识：分享nginx+php-fpm实现大文件下载排坑的过程

小知识：Docker Dockerfile 定制镜像的方法

小知识：springboot整合docker部署实现两种构建Docker镜像方式

小知识：手把手教你在腾讯云上搭建hive3.1.2的方法

小知识：kubernetes存储之GlusterFS集群详解