
手上有5臺服務(wù)器,準備建個集群。
準備工作:
hostname *** #配置HOST
vi /etc/hosts #配置IP和HOST映射
.ssh/authorized_keys #配置SSH通道
第一次嘗試:
最方便的當(dāng)然是用 Ambari (Apache Software Foundation 下的一個頂級項目)可視化安裝,

訪問 http:// host:8080 使用默認的 admin & admin 登陸,點擊 Launch Install Wizard 進入安裝向?qū)С绦?
基本配置,包括節(jié)點的 hostname、key;
選擇要安裝的服務(wù),如HDFS、Yarn、Zookeeper、Hive、Spark等;
對每個服務(wù)進行配置操作,選擇每個服務(wù)的 Master & Slave 安裝在哪些節(jié)點上;
開始安裝,顯示成功或失敗的結(jié)果及日志。
詳細:http://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari/
但是小潤在安裝的時候進度總卡住,然后因為超時就 failed 了,好氣啊。
第二次嘗試
自己手動搭建咯...
注意:
學(xué)校的鏡像源
#wget 安裝包
http://mirrors.hust.edu.cn/apache/
配置環(huán)境變量
vi ~/.bashrc
export JAVA_HOME=/usr/jdk64/jdk1.8.0_77
export JRE_HOME=/usr/jdk64/jdk1.8.0_77/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export HADOOP_HOME=/usr/local/hadoop-2.6.0
export PATH=$HADOOP_HOME/bin:$PATH
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH
安裝 Java
安裝 Scala
安裝 Hadoop 及配置
cd $HADOOP_HOME/etc/hadoop
#具體修改見下面的鏈接
vi core-site.xml
vi hdfs-site.xml
vi yarn-site.xml
vi hadoop-env.sh
vi slaves
cd $HADOOP_HOME
#啟動
sbin/start-dfs.sh
sbin/start-yarn.sh
安裝 Spark 及配置
spark的3種運行模式: Standalone Deploy Mode 、 Apache Mesos 、 Hadoop YARN
cd $SPARK_HOME/conf
#具體修改見下面的鏈接
vi spark-env.sh
vi slaves
cd $SPARK_HOME
#啟動
sbin/start-all.sh


詳細:http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/
Master 上的進程:
[email protected]:~# jps
9824 Master
9219 NameNode
9402 SecondaryNameNode
9546 ResourceManager
12494 Jps
其中一個 Slave 上的進程:
[email protected]:~# jps
18212 Worker
18057 NodeManager
17946 DataNode
18461 Jps

接下來就可以使用 hdfs ,然后 spark submit 了。
手動安裝一番過后,小潤更好地理解了集群配置,稍稍體會到了運行機制。
續(xù):
接下來配置了 zeppelin 的 interpreter,交互式地來操作(支持Spark、Scala、SQL等)

有意思的進展 持續(xù)更新