服务组件的规划
- 机器的配置需要根据实际情况考虑。由于我用的虚拟机,所以各个容量大小设置的都很低。* 注意:搭建分布式至少三台机器。 *
机器1 | 机器2 | 机器3 |
---|---|---|
主机名:bigdata-00 | 主机名:bigdata-01 | 主机名:bigdata-02 |
内存大小:1G | 内存大小:1G | 内存大小:1G |
CPU核数:1核 | CPU核数:1核 | CPU核数:1核 |
硬盘容量:15G | 硬盘容量:15G | 硬盘容量:15G |
- HDFS和YARN的服务规划和配置(hadoop版本-2.5.0)。因为NameNode、ResourceManager、SecondaryNameNode都是比较消耗内存的,所以放在不同的机器上可以减轻机器的负载;MRHistoryServer不消耗过多的内存可以任意放置。
机器1 | 机器2 | 机器3 | |
---|---|---|---|
NameNode | ResourceManager | SecondaryNameNode | |
DateNode | DateNode | DateNode | |
NodeManager | NodeManager | NodeManager | |
MRHistroyServer |
克隆虚拟机及配置步骤
- 对克隆完成的虚拟机修改其主机名
- 先临时修改
[wulei@bigdata-00 ~]$ hostname bigdata-00
- 永久修改
[wulei@bigdata-00 ~]$ vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=bigdata-00
- 会发现 /etc/udev/rules.d/70-persistent-net.rules(记录了mac地址、网卡名等信息) 下有两条信息。可以选择清空这个文件夹,也可以删去其中一条,并在另外一条中修改mac地址和网卡名。我这里选择清空。
[root@bigdata-02 ~]# >/etc/udev/rules.d/70-persistent-net.rules
- 配置网卡信息,修改配置文件 /etc/sysconfig/network-scripts/ifcfg-eth0。 几处重要的修改如下。配置完成后重启,ping外网测试。
HWADDR=00:0C:29:A8:EA:9D
IPADDR=192.168.200.7
NETMASK=255.255.255.0
GATEWAY=192.168.200.2
[root@bigdata-00 ~]# ping www.baidu.com - 在配置文件 /etc/hosts 中添加主机名映射
192.168.200.5 bigdata-00
192.168.200.6 bigdata-01
192.168.200.7 bigdata-02
Hadoop集群的安装和配置
- 规划集群的安装目录。为了方便管理,一个集群的相同组件应该放在相同的目录。
[root@bigdata-00 ~]# mkdir /opt/app
- 一般操作不会一直在root用户下操作,因此修改这个目录的用户主。
[root@bigdata-02 ~]# chown wulei:wulei /opt/app
[root@bigdata-02 ~]# ll -d /opt/app
drwxr-xr-x 2 wulei wulei 4096 Oct 19 09:10 /opt/app
- 安装和配置JDK
[root@bigdata-01 opt]# tar -zxf softwares/jdk-8u101-linux-x64.tar.gz -C modules/
[root@bigdata-01 opt]# vim /etc/profile
##java7
export JAVA_HOME=/opt/modules/jdk1.8.0_101
export PATH=$JAVA_HOME/bin:$PATH
source /etc/profile
- 解压Hadoop 2.5.0至app目录下。删除hadoop目录下share/doc(文档)目录,以节约磁盘空间。
[root@bigdata-01 opt]# tar -zxf softwares/hadoop-2.5.0.tar.gz -C app/
[root@bigdata-00 opt]# rm -rf app/hadoop-2.5.0/share/doc
- 指定运行hadoop各组件的JAVA_HOME路径。需要设置三个配置文件:hadoop-env.sh、mapred-env.sh、yarn-env.sh。
export JAVA_HOME=/opt/modules/jdk1.8.0_101
- 配置相关服务组件XML文件,其中包括指定哪台机器作为NameNode节点和NameNode文件存储的目录。
- core-site.xml配置NameNode
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata-00:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/app/hadoop-2.5.0/data/tmp</value>
</property>
- 在slaves文件中设置DataNode
192.168.200.5 bigdata-00
192.168.200.6 bigdata-01
192.168.200.7 bigdata-02
- hdfs-site.xml配置SecondaryNameNode。把它部署在 bigdata-02 机器上。
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>bigdata-02:50090</value>
</property>
- yarn-site.xml配置YARN。各个参数的解释:
yarn.resourcemanager.hostname 指定resoucemanager节点
yarn.nodemanager.aux-services 需要配置成mapreduce_shuffle才能运行mapreduce程序。
yarn.log.aggregation-enable 是否启动日志聚集功能。日志聚集是YARN提供的日志中央化管理功能,启动它可以将container和任务产生的相关日志文件上传到HDFS上(从而实现中央化管理功能),默认情况下个日志文件是存储在各个NodeManager节点上的。
yarn.log.aggregation.retain-seconds 设置聚集日志在HDFS保存的时间(单位为秒)。
<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata-01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.log.aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>18000</value>
</property>
- mapred-site.xml配置mapreduce。各参数的解释:
mapreduce.framework.name 指定mapreduce的运行在什么框架上。默认值为本地。
mapreduce.jobhistory.address 指定MapReduce JobHistory Server地址。
mapreduce.jobhistory.webapp.address 指定MapReduce JobHistory Server Web UI地址。
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>bigdata-00:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>bigdata-00:19888</value>
</property>
- 先在一台机器上测试各个服务;然后分发配置文件到其他节点上;最后在其他节点上测试各个服务。注:如果不能正常启动服务,应该在logs下面查看相应的启动日志文件。
- 测试HDFS服务能否正常启动
[wulei@bigdata-00 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode
[wulei@bigdata-00 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start datanode
[wulei@bigdata-00 hadoop-2.5.0]$ jps
4402 Jps
4234 NameNode
4331 DataNode
- 测试HDFS能否创建目录、上传文件、读取文件。
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -mkdir -r /test
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -ls /
Found 1 items
drwxr-xr-x - wulei supergroup 0 2016-10-19 16:01 /test
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -put /etc/hosts /test/
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -text /test/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
- 测试YARN服务能否正常启动
[wulei@bigdata-00 hadoop-2.5.0]$ sbin/yarn-daemon.sh start nodemanager
[wulei@bigdata-00 hadoop-2.5.0]$ sbin/mr-jobhistory-daemon.sh start historyserver
[wulei@bigdata-00 hadoop-2.5.0]$ jps
4769 NodeManager
4887 JobHistoryServer
4234 NameNode
4331 DataNode
- 分发配置文件到其余两个节点并启动相应的服务,然后测试其余节点HDFS是否正常,和上面的步骤一样。
[wulei@bigdata-00 hadoop-2.5.0]$ scp -r etc/ wulei@bigdata-01:/opt/app/hadoop-2.5.0/
[wulei@bigdata-00 hadoop-2.5.0]$ scp -r etc/ wulei@bigdata-02:/opt/app/hadoop-2.5.0/
-
在管理界面查看所有namenode(bigdata-00:50070)
- 测试mapreduce能否跑在YARN集群上。需要注意jar包必须运行在namenode节点上,因为只有从该节点才能使用分布式文件系统的目录结构。在wb管理界面(bigdata-01:8088)查看mapreduce运行进度。
[wulei@bigdata-00 hadoop-2.5.0]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /test/ /test/out
- 在此检查各个节点运行的组件
至此hadoop 2.5.0分布式集群搭建完毕