Hadoop 2.x分布式集群部署

服务组件的规划

  • 机器的配置需要根据实际情况考虑。由于我用的虚拟机,所以各个容量大小设置的都很低。* 注意:搭建分布式至少三台机器。 *
机器1 机器2 机器3
主机名:bigdata-00 主机名:bigdata-01 主机名:bigdata-02
内存大小:1G 内存大小:1G 内存大小:1G
CPU核数:1核 CPU核数:1核 CPU核数:1核
硬盘容量:15G 硬盘容量:15G 硬盘容量:15G
  • HDFS和YARN的服务规划和配置(hadoop版本-2.5.0)。因为NameNode、ResourceManager、SecondaryNameNode都是比较消耗内存的,所以放在不同的机器上可以减轻机器的负载;MRHistoryServer不消耗过多的内存可以任意放置。
机器1 机器2 机器3
NameNode ResourceManager SecondaryNameNode
DateNode DateNode DateNode
NodeManager NodeManager NodeManager
MRHistroyServer

克隆虚拟机及配置步骤

  1. 对克隆完成的虚拟机修改其主机名
  • 先临时修改

[wulei@bigdata-00 ~]$ hostname bigdata-00

  • 永久修改

[wulei@bigdata-00 ~]$ vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=bigdata-00

  1. 会发现 /etc/udev/rules.d/70-persistent-net.rules(记录了mac地址、网卡名等信息) 下有两条信息。可以选择清空这个文件夹,也可以删去其中一条,并在另外一条中修改mac地址和网卡名。我这里选择清空。

[root@bigdata-02 ~]# >/etc/udev/rules.d/70-persistent-net.rules

  1. 配置网卡信息,修改配置文件 /etc/sysconfig/network-scripts/ifcfg-eth0。 几处重要的修改如下。配置完成后重启,ping外网测试。

    HWADDR=00:0C:29:A8:EA:9D
    IPADDR=192.168.200.7
    NETMASK=255.255.255.0
    GATEWAY=192.168.200.2
    [root@bigdata-00 ~]# ping www.baidu.com

  2. 在配置文件 /etc/hosts 中添加主机名映射

192.168.200.5 bigdata-00
192.168.200.6 bigdata-01
192.168.200.7 bigdata-02

Hadoop集群的安装和配置

  1. 规划集群的安装目录。为了方便管理,一个集群的相同组件应该放在相同的目录。

[root@bigdata-00 ~]# mkdir /opt/app

  1. 一般操作不会一直在root用户下操作,因此修改这个目录的用户主。

[root@bigdata-02 ~]# chown wulei:wulei /opt/app
[root@bigdata-02 ~]# ll -d /opt/app
drwxr-xr-x 2 wulei wulei 4096 Oct 19 09:10 /opt/app

  1. 安装和配置JDK

[root@bigdata-01 opt]# tar -zxf softwares/jdk-8u101-linux-x64.tar.gz -C modules/
[root@bigdata-01 opt]# vim /etc/profile
##java7
export JAVA_HOME=/opt/modules/jdk1.8.0_101
export PATH=$JAVA_HOME/bin:$PATH
source /etc/profile

  1. 解压Hadoop 2.5.0至app目录下。删除hadoop目录下share/doc(文档)目录,以节约磁盘空间。

[root@bigdata-01 opt]# tar -zxf softwares/hadoop-2.5.0.tar.gz -C app/
[root@bigdata-00 opt]# rm -rf app/hadoop-2.5.0/share/doc

  1. 指定运行hadoop各组件的JAVA_HOME路径。需要设置三个配置文件:hadoop-env.sh、mapred-env.sh、yarn-env.sh。

export JAVA_HOME=/opt/modules/jdk1.8.0_101

  1. 配置相关服务组件XML文件,其中包括指定哪台机器作为NameNode节点和NameNode文件存储的目录。
  • core-site.xml配置NameNode
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://bigdata-00:8020</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/app/hadoop-2.5.0/data/tmp</value>
        </property>
  • 在slaves文件中设置DataNode
192.168.200.5  bigdata-00
192.168.200.6  bigdata-01
192.168.200.7  bigdata-02
  • hdfs-site.xml配置SecondaryNameNode。把它部署在 bigdata-02 机器上。
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>bigdata-02:50090</value>
        </property>
  • yarn-site.xml配置YARN。各个参数的解释:
    yarn.resourcemanager.hostname 指定resoucemanager节点
    yarn.nodemanager.aux-services 需要配置成mapreduce_shuffle才能运行mapreduce程序。
    yarn.log.aggregation-enable 是否启动日志聚集功能。日志聚集是YARN提供的日志中央化管理功能,启动它可以将container和任务产生的相关日志文件上传到HDFS上(从而实现中央化管理功能),默认情况下个日志文件是存储在各个NodeManager节点上的。
    yarn.log.aggregation.retain-seconds 设置聚集日志在HDFS保存的时间(单位为秒)。
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>bigdata-01</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.log.aggregation-enable</name>
                <value>true</value>
        </property>
        <property>
                <name>yarn.log-aggregation.retain-seconds</name>
                <value>18000</value>
        </property>
  • mapred-site.xml配置mapreduce。各参数的解释:
    mapreduce.framework.name 指定mapreduce的运行在什么框架上。默认值为本地。
    mapreduce.jobhistory.address 指定MapReduce JobHistory Server地址。
    mapreduce.jobhistory.webapp.address 指定MapReduce JobHistory Server Web UI地址。
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>bigdata-00:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>bigdata-00:19888</value>
        </property>
  1. 先在一台机器上测试各个服务;然后分发配置文件到其他节点上;最后在其他节点上测试各个服务。注:如果不能正常启动服务,应该在logs下面查看相应的启动日志文件。
  • 测试HDFS服务能否正常启动

[wulei@bigdata-00 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode
[wulei@bigdata-00 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start datanode
[wulei@bigdata-00 hadoop-2.5.0]$ jps
4402 Jps
4234 NameNode
4331 DataNode

  • 测试HDFS能否创建目录、上传文件、读取文件。

[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -mkdir -r /test
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -ls /
Found 1 items
drwxr-xr-x - wulei supergroup 0 2016-10-19 16:01 /test
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -put /etc/hosts /test/

[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -text /test/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

  • 测试YARN服务能否正常启动

[wulei@bigdata-00 hadoop-2.5.0]$ sbin/yarn-daemon.sh start nodemanager
[wulei@bigdata-00 hadoop-2.5.0]$ sbin/mr-jobhistory-daemon.sh start historyserver
[wulei@bigdata-00 hadoop-2.5.0]$ jps
4769 NodeManager
4887 JobHistoryServer
4234 NameNode
4331 DataNode

  • 分发配置文件到其余两个节点并启动相应的服务,然后测试其余节点HDFS是否正常,和上面的步骤一样。

[wulei@bigdata-00 hadoop-2.5.0]$ scp -r etc/ wulei@bigdata-01:/opt/app/hadoop-2.5.0/
[wulei@bigdata-00 hadoop-2.5.0]$ scp -r etc/ wulei@bigdata-02:/opt/app/hadoop-2.5.0/

  • 在管理界面查看所有namenode(bigdata-00:50070)


    datanode.png
  • 测试mapreduce能否跑在YARN集群上。需要注意jar包必须运行在namenode节点上,因为只有从该节点才能使用分布式文件系统的目录结构。在wb管理界面(bigdata-01:8088)查看mapreduce运行进度。

[wulei@bigdata-00 hadoop-2.5.0]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /test/ /test/out

yarn.png
  • 在此检查各个节点运行的组件
zujian1.png
zujian2.png
zujian3.png

至此hadoop 2.5.0分布式集群搭建完毕

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容