上一节我们介绍了kafka涉及到的相关概念,大家对kafka服务的基本结构也有了初步的印象。这一节里我们要做的,就是动手将上一节的kafka服务结构部署到我们的机器上,搭建kafka基本的服务环境,其中会涉及到具体的zookeeper和kafka配置信息,我们会进行讲解介绍。
在动手部署kafka服务之前,我们先对服务器环境做一个规划,包括kafka机器分配、安装路径和日志路径约定等。
我们将要模拟的是3台机器上的分布式部署,如果手头没有这么多机器的话,可以在同一个机器上,根据不同的端口来模拟不同机器,当然大家也可以使用VMware虚拟机来模拟。我采用了不同端口模拟的方式。
另外上一节我们提到过,Kafka集群的管理,是通过zookeeper来实现的,我们在安装kafka服务前,需要先安装zookeeper服务。kafka提供了内嵌的zookeeper,实际生产环境下,我们通常不会使用内嵌的zookeeper,而是单独部署一套环境。
这里我也是采用了不同端口模拟的方式。
一、zookeeper服务环境搭建
先来讲一下部署zookeeper环境的配置。
zookeeper环境分三台机器,端口分配分别是:
localhost:2181;
localhost:2182;
localhost:2183;
在每台机器的相同路径下下载安装zookeeper。我的zookeeper版本是:zookeeper-3.4.9,安装路径是:/Users/cmcc/hadoop/zookeeper-1/zookeeper-3.4.9/
如果你也在本地模拟三台机器,那么我建议路径尽量都保持一致。我的三个zookeeper服务路径分别为:
/Users/cmcc/hadoop/zookeeper-1/zookeeper-3.4.9
/Users/cmcc/hadoop/zookeeper-2/zookeeper-3.4.9
/Users/cmcc/hadoop/zookeeper-3/zookeeper-3.4.9
zookeeper的数据(与日志)路径分别为:
/Users/cmcc/hadoop/tmp/zk1/data(日志路径为log)
/Users/cmcc/hadoop/tmp/zk2/data(日志路径为log)
/Users/cmcc/hadoop/tmp/zk3/data(日志路径为log)
在数据路径下提前新建一个名为myid的文件,存储zookeeper机器的编号(1,2,3…),这个编号用于唯一标识一个zookeeper节点,一定要是全局唯一的,不能重复。
zookeeper的配置文件是/conf/zoo.cfg。以zk-1节点为例,其配置内容:
##########################################
# The number of milliseconds of each tick。
#这个时间是作为Zookeeper服务器之间或客户端与服务器之间维持心跳的时间间隔,每隔这个时间,就会发送一个心跳
tickTime=2000
# The number of ticks that the initial synchronization phase can take。
#Zookeeper中Leader接收Follower服务器初始化连接时最长能忍受多少个心跳时间间隔数
initLimit=10
# The number of ticks that can pass between sending a request and getting an acknowledgement。
#标识Leader与Follower之间发送消息,请求和应答时间长度,最长不能超过多少个心跳时间
syncLimit=5
# the directory where the snapshot is stored.
#zookeeper的数据和日志存储路径,需要手动创建好。日志不会自动清除,需要手动处理。
dataDir=/Users/cmcc/hadoop/tmp/zk1/data
dataLogDir=/Users/cmcc/hadoop/tmp/zk1/log
# the port at which the clients will connect
#zookeeper client连接的端口。如果多个zk部署在同一个机器,那么每个zk的Port必须不同,否则启动时会提示端口冲突。
#本例中zookeeper-1、2、3的clientPort分别是:2181、2182、2183
clientPort=2181
#同一台机器上,这里的两个port必须跟上面的clientPort不同,因为三个port的用途都不一样。
#下面第一个端口号表示这个zk节点与集群Leader信息交换的端口,第二个端口用于leader挂掉后重新选举的信息交换端口。
#server.后面的数字(1,2,3)表示zk节点的编号,内容与上个步骤提到的myid文件的内容需保持一致。
server.1=localhost:2287:3387
server.2=localhost:2288:3388
server.3=localhost:2289:3389
# the maximum number of client connections.
#对于一个zk节点允许的最大zk-client客户端的连接数限制,默认是60
#maxClientCnxns=60
# The number of snapshots to retain in dataDir
#保留多少个snapshots
#autopurge.snapRetainCount=3
# Purge task interval in hours,Set to "0" to disable auto purge feature
# 每隔多少小时清理一次snapshots
#autopurge.purgeInterval=1
##########################################
zookeeper服务启动脚本:
sh ./zookeeper-1/zookeeper-3.4.9/bin/zkServer.sh start &
echo "zookeeper-1 starting..."
sh ./zookeeper-2/zookeeper-3.4.9/bin/zkServer.sh start &
echo "zookeeper-2 starting..."
sh ./zookeeper-3/zookeeper-3.4.9/bin/zkServer.sh start &
echo "zookeeper-3 starting..."
查看节点的状态属性:
./bin/zkServer.sh status
也可以编辑一个状态查看脚本show_status.sh,输入节点id 来查看指定节点的状态:
################################
#!/bin/bash
index=$1
echo "show zookeeper-$index status..."
sh ./zookeeper-$index/zookeeper-3.4.9/bin/zkServer.sh status
################################
zookeeper启动过程中,会在三个机器之间选举出一个leader,其他作为follower,并在leader和follower之间进行数据同步,保持数据一致性。