1.什么是kafka
Kafka 是一个分布式,基于zookeeper协调的分布式——订阅消息传递系统和一个强大的队列系统。
组成:( Kafka 体系架构包括若干 Producer、若干 Broker、若干 Consumer,以及一个 ZooKeeper集群)
kafka是一个 支持一对一,一对多的发布和订阅消息系统
什么是消息系统: 一个负责接受消息和发送消息到两个不同第三方程序的系统
2.Kafka 特性
高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。
可扩展性:kafka集群支持热扩展,Kafka消息传递系统轻松缩放,无需停机。
持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失
容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)
高并发:支持数千个客户端同时读写
3.Kafka 三大主体
1.Producer: 生产者,也就是发送消息的一方。生产者负责创建消息 , 然后将其投递到
2.Consumer:消费者,也就是接收消息的 一方。消费者连接到 Kafka 上并接收消息,进
而进行相应的业务逻辑处理 。
3.Broker:服务代理节点。对于 Kafka 而言, Broker 可以简单地看作一个独立的 Kafka 服务节点或 Kafka服务实例。大多数情况下也可以将 Broker看作一台 Kafka服务器,前提是这 台服务器上只部署了一个 Kafka 实例。一个或多个 Broker 组成了 一个 Kafka 集群。
4.三大角色
消息系统: Kafka 和传统的消息系统(也称作消息中间件〉都具备系统解稿、冗余存 储、流量削峰、缓冲、异步通信、扩展性、 可恢复性等功能。与此同时, Kafka 还提 供了大多数消息系统难以实现的消息 顺序性保障及回溯消费 的功能 。
存储系统: Kafka 把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效 地降低了数据丢失的风险 。 也正是得益于 Kafka 的消息持久化功能和多副本机制,我 们可以把 Kafka 作为长期的数据存储系统来使用,只需要把对应的数据保留策略设置 为“永久”或启用主题的日志压缩功能即可 。
流式处理平台: Kafka 不仅为每个流行的流式处理框架提供了可靠 的数据来源,还 提 供了一个完整的流式处理类库,比如窗口、连接、变换和聚合等各类操作 。
5.Kafka 名词
主题(Topic) :
Kafka中的消 息以主题为单位进行归类,生产者负责将消息发送到特定的主题(发送到 Kafka 集群中的每一 条消息都要指定一个主题),而消费者负责订阅主题并进行消费。分区(Partition) :
一个主题(Topic) 有多个分区,一个分区可以看坐一个存储的信息文件,信息最终事分配存储到具体的分区,
每条消息都有会一个偏移量
kafka 中的分区可以分布在不同的服务器 (broker)上,也 就是说,一个主题可以横跨多个 broker,以 此来提供比单个 broker 更强大的性能 。
(多个分区的好处:解决I/O的性能瓶颈,类型数据库的分表处理,可以对分区的数量进行增加进行水平扩展)offset :
offset是消息在分区中的唯一标识, Kafka通过它来保 证消息在分区内的顺序性,不过 offset并不跨越分区,也就是说, Kafka保证的是分区有序而不 是主题有序。broker:
服务代理节点。对于 Kafka 而言, Broker 可以简单地看作一个独立的 Kafka 服务节点或 Kafka服务实例。大多数情况下也可以将 Broker看作一台 Kafka服务器,前提是这 台服务器上只部署了一个 Kafka 实例。一个或多个 Broker 组成了 一个 Kafka 集群 。一般而言, 我们更习惯使用首字母小写的 broker 来表示服务代理节点 。
Replica
为分区引入了多副本 (Replica) 机制, 通过增加副本数量可以提升容灾能力。同一 分区的不同副本中保存的是相同的消息(在同一时刻,副本之间并非完全一样),自1J本之间是 “一主多从”的关系,其中 leader副本负责处理读写请求, follower副本只负责与 leader副本的 消息同步。副本处于不同的 broker 中 ,当 leader 副本出现故障时,从 follower 副本中重新选举 新的 leader副本对外提供服务。 Kafka通过多副本机制实现了故障的自动转移,当 Kafka集群中某个 broker 失效时仍然能保证服务可用.
6. Kafka的使用场景:
- 日志收集
- 消息系统
- 用户活动跟踪
- 运营指标
- 流式处理
- 事件源