Kafka深入原理(1)-基础知识

1.消息系统

1.1消息系统/消息队列作用

1.应用解耦:多个应用可以通过消息队列来处理消息,应用相互独立,互不影响。


应用解耦示例图

2.异步处理:比串行和并行处理,异步处理可以减少时间,效率更高。


3.流量削峰/数据限流:流量高峰期,可以通过消息队列来控制流量,避免流量过大而导致应用崩溃。


数据限流流程图

4.消息通信:实现点对点消息队列等


通信流程图

1.2消息系统分类

消息系统

1.4各类消息系统


各类消息系统

2.Why Kafka? What Kafka? Where Kafka?

2.1.kafka官方介绍

官网:
http://kafka.apache.org/

官方文档:

http://kafka.apache.org/documentation/#design

http://kafka.apache.org/documentation/#implementation

http://kafka.apache.org/documentation/#operations

 http://kafka.apache.org/documentation/#security

2.2.设计初衷

1.能够应对海量的实时数据 --高吞吐,低延迟

2.需要具备分布式系统的特征 --高可用 水平扩展

2.3.应用场景

应用场景广泛,凡是设计到数据传输、收集、处理的地方都可以使用kafka,也可以这么说凡是大数据实时都可以用kafka

3.kafka架构原理

3.1.架构


基本结构


kafka架构



kafka拓扑图

3.2.kafka核心概念/名词解释

Broker:代理,就是一台kafka节点

Producer:生产者,将数据推送到kafka

Consumer:消费者,从kafka拉取数据进行消费

Consumer Group:消费者组,方便对消费者进行管理

Topic:主题,用来区分消息,方便对不同业务信息进行管理

Partition:分区,跟HDFS的分块类似,目的是为了提供读写效率

Replication:副本,保证数据安全

主副本(leader):某一个主题的某一个分区可以有多个副本,其中有一个主副本,支持读写

从副本(follower):某一个主题的某一个分区可以有多个副本,其中有一个主副本,剩下的都是从副本

注意:从副本负责备份数据,不支持读写,因为读写效率的提高依赖于分区!而且如果要从从副本读数据很难保证数据的一致性

Record:记录 发送/消费的一条消息记录

Offset:通俗理解是消息ID/编号


Segment:日字段/分段


ISR:表示与leader副本保持同步的从副本及本身

4.kafka命令(依赖zookeeper)

4.1.主题管理

1.查看主题详情列表: kafka-topics.sh --zookeeper node:2181 --list

2.查看主题详情:kafka-topics.sh --zookeeper node:2181 --topics test --describe

4.2创建主题

1.注意:支持自动创建(往一个不存在的主题发送数据会自动创建主题,一般不用)和手动创建(可以灵活的指定分配主题的参数如分区/副本数量)

2.注意:partitions 数不固定,几个/几十/几百个/上千都有, replication-factor数一般2-3即可

kafka-topics.sh --zookeeper node1:2181 --create --topics test --partition 3 --replication-factor 2

4.3.删除主题

1.kafka-topics.sh --zookeeper node1:2181 --delete --topic(主题名称)

注意:Note: This will have no impact if delete.topic.enable is not set to true.

4.4.分区与副本管理

==注意==

副本数一般不修改,分区数只能增加:应用场景是:集群扩容的时候偶尔用到! 一般其实都建议在创建主题的时候就预估好数据的规模和集群的大小,不到万不得已不去修改

查看之前的topic的分区数: kafka--topics.sh --zookeeper node1:2181 --describe --topic test

增加分区数:kafka--topics.sh --zookeeper node1:2181 --alter --topic test --partitions 4

4.5.控制台生产者命令

一般用于测试

使用命令向kafka指定主题发送数据,主题如果不存在会自动创建(但一般都是手动创建)

kafka-console-producer.sh --broker-list node1:9092 --topic test

4.6.控制台消费者命令

1.一般用于测试

kafka-console-consumer.sh --bootstrap-server node1:9092  --topic test --from-beginning

--from-beginning 表示从头开始消费

注意:kafka消费只能保证区内有序,但全局无序

也就是说在多分区情况下,发送

1

2

3

4

5

当时消费到的不一定是12345

但如果是单分区可以做的有序,但是没必要,因为Kafka就是通过分区来提高读取效率的!

2.消费者组里面可以有多个消费者,但是同一个主题里面的某一条消息,只能被同一个消费者组里面的一个消费者消费,不能再被同一个组里面的其他消费者消费,但是可以被其他组订阅消费

3.同一个组内消费者数量和分区数的关系

消费者数量 < 分区数: 消费者消费多个分区,压力大,效率低


4.消费者数量=分区数:一个消费者对应一个分区,效率高


5.消费者数量>分区数: 会存在消费者资源浪费,因为某一条消息只能被同一个消费者组里面的一个消费者消费,不能再被同一个组里的其他消费者消费


5.kafka原理加强

5.1生产者流程细节

1.生产者发送信息到kafka集群使用的是推送模式

2.生产者发送信息到kafka需要连接到任意一台kafka节点

3.每一条消息会被封装为一个Record记录对象,里面可以包含主题、分区(可选)、key(可选)、value

4.分区规则:

1)  没有key,用到轮询

2)有key,没有指定的分区用的默认的分区器defaultPartitioner,底层使用hash

3)有key,指定分区,那么就是指定的分区号-----优先级最高

4)可以自定义分区器

补充: key可以作为消息/记录的一个业务上的标识(但不是唯一的,也就是不同的value的key可以重复的)  value才是消息的真正内容

5.分区的作用:

1)提高读写效率

2)便于集群扩容(机器扩容是增加机器同时增加分区数)

3)方便消费者负载均衡(消费者数量==分区数)

6.每一条消息/记录发送到kafka的时候会先到缓冲区,然后以batch的形式发送到kafka,落入磁盘是以顺序写的方式追加到磁盘文件中的.

7.每一条消息写到各个分区之后会有一个消息的唯一标识:offset

offset是区内有序,但是全局无序的(区内有序,区间无序)---kafka消息的局部有序性

5.2.Broker存储流程细节


1.消息到底kafka之后会根据分区规则进入到指定的分区(分区是分散各个节点)

2.分区在物理层面体现就是文件夹

3.分区中又会分为多个segment文件段,每个文件段由.log数据文件和.index索引文件组成

4.查询得时候会根据offset去.index中的索引找到.log中对于的消息位置

5.数据不是一直在kafka中存储,会有删除策略

基于时间: log.retention.hours=168

基于大小: log.retention.bytes=1073741824

6.数据越来越多其实也并不会对kafka的读写效率产生太大的影响,因为

1)写是各个分区顺序写/追加写

2)读是各个分区内根据offset对.index文件进行二分查找Olog(N)

5.3消费者流程细节

1.消费者从kafka中消费信息使用的是拉取模式

2.消费者连接上kafka集群任意一台节点之后,需要指定要订阅的主题或者主题+分区

3.消费从哪个偏移量开始消费,由auto.offset.reset决定

earliest:如果有offset提交记录,就从记录位置开始消费,没有则从最开始的位置开始消费

latest:如果有offset提交记录,就从记录位置开始消费,没有则从最后/新的位置开始消费

none:如果有offset提交记录,就从记录位置开始消费,没有则报错

4.消费者消费数据之后需要提交offset偏移量,可以有如下方式

1)自动提交:按照固定的时间间隔进行提交(提交到默认主题_consumer_offsets)

2)手动提交:按照自定义规则进行提交

3)注意:提交的信息包括:哪个消费者组消费、哪个主题的哪个分区、消费到哪个偏移量了

5.消费者组内可以有多个消费者(如果没有设置消费者组会有默认的消费者组名称,但是建议手动设置,方便维护),某一条消息只可以被同一个消费者组内的一个消费者消费,但可以被其他组的消费者再次消费.

6.消费者组中的消费者数量建议等于分区数.

5.4.kafka原理图解


kafka原理图解

6.kafka运维监控

https://www.cnblogs.com/tree1123/p/11399130.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容