Apache Kafka是分布式发布-订阅消息系统,最初由LinkedIn开发,之后成为Apache项目的一部分。Apache Kafka的创始人之一Jay Kreps最近接受了媒体采访,对Kafka做了深入浅出的分析,包括和其他同类项目的对比、存储原理和格式、实现语言等等。
** Kafka解决了什么问题?**
Kafka是一个数据流的分布式存储系统。它允许你发布或者订阅数据流。它是围绕着一个附加的持续的日志文件的概念建立起来的——发布者把数据添加到这个日志文件中,消费者则订阅它的变化。也许最重要的是,它可扩展性真的很棒,所以像Linkedin或Netflix或Uber这样拥有大量数据的公司也可以用它作为数据流的中央枢纽。
** 为什么RabbitMQ、ActiveMQ等类似开源项目对这个问题不那么管用? **
Kafka有一些与众不同的东西:
它是在现代分布式系统的基础上建立起来的,易于复制、容错和分区。你可以把Kafka想象成是一个cluster,而不是一个各自独立的broker的集合。这会影响到从你如何管理它到程序如何执行的所有事情。
Kafka在保存数据上做得很好。Kafka上的数据常常被保存并可以被重复读取。
Kafka比传统的消息系统都要快,因此它很适合真正的大容量数据流,比如日志记录的使用情况,或者传感器数据的大规模数据流。
Kafka被设计为分布式系统核心原语的上一层来支持其流处理过程。这就是为什么Kafka被如此广泛的同Spark Streaming或Storm一起使用的原因。
** 以哪种类型的结构保存消息,又以什么格式来保存?**
Kafka中的消息或记录只是一个键-值对,这里键和值分别是一些字节的字符串。
Kafka提供了一个抽象的“主题”概念,这个主题被分成一个或多个(通常是很多个)分区,并被分散在一个节点组成的丛簇中。主题是一种记录的反馈。应用向主题公开记录,然后记录的键决定了这些记录应该位于主题的哪个分区。每个分区都在多台机器上复制用于容错。
Kafka提供的一个核心概念(也是其实现过程中使用的数据结构)是写前(write ahead)日志文件。这个日志文件只是一个保存在磁盘上的将要写入到cluster的记录的有序序列。每一个记录都被分配了一个称为偏移量的序列号。该偏移量意味着日志文件中的位置。
一个应用使用分区,可以被想象成拥有一个被偏移量标记的在日志文件上的位置,这意味所有的记录都可以被提前读取,而没有一个被滞后。这个应用控制着位置,可以持续地向前读取,或者一段时间后返回重新读取。
** 如果将消息保存在磁盘中而不是内存中,Kafka如何轻易地处理每秒数以千计的消息呢?**
精心设计!根据我们的观察,并没什么特殊的原因。我们想要的日志文件在线性写入的情况下并不能像底层文件系统那么快。底层文件系统在旋转磁盘上有几百MB/s的速度,在固态磁盘上有GB/s级的速度。为了达到这么个速度,Kafka引入了一个很好的处理办法,它对大的线性写入同时进行很多个小的批量写入。这种批量写入发生在消费者使用时,发生在复制时,也发生在操作系统本身。
我认为底层结构领域的设计在这方面是不同的。应用程序开发者都被警告过过早进行优化的危害,但是对于底层结构,我认为需要在设计阶段就开始考虑性能。造成这个不同的原因是底层结构的基本限制一开始就是知道的,而且通常系统设计不是很灵活,所以如果你开始的时候忽略了性能的话,那就很难在你已有的设计基础上进行返工优化。
** Kafka提供了什么保障?在什么情况下信息可以被丢弃?**
Kafka使得那些写入能够以相同的顺序在N个设备中被复制(N是你选择的复制次数),所以只要其中的一个设备的复制还存在的,你的写入就不会丢失。
与消费者控制他们自己偏移量的方式相结合,这意味着“至少一次”交付模式。
** 你提到了Kafka流,能简单解释一下它是什么以及它为什么有用吗? **
Kafka流是我们正在使用的Kafka的流处理层。它与我们现有的流处理框架有一点不同——它更专注于建立流媒体应用,一种MapReduce的实时版本。
我们将在三月初做一个预发行版。
结合我们在Kafka Connect上所做的工作,我们认为这将使得Kafka成为一个真正吸引人的流数据平台。
** 为什么选择用Java来实现Kafka?有没有想过用使用其它的编程语言? **
我们在JVM语言方面经验丰富,知道可能用它建立一个快速可靠的底层结构——而且它使用起来比C语言或C++更为方便。
** 除了Erlang,还有一些语言像Go和Clojure都在一开始就添加了很好的并发模块和semantics。你是否觉得一个具有优秀并发模块语言对普通的开发者也是很有用,而不仅仅是只对框架实现有用吗?**
在这里我想点评一下网络协议中端对端原理这类东西的命运。基本上你在终端上需要解决并发问题都是在Higher level的,而这会导致Lower-level的原语产生冗余。我看到的现象是每一种语言都试图为多核程序提供内置的原语。但是不像Erlang,我认为它们中的大多数都忽视了分布式计算的问题。
而发生改变的是,现代编程总是在一些在higher level引入了并发模块的框架下进行。整个苹果和安卓的堆栈就是这种框架的例子,它们具有大量的微服务框架,以及像Spark或者Kafka Streams这样的东西。这些higher level的框架能够很好地工作,因为他们可以对环境进行假设,而在语言层上这是不可能的。例如,他们中许多都可以引入了一个模型,这个模型可以同时解决分散在一个计算机的多个CPU上的计算,也可以解决分散在多个计算机上的计算。
** 对于我们这些想要开始学习分布式系统的人,你有什么建议吗?有没有什么书籍、论文或者代码库切实地帮助你你实现和设计了Kafka?**
我认为Martin Kleppman的Designing Data Intensive Applications这本书是一个很好的开始。我只读过其中的部分章节,但它是我见过的关于分布式系统的最容易理解的介绍。遗憾的是,目前12个章节中,只有9个章节是可以得到的,所以我们都要催催他赶紧完成这本书。
还有一本很好的你现在就可以买到的教科书是Introduction to Reliable and Secure Distributed Programming。这本书并不是非常适合学习,但它比其它教科书要好得多,其它教科书太可怕了。虽然分布式系统的研究已经有几十年了,但它却不是真的被广泛使用。它好像形成了一种以与主流应用相脱节而自豪的文化。比如说那本教科书,它用一百多页的篇幅介绍不同的可能的通信原语,谈论它们的性能,却没有涉及到如何将他们与实际的主流网络协议(比如UDP和TCP)连接起来,这让我很不解。
不过好在如今有了数以百计的开源分布式系统可以应用,所以你可以从它们的设计和实现过程中学到很多。