kafka
kafka说说它的特性,客户端offset宕机后,同一个topic客户端能不能接上它消费? 不能,只能客户端本地记录offset。
kafka 各个模块概念 kafka 高水位(不会)
17、Kafka 选主怎么做的? 18、kafka 与 rabbitmq区别; 19、kafka 分区怎么同步的? 20、kafka 怎么保证不丢消息的?kafka partition broker consumer consumer group topic 等都是啥关系? 21、kafka 为什么可以扛住这么高的qps?(shopee 虾皮)
2、kafka 的消息的顺序一致性如何保证? 3、kafka 的消息可靠性如何保证? 4、kafka 的 controller 选举和 leader 选举;
4、kafka的架构,如何用kafka保证消息的有序性?(京东)
3、kafka如何保证消息的顺序性(partition分区)(多益大数据)
kafka消费有序原因(字节)
7、kafka特点? 使用场景 ? 8、kafka的分区 ?kafka一个生产者可以把消息发到多个分区吗? 9、kafka消息在磁盘上的组织方式 (字节)
kafka topic partition介绍下 一个 partition对应多少 生产者(不限),对应多少消费者(?)(腾讯PCG)
如果生产者生产的数据量很多,消费者来不及消费这些数据怎么办,kafka的机制(百度)
kafka怎么保证消费成功(字节)
3、Kafka是如何实现高吞吐率的? (1)顺序读写:kafka的消息是不断追加到文件中的,这个特性使kafka可以(2)充分利用磁盘的顺序读写性能 (3)零拷贝:跳过“用户缓冲区”的拷贝,建立一个磁盘空间和内存的直接映射,数据不再复制到“用户态缓冲区” (4)文件分段:kafka的队列topic被分为了多个区partition,每个partition又分为多个段segment,所以一个队列中的消息实际上是保存在N多个片段文件中 (5)批量发送:Kafka允许进行批量发送消息,先将消息缓存在内存中,然后一次请求批量发送出去 (6)数据压缩:Kafka还支持对消息集合进行压缩,Producer可以通过GZIP或Snappy格式对消息集合进行压缩(京东)
6、kafka为什么性能高?(饿了么)
4、kafka如何确保消息不丢失 (YY)
2、kafka生产端怎么实现幂等的 3、kafka如何实现分布式消息 4、kafka的副本同步机制的理解 5、kafka怎么进行消息写入的ack(腾讯)
9、说一下kafka的topic,partition,broker概念 10、kafka的主从选举机制 (字节)
kafka中producer的ack设置 19. kafka中topic和partition和broker的关系 (网易)
kafka的ISR队列 leader选举 kafka的消息重复和丢失怎么解决 zookeeper在kafka中的作用 还讲了下zookeeper底层是怎么实现的 还问了下kafka的应用场景(小米)
Kafka的数据积压和数据倾斜问题(河狸家)
29、是什么原因让你选型了kafka(kafka的特性),问的比较深的会问kafka isr机制,partition的选举
kafka怎么实现数据的分类处理,就是一些数据需要删除一些数据要保存什么的。 kafka遇到什么问题,如果数据过多会有什么问题。(大华)
3、kafka底层的结构有研究吗? redis和kafka这些相互之间怎么通信的?(美团)
5、kafka的高可用是怎么保证的? 6、kafka遇到什么性能瓶颈? 7、了解kafka和其他MQ之间的区别吗?比如说activeMQ。 8、kafka的哪些设计会提高它的性能。(字节)
kafka怎么会有这么高的效率。 kafka怎么保证消息不重复不丢失。
5、kafka的isr和osr。ack有几种值?(快手)
kafka的副本机制 副本是怎么同步消息的? kafka的消费者组你知道吗?他们是怎么消费消息的。怎么找到消息的,消费的是哪一个副本? (京东)
18、对kafka本身有什么了解?kafka的Topic了解吗?原理,topic的结构设计,Topic是个什么东西? 19、消费的是leader分区的还是follwer也可以读? 20、为什么不能读follwer? 21、什么情况会产漏读呢?消费者可能会丢消息。 22、知道ISR队列? 23、一般leader怎么判断follwer挂掉? 24、超时时间一般是多少? 25、kafka通过什么方式学? (跟谁学)
12、kafka的数据是自己生成的吗?有没有尝试自己设置kafka的offset。(58)
kafka为什么高吞吐(猿辅导)
kafka 是如何解决大数据量的问题(高吞吐的原因)?如果不在允许增加分区的情况下,kafka 是如何解决生产者生产大大数量的,怎样防止数据的堆积?(没回答到点上,今天刚看过,其实可以从kafka 的特性上来说) 4、zookeeper 对于 kafka 的作用?4.kafka 的高吞吐是如何实现的?( 有赞)
kafka如果丢数据怎么办 kafka如果生产端并发量很高,broker不能承受,怎么解决这个问题 (B站)
kafka解决两个客户端消费数据的问题 (一点资讯)
12、Flink消费kafka数据时,如果kafka充分区,Fiink会不会受到影响 (贝壳)
7.kafka高吞吐的原因(字节跳动)
9.场景:使用kafka时候发生宕机,重启后怎么从上次消费的地方接着处理?
1.kafka架构 2.kafka如何主副同步 3.kafka的优势 5.kafka生成者客户端有几个线程
9.sparkstreaming直连kafka时,Kafka在某一时刻分区数增加了,下游的spark怎么知道的 10.kafka中消费者组是怎么回事?为什么kafka要设有消费者组?作用是什么 11.kafka中producer,broker,cousumer的关系
8.kafka的消费者组是怎么回事,为什么有消费者组,作用是啥(京东)
12.kafka在消费完之后,提交offset之前,机器挂了,怎么处理 13.如何知道sparkstreaming当前消费到了kafka的哪些分区,以及消费到的offset到哪了
kafka副本机制
kafka的组成部分 说一下消费者组是如何消费数据的 kafka有什么特点?高吞吐量低延迟是怎么实现的,生产者异步提交,顺序写,读写用到零拷贝 一面kafka高吞吐量的原因没说全,让补充说了一下,我说了批提交和消费者组同时进行进行消费,然后还问了一下零拷贝的具体原理 (京东)
介绍一下kafka kafka消息的有序性 场景题:kafka如何保证多次修改一个商品的价格的顺序
kafka: 特点:高吞吐量低延迟 为什么具有这样的特点,零拷贝,顺序写(kafka有用到零拷贝吗?有啊!) 还有什么提高吞吐量的方法?异步生产 coding
kafka底层了解吗;副本机制了解吗 (恒生)
kafka:发消息的流程comsumer group vs partition comsumer rebalance?ISR?消息堆积处理方法? 要么加线程(partitoin) 要么批量成批poll, 事务功能关闭增加partition,consumer数量,consumer用工作线程加阻塞队列来接收,如果是有大量提交失败导致重复消费,需要看一下原因session.timeout.ms(字节)
12.kafka是push还是pull?partition的数据如何保存到硬盘?
5.为什么要用kafka?kafka中的broker是什么?kafka是如何实现分区的?
kafka如何防止消息重复消费等,以及消息丢失问题
3.如何保证消息队列的高可用啊?如何保证消息不被重复消费啊? 4.kafka,activemq,rabbitmq,rocketmq都有什么优点,缺点啊? 5.如果让你写一个消息队列,该如何进行架构设计啊?
kafka如何保证高吞吐
问到kafka的事务 kafka的消息恢复机制
kafka如何保证消息可靠性? 重复发送,数据落地,确认信号 push和pull有什么区别?
kafka的工作机制,消息获取是拉还是推的
kafka 消息队列的使用场景 kafka如何保证消息投递的可靠性
9 为什么用kafka,kafka怎么实现的高可用 10 kafka怎么处理丢消息; 11 kafka怎么保证幂等; 12 kafka怎么保证只有一个消费者消费; 13 消息队列有哪些应用场景
7、kafka的消费者,如何保证不消费到重复的数据?通过提交offset,并保证数据的幂等性。通常可以怎么做?保存在redis和Mysql有什么区别?如果有一条offset对应的数据,消费完成之后,手动提交失败,如何处理?回滚,利用Kafka的事务解决。介绍下Kafka的事务。
5.kafka消息消费容错机制; (人人)
2.为什么kafka需要集群,估计kafka吞吐量多少 (票牛网)
kafka的replicas的作用,为什么比其他的消息队列好。(菜鸟)
项目中你用过消息队列,为什么要用消息队列呢?-----------说白了就是业务场景,顺便考察了面试者的开发项目经验。 如果项目中用了消息队列,会有哪些优点和缺点呢?(结合自己的实际项目把不用消息队列时的耦合扩展成本太高、同步时效太长、并发造成的请求压力……详细介绍下,主要还是项目中的实践)会有哪些项目中遇到的坑,如何避免这些坑?(MQ属于第三方的一个产品,引入系统中当然会增加业务逻辑对该产品的依赖,而且提防这个MQ产品挂掉,提防MQ重复发送,丢失消息,或者由于内部某个线程延时导致消息顺序紊乱,) 你接触的消息队列产品有哪些?它们有什么异同之处?---------RocketMQ、RabbitMQ、activeMQ、kafka……这应该是有不同的吞吐量,说实话不清楚它们具体的异同,我只用过一种。。。。。自己有兴趣自己查吧 如何保证消息队列的高可用?------聊集群相关的应用场景,本来消息队列就是为了大规模数据请求引入的一个第三方产品,单机版的岂不是画蛇添足? 消息队列重复消费情况------对于kafka会有一个消息编号,专业术语offset。消费者按照编号顺序消费队列,并且定时上交消费记录,如果出现消费者宕机则重启以后依照offset编号继续。如果消息队列的offset没有提交消费者已经消费的消息,那么消费者重启后就产生重复消费。 如何保证消息队列的幂等性---------前面挖的坑,既然有了重复消息,那就得去重解决呀。把接收到的消息先查询一下已写入的库,如果不存在那就消费。相当于在数据库写入之前做一个查询验证。 消息队列丢失消息的可能性------------生产者弄丢了(消息MQ开启事务监控MQ是否受到消息但由于同步阻塞原因性能比较低,还有一种属于异步回调机制效率比较高……)、MQ宕机弄丢了(消息队列开启的持久化……创建持久化和发送时的设置持久化缺一不可),消费者消费时弄丢(消息队列的ack机制……)。 消息队列的顺序性如何保证? 消息队列的延时以及过期失效? 消息队列存满了,而有上百万的消息持续积压问题------硬件扩容,多加几台机器消费消息。 如何设计一个消息队列架构呢?说说你的看法?---------把消息队列就看作一个假设在数据库和客户端请求中间的一个中间件,这个中间件接受来自成千上万的客户端请求,然后将请求落地到数据库中。而且实现这个消息队列架构要考虑扩展(加物理机分布式架构),安全(顺序和丢失问题,那就为队列消息编号)
4.kafka一致性原理 消费时的消息丢失和重复如何解决(蚂蚁)
11.kafka如何保证不丢消息又不会重复消费。 (paypal)
简单说一下RabbitMQ的工作原理?如何保证消息的顺序执行?Kafka了解吗?和RabbitMQ有什么区别?你为啥不用kafka来做,当时怎么考虑的? (拼多多)
你了解哪些消息中间件?--------既然引入了消息队列,那肯定要对市面上的一些中间件进行调研……并发量、维护周期、定制功能(kafka日志采集功能)…… 你们公司的生产环境用的是什么中间件?引入中间件的意义?------结合项目来说……解耦、异步、削峰…… 使用消息队列会有哪些缺点?-----可用性上消息队列的宕机、以及消息中间件导致的消息丢失、数据一致、数据重复、数据顺序……一系列新问题。 既然有了问题,那如何规避和解决上述问题呢?--------高可用方面,Master和Slave的***;数据重复消费,数据库的唯一主键……;数据丢失,区分生产者丢失和消息队列丢失以及消费者丢失数据……(TCL)
kafka如何保证不丢消息又不会重复消费。(美团)
kafka如何保证可靠,高可用,幂等(shopee)
kafka的原理?怎么保证消息不丢失? (拼多多)
kafka怎么保证消息的顺序性?(百度)
kafka(项目用到)的东西:kafka如何保证可靠性,kafka的主从机制描述下,ISR解释下,消费者的配置情况。(字节)
2、kafka怎么保证数据的exactlyonce? 3、offset你们公司如何维护的?为什么不放在mysql? 4、kafka可以保证数据的局部有序,如何保证全局有序的? 5、介绍一下kafka的事务。(360)
3、Kafka中是怎么体现消息顺序性的? kafka每个partition中的消息在写入时都是有序的,消费时,每个partition只能被每一个group中的一个消费者消费,保证了消费时也是有序的。 整个topic不保证有序。如果为了保证topic整个有序,那么将partition调整为1. (微众银行)
7、kafka的消费者,如何保证不消费到重复的数据?通过提交offset,并保证数据的幂等性。通常可以怎么做?保存在redis和Mysql有什么区别?如果有一条offset对应的数据,消费完成之后,手动提交失败,如何处理?回滚,利用Kafka的事务解决。介绍下Kafka的事务。
为什么用kafka,kafka怎么实现的高可用 10 kafka怎么处理丢消息; 11 kafka怎么保证幂等; 12 kafka怎么保证只有一个消费者消费; 13 消息队列有哪些应用场景;
欢迎关注和点赞,以及总结的分类面试题https://github.com/zhendiao/JavaInterview