MQ-Kafka1-初识Kafka

Kafka一个采用Scala语言(0.9.0版本有java版本)开发的多分区、多副本且基于ZooKeeper协调的分布式消息系统,主要作用有:

  1. 消息系统:Kafka除了传统的消息中间件都有的系统解耦、流量削峰、异步通信的功能功能,还提供了消息顺序性消费保障和回溯消费的功能
  2. 存储系统:Kafka可以将消息持久化到磁盘。通过Kafka的消息持久化功能和多副本机制,可以将Kafka做长期的存储系统使用(数据可以"永久"保存、以及 主题日志压缩)
  3. 流式处理平台:Kafka不仅为流式处理框架提供可靠的数据来源,还提供了一个完整的流式处理类库,比如窗口、链接、变换和聚合等操作

基本概念

一个典型的Kafka系统架构

image-20220101170827619
  1. Producer:生产者,也就是消息发送方。负责创建消息,并将其投递给Kafka
  2. Broker: 服务代理节点。对于Kafka而言,Broker可以简单地看做一个独立的Kafka服务节点或Kafka服务实例。一个或多个Broker组成一个Kafka集群
  3. Consumer:消费者,消息接收方。消费者连接到Kafka上并接收消息,进行相关的业务处理
  4. Zookeeper:负责集群元数据的管理、控制器的选举等操作

主题与分区

  1. 主题(Topic):主题是一个逻辑概念,Kafka的消息以主题为单位进行归类,生产者负责讲消息发送到特定的主题(发送到kafka集群中的每一条消息都要指定一个主题),而消费者负责订阅主题并进行消费
  2. 分区(Partition): 每个主题可以分为多个分区,一个分区只属于单个主题,也叫主题分区(Tppic-Partition)。分区在存储层面可以看作是一个可追加的日志(Log)文件,消息被追加到分区日志文件的时候都会分配一个特定的偏移量(offset)。offset是消息在分区中的唯一标识Kafka通过 offset 来保证消息在分区的顺序性。不过offset并不跨分区,也就是说,Kafka保证的是分区有序而不是主题有序

如下图,主题有四个分区,消息被顺序追加到每个分区日志文件的尾部

image-20220101172103615

Kafka中的分区可以分布在不同的服务器(broker)上,也就是说,一个主题可以横跨多个broker。以此来提供比单个broker更强大的性能。

创建主题时候可以通过指定参数来设置主题的分区个数;也可以在创建完成之后去修改分区的数量,实现水平拓展

每一个消息被发送到broker之前,会根据分区规则选择存储到哪个具体的分区

问题1:分区规则是什么?? TODO

分区容灾

Kafka分区引入了多副本(Replica)机制,同一个分区的不同副本中保存的是相同的消息(在同一时刻,副本之间并非完全相同),副本之间是"一主多从"的关系,其中leader副本负责处理读写请求,follwer副本只负责与leader副本进行消息同步。

  1. 通过设置副本因子来指定分区的副本数量

  2. follower 不支持读请求吗?

    生产者与消费者只与leader副本进行交互,follower副本只负责消息的同步

image-20220101173321132

容灾概念:

AR(Assigned Replicas): 分区中的所有副本统称

ISR(In-Sync Replicas): 所有与Leader副本保持一定程度同步的副本(包括leader副本在内)组成

OSR(Out-of-Sync Replicas): 与leader副本同步滞后过多的副本(不包括leader副本)组成

一定程度可以通过参数控制

leader副本负责维护和跟踪ISR集合中所有follower副本的滞后状态,当follower副本落后太多或失效时,leader副本会把它从ISR集合中剔除,如果OSR 集合中有follower 副本"追上"了leader 副本,那么leader 副本会把它从OSR 集合转移至ISR 集合

默认情况下,当leader副本出现故障,只有在ISR集合中的副本才有资格被选举为新的leader

以上选举规则也是可以修改的

问题1:如果所有副本都处于OSR怎么办 TODO

消息拉取

HW(High Watermark):高水位,标识一个特定的消息偏移量(offset),消费者智能拉取到这个offset之前的消息

LEO(Log End Offset)的缩写,标识当前日志文件中下一条待写入消息的offset

image-20220101174529748

上图代表一个日志文件,这个日志文件中有9条消息,第一条消息的offset(LogStartOffset)为0,最后一条消息的offset为8,offset为9的消息用虚线框表示,代表下一条待写入的消息。日志文件的HW为6,表示消费者只能拉取到offset在0-5之间的消息,而offset为6的消息对消费者而言是不可见的。

分区ISR集合中的每个副本都会维护自身的LEO,而ISR集合中最小的LEO即为分区的HW,对消费者而言只能消费HW之前的消息

注意上图所示 HW 为5 ,LEO 为 9

消费者容灾

Consumer使用拉(Pull)模式从服务端拉取消息,并且保存消费的具体位置,当消费者宕机后恢复上线时,可以根据之前保存的消费者位置重新拉取需要的消息进行消费,保证消息不会丢失

参考链接

  1. 《深入理解Kafka核心设计与实践原理》