Apache Kafka源码剖析笔记 · 王很水的笔记

特点

Kafka具有近乎实时性的消息处理能力，即使面对海量消息也能够高效地存储消息和查询消息。
Kafka将消息保存在磁盘中，在其设计理念中并不惧怕磁盘操作，它以顺序读写的方式访问磁盘，从而避免了随机读写磁盘导致的性能瓶颈。
Kafka支持批量读写消息，并且会对消息进行批量压缩，这样既提高了网络的利用率，也提高了压缩效率。
Kafka支持消息分区，每个分区中的消息保证顺序传输，而分区之间则可以并发操作，这样就提高了Kafka的并发能力。
Kafka也支持在线增加分区，支持在线水平扩展。
Kafka支持为每个分区创建多个副本，其中只会有一个Leader副本负责读写，其他副本只负责与 Leader副本进行同步，这种方式提高了数据的容灾能力。Kafka会将Leader副本均匀地分布在集群中的服务器上，实现性能最大化

为什么引入mq中间件，以及，原有方案的弊端

由于子系统之间存在的耦合性，两个存储之间要进行数据交换的话，开发人员就必须了解这两个存储系统的API，不仅是开发成本，就连维护成本也会很高。一旦其中一个子系统发生变化，就可能影响其他多个子系统，这简直就是一场灾难。
在某些应用场景中，数据的顺序性尤为重要，一旦数据出现乱序，就会影响最终的计算结果，降低用户体验，这就提高了开发的难度。
除了考虑数据顺序性的要求，还要考虑数据重传等提高可靠性的机制，毕竟通过网络进行传输并不可靠，可能出现丢失数据的情况。
进行数据交换的两个子系统，无论哪一方宕机，重新上线之后，都应该恢复到之前的传输位置，继续传输。尤其是对于非幂等性的操作，恢复到错误的传输位置，就会导致错误的结果。
随着业务量的增长，系统之间交换的数据量会不断地增长，水平可扩展的数据传输方式就显得尤为重要。

应对的解决方案

中间件解耦
数据持久化
扩展与容灾
- topic，partition，replica
- 多个consumer消费，各自记录消费标签信息，由consumer决定cursor

核心概念

消息
topic/partition/log
- partition offset保证顺序性
- partition 用Log表述，大小有限，可以分节，顺序io追加，不会有性能问题
  - 索引文件稀疏索引内存中定位加速
- 保留策略顺序写总会写满，设置消息保留时间或者总体大小
- 日志压缩类似rocksdb compaction
Broker kafka server概念，接受生产者的消息，分配offset保存到磁盘中
副本（并不是实时同步）
- ISR集合，可用的没有lag太多的可升leader的节点的集合
- HighWatermar LEO，描述可消费的属性
  - ①Producer向此Partition推送消息。
  - ②Leader副本将消息追加到Log中，并递增其LEO。
  - ③Follower副本从Leader副本拉取消息进行同步。
  - ④Follower副本将拉取到的消息更新到本地Log中，并递增其LEO。
  - ⑤当ISR集合中所有副本都完成了对offset=11的消息的同步，Leader副本会递增HW。
  - 在①~⑤步完成之后，offset=11的消息就对生产者可见了。
消费者，消费组、

细心的读者可能会问，为什么GZIP压缩方式会直接使用new创建，而Snappy则使用反射方式呢？这主要是因为GZIP使用的GZIPOutputStream是JDK自带的包，而Snappy则需要引入额外的依赖包，为了在不使用Snappy压缩方式时，减少依赖包，这里使用反射的方式动态创建。这种设计的小技巧，值得读者积累。在Compressor中还提供了wrapForInput()方法，用于创建解压缩输入流，逻辑与wrapForOutput()类似，不再赘述。

生产者KafkaProducer分析

同步还是异步就差在future本身调用不调用get

结构很清晰

KafkaProducer

send()方法：发送消息，实际是将消息放入RecordAccumulator暂存，等待发送。
flush()方法：刷新操作，等待RecordAccumulator中所有消息发送完成，在刷新完成之前会阻塞调用的线程。
partitionsFor()方法：在KafkaProducer中维护了一个Metadata对象用于存储Kafka集群的元数据，Metadata中的元数据会定期更新。partitionsFor()方法负责从Metadata中获取指定Topic中的分区信息。
- topic, verison, timestamp….
close()方法：关闭此Producer对象，主要操作是设置close标志，等待RecordAccumulator中的消息清空，关闭Sender线程

RecordAccumulator

RecordAccumulator中有一个以TopicPartition为key的ConcurrentMap，每个value是ArrayDeque＜RecordBatch＞（ArrayDeque并不是线程安全的集合，后面会详细介绍其加锁处理过程），其中缓存了发往对应TopicPartition的消息。每个RecordBatch拥有一个MemoryRecords对象的引用

（1）Deque中有多个RecordBatch或是第一个RecordBatch是否满了。（2）是否超时了。（3）是否有其他线程在等待BufferPool释放空间（即BufferPool的空间耗尽了）。（4）是否有线程正在等待flush操作完成。（5）Sender线程准备关闭。

BufferPool

有锁。全局分配器

Sender

据RecordAccumulator的缓存情况，筛选出可以向哪些Node节点发送消息，RecordAccumulator.ready()；然后，根据生产者与各个节点的连接情况（由NetworkClient管理），过滤Node节点；之后，生成相应的请求，这里要特别注意的是，每个Node节点只生成一个请求；最后，调用NetWorkClient将请求发送出去

controller

http://www.sirann.cn/blog/kafka-controller-%E6%A8%A1%E5%9D%97%E4%B8%80%E6%A6%82%E8%BF%B0/

删除消息，支持按照offset SO，按照topic来删

支持时间删除和大小删除

痛点

对于单纯运行Kafka的集群而言，首先要注意的就是为Kafka设置合适（不那么大）的JVM堆大小。从上面的分析可知，Kafka的性能与堆内存关系并不大，而对page cache需求巨大。根据经验值，为Kafka分配6~8GB的堆内存就已经足足够用了，将剩下的系统内存都作为page cache空间，可以最大化I/O效率。

另一个需要特别注意的问题是lagging consumer，即那些消费速率慢、明显落后的consumer。它们要读取的数据有较大概率不在broker page cache中，因此会增加很多不必要的读盘操作。比这更坏的是，lagging consumer读取的“冷”数据仍然会进入page cache，污染了多数正常consumer要读取的“热”数据，连带着正常consumer的性能变差。在生产环境中，这个问题尤为重要。

解决方案，调整page cache https://www.jianshu.com/p/92f33aa0ff52

实时消费与延迟消费的作业在 PageCache 层次产生竞争，导致实时消费产生非预期磁盘读。线上存在 20%的延迟消费作业，污染cache

传统 HDD 随着读并发升高性能急剧下降。

解决方案

引入SSD 做cache https://www.infoq.cn/article/k6dqfqqihpjfepl3y3hs
重新设计kafka cache系统 https://www.jiqizhixin.com/articles/2019-07-23-11

优化细节

zero-copy技术

减少甚至避免用户空间和内核空间之间的数据拷贝：在一些场景下，用户进程在数据传输过程中并不需要对数据进行访问和处理，那么数据在 Linux 的 Page Cache 和用户进程的缓冲区之间的传输就完全可以避免，让数据拷贝完全在内核里进行，甚至可以通过更巧妙的方式避免在内核里的数据拷贝。这一类实现一般是通过增加新的系统调用来完成的，比如 Linux 中的 mmap()，sendfile() 以及 splice()

这里用的sendfile