qcon2023广州PPT速览 · 王很水的笔记

ppt在这里 https://www.modb.pro/topic/640977

只有两个感兴趣

https://wanghenshui.github.io/pdf/byconity.pdf

https://wanghenshui.github.io/pdf/antkv.pdf

WiscKey的rocksdb改造工作

AntKV 核心功能

Scan优化

kv分离现状

优化策略，并发prefetch

新的问题

原因

优化策略 Diffkv ATC 21: Differentiated Key-Value Storage Management for Balanced I/O Performance

核心思路

对于中等大小的 KV pairs，对 Value Log Files也进行分层处理，增强局部连续性
- Level N-2 及以下的层级不做重写
- Level N-1 及以上的层级在 Compaction 时重写Value Log Files

针对 Scan 优化的重写：
- Compaction 过程中，对本轮参与的 Value Log Files 进行重叠记数
- 当发现某文件重叠记数超过阈值，则标记相关文件后续进行重写

收益写入降低30% 但scan提升巨大

这种还是要考虑业务来使用，但是这个工作是很亮眼的

借助 Learned Index 优化查询

Learned Index主要是要设计构建算法，这里需要展开一下

因为实际 SST 保存的 key 为 string 类型，非 integer，因此需要进行转换

要求
- 唯一性：不同的 key，转换出来的 key_digest 不能相同
- 保序性：如果 key1 < key2，那么转换后的 key_digest_1 < key_digest_2
问题
- 字符串长度是随机的，并且可能很长

Learned Index非常小，读效率非常高

Learned Index: 生成过程

在构建新的SST过程中，会缓存待写入的所有KV数据，在Finish时进行建模并持久化相关参数。
- 不会在L0构建Learned Index
- 不会对大小在阈值以下的SST进行构建
- 当不满足构建条件时，退化为默认的Binary Index

clickhouse痛点

架构

设计考虑

数据缓存

ByConity事务

中⼼授时服务TSO(TimeStamp Oracle)

说的东西还是非常多的，直接看pdf比我复述直观

https://wanghenshui.github.io/pdf/byconity.pdf