<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

TiDB底層存儲結構LSM樹原理介紹

來源| OSCHINA 社區

作者 | 京東云開發者-京東物流劉家存

隨著數據量的增大，傳統關系型數據庫越來越不能滿足對于海量數據存儲的需求。對于分布式關系型數據庫，我們了解其底層存儲結構是非常重要的。本文將介紹下分布式關系型數據庫 TiDB 所采用的底層存儲結構 LSM 樹的原理。

1 LSM 樹介紹

LSM 樹（Log-Structured-Merge-Tree) 日志結構合并樹由 Patrick O’Neil 等人在論文《The Log-Structured Merge Tree》(https://www.cs.umb.edu/~poneil/lsmtree.pdf) 中提出，它實際上不是一棵樹，而是 2 個或者多個不同層次的樹或類似樹的結構的集合。 LSM 樹的核心特點是利用順序寫來提高寫性能，代價就是會稍微降低讀性能（讀放大），寫入量增大（寫放大）和占用空間增大（空間放大）。 LSM 樹主要被用于 NoSql 數據庫中，如 HBase、RocksDB、LevelDB 等，知名的分布式關系型數據庫 TiDB 的 kv 存儲引擎 TiKV 底層存儲就是用的上面所說的 RocksDB，也就是用的 LSM 樹。

2 LSM 樹算法大概思路

LSM 樹由兩個或多個樹狀的結構組成。
這一節我們以兩個樹狀的結構構成的簡單的雙層 LSM 樹舉例，來簡單說下 LSM 樹大概思路，讓大家對 LSM 樹實現有個整體的認識。原論文中的圖

2.1 數據結構

雙層 LSM 樹有一個較小的層，該層完全駐留在內存中，作為 C0 樹（或 C0 層），以及駐留在磁盤上的較大層，稱為 C1 樹。
盡管 C1 層駐留在磁盤上，但 C1 中經常引用的節點將保留在內存緩沖區中，因此 C1 經常引用的節點也可以被視為內存駐留節點。

2.2 寫入

寫入時，首先將記錄行寫入順序日志文件 WAL 中，然后再將此記錄行的索引項插入到內存駐留的 C0 樹中，然后通過異步任務及時遷移到磁盤上的 C1 樹中。

2.3 讀取

任何搜索索引項將首先在 C0 中查找，在 C0 中未找到，然后再在 C1 中查找。
如果存在崩潰恢復，還需要讀取恢復崩潰前未從磁盤中取出的索引項。

2.4 Compact 過程

將索引條目插入駐留在內存中的 C0 樹的操作沒有 I/O 成本，然而，與磁盤相比，容納 C0 組件的內存容量成本較高，這對其大小施加了限制。達到一定大小后，我們就需要將數據遷移到下一層。
我們需要一種有效的方法將記錄項遷移到駐留在成本較低的磁盤介質上的 C1 樹中。為了實現這一點，當插入達到或接近每一層分配的最大值的閾值大小，將進行一個滾動合并（Compact）過程，用于從 C0 樹中刪除一些連續的記錄項，并將其合并到 C1 中。
Compact 目前有兩種策略，size-tiered 策略，leveled 策略，我們將在下面的內容里詳細介紹這兩種策略。

2.5 崩潰恢復

在 C0 樹中的項遷移到駐留在磁盤上的 C1 樹之前，存在一定的延遲（延遲），為了保證機器崩潰后 C0 樹中的數據不丟失，在生成每個新的歷史記錄行時，首先將用于恢復此插入的日志記錄寫入以常規方式創建的順序日志文件 WAL 中，然后再寫入 C0 中。

3 LSM 樹的組成

LSM 樹有三個重要組成部分，MemTable，Immutable MemTable，SSTable (Sor ted String Table)，如下圖。這張經典圖片來自 Flink PMC 的 Stefan Richter 在 Flink Forward 2018 演講的 PPT 這幾個組成部分分別對應 LSM 樹的不同層次，不同層級間數據轉移見下圖。這節就是介紹 LSM 樹抽象的不同層的樹狀數據結構的某個具體實現方式。

3.1 MemTable

MemTable 是在內存中的數據結構，用于保存最近更新的數據，會按照 Key 有序地組織這些數據。LSM 樹對于具體如何組織有序地組織數據并沒有明確的數據結構定義，例如你可以任意選擇紅黑樹、跳表等數據結構來保證內存中 key 的有序。

3.2 Immutable MemTable

為了使內存數據持久化到磁盤時不阻塞數據的更新操作，在 MemTable 變為 SSTable 中間加了一個 Immutable MemTable。
當 MemTable 達到一定大小后，會轉化成 Immutable MemTable，并加入到 Immutable MemTable 隊列尾部，然后會有任務從 Immutable MemTable 隊列頭部取出 Immutable MemTable 并持久化磁盤里。

3.3 SSTable(Sorted String Table)

有序鍵值對集合，是 LSM 樹組在磁盤中的數據結構。
其文件結構基本思路就是先劃分為數據塊 (類似于 mysql 中的頁)，然后再為數據塊建立索引，索引項放在文件末尾，并用布隆過濾器優化查找。

4 LSM 樹的 Compact 策略

當某層數據量大小達到我們預設的閾值后，我們就會通過 Compact 策略將其轉化到下一層。在介紹 Compact 策略前，我們先想想如果讓我們自己設計 Compact 策略，對于以下幾個問題，我們該如何選擇。

對于某一層的樹，我們用單個文件還是多個文件進行實現？

如果是多個文件，那同一層 SSTable 的 key 范圍是有序還是重合？有序方便讀，重合方便寫。

每層 SSTable 的大小以及不同層之間文件大小是否相等。

每層 SSTable 的數量。如果同一層 key 范圍是重合的，則數量越多，讀的效率越低。

不同的選擇會造成不同的讀寫策略，基于以上 3 個問題，又帶來了 3 個概念：

讀放大：讀取數據時實際讀取的數據量大于真正的數據量。例如在 LSM 樹中可能需要在所有層次的樹中查看當前 key 是否存在。

寫放大：寫入數據時實際寫入的數據量大于真正的數據量。例如在 LSM 樹中寫入時可能觸發 Compact 操作，導致實際寫入的數據量遠大于數據的大小。

空間放大：數據實際占用的磁盤空間比數據的真正大小更多。LSM 樹中同一 key 在不同層次里或者同一層次的不同 SSTable 里可能會重復。

不同的策略實際就是圍繞這三個概念之間做出權衡和取舍，我們主要介紹兩種基本策略：size-tiered 策略和 leveled 策略，這兩個策略對于以上 3 個概念做了不同的取舍。

4.1 size-tiered 策略

4.1.1 算法

size-tiered 策略每層 SSTable 的大小相近。

當每一層 SSTable 的數量達到 N 后，則觸發 Compact 操作合并這些 SSTable，并將合并后的結果寫入到一個更大的 SStable。

新的更大的 SStable 將直接放到下一層 SStable 的隊尾。所以同一層不同 SStable key 范圍重合，查找時要從后向前掃描，且最壞情況下可能會掃描同一層所有 SStable ，這增大了讀放大的問題 (之所以說增大，是因為 LSM 樹不同層之間也有讀放大問題)。

4.1.2 總結

由此可以看出 size-tiered 策略幾個特點：

每層 SSTable 的數量相近。

當層數達到一定數量時，最底層的單個 SSTable 的大小會變得非常大。

不但不同層之間，哪怕同一層不同 SSTable 之間，key 也可能會出現重復?？臻g放大比較嚴重。只有當該層的 SSTable 執行 compact 操作才會消除這些 key 的冗余記錄。

讀操作時，需要同時讀取同一層所有 SSTable ，讀放大嚴重。

4.2 leveled 策略

4.2.1 算法

leveled 策略和 size-tiered 策略不同的是，它限制 SSTable 文件的大小，每一層不同 SSTable 文件 key 范圍不重疊且后面的最小 key 大于前一個文件的最大 key

當每一層 SSTable 的總大小達到閾值 N 后，則觸發 Compact 操作。

首先會隨機選擇一個 SSTable 合并到下層，由于下一層 key 是全局有序的，這就要求 leveled 策略 Compact 操作時需要當前 SSTable 和下一層里和當前 SSTable key 存在范圍重疊的所有 SSTable 進行合并。最壞情況下可能下一層所有 SSTable 都參與合并，這就增大了寫放大問題 (之所以說增大，是因為 LSM 樹不同層之間 Compact 也有寫放大問題)。

4.2.2 總結

由此可以看出 leveled 策略幾個特點：

不會出現非常大的 SSTable 文件。

每一層不同 SSTable 文件 key 范圍不重疊。相對于 size-tiered 策略讀放大更小。

Compact 操作時，需要同時和下一層 SSTable 一起合并，寫放大嚴重。

5 LSM 樹的插入、修改、刪除

從 LSM 樹的名字，Log-Structured-Merge-Tree 日志結構合并樹中我們大概就能知道 LSM 樹的插入、修改、刪除的方法了 —— 順序追加而非修改 (對磁盤操作而言)。

LSM 樹的插入、修改、刪除都是在 L0 層的樹里插入、修改、刪除一條記錄，并記錄記錄項的時間戳，由于只需要取最新的內容即可，所以不需要操作后面層次的樹。

歷史的插入、修改、刪除的記錄會在每次 Compact 操作時被后面的記錄覆蓋。

6 LSM 樹的查找

由于后面的操作會覆蓋前面的操作，所以查找只需從 L0 層往下查，直到查到某個 key 的記錄就可以了，之前的記錄不需要再查了。

對于 size-tiered 策略，同一層 SSTable 需要從后向前遍歷，直到找到符合的索引項。

在查找過程中也會使用其他一些手段進行優化，例如增加緩存、布隆過濾器等。

7 LSM 樹和 B+ 樹的比較

不考慮寫日志等操作，插入、修改、刪除一條記錄 B+ 樹需要先找到數據位置，可能需要多次磁盤 IO；LSM 樹不需要磁盤 IO，單次插入耗時短，所以其寫入的最大吞吐量是高于 B+ 樹的。

LSM 樹后面的 Compact 操作也會操作這條數據幾次，總的寫入量是大于 B+ 樹的，但可以通過將 Compact 操作放到業務低峰時來降低這個劣勢的影響。

查找時， LSM 樹需要遍歷所有層次的樹，查找效率上要低于 B+ 樹，但 LSM 樹寫入時節省的磁盤資源占用，可以一定程度上彌補讀效率上的差距。

8 總結

LSM 樹特點：順序寫入、Compact 操作、讀、寫和空間放大。
LSM 樹適用場景：對于寫操作吞吐量要求很高、讀操作吞吐量要就較高的場景，目前主要在 NoSql 數據庫中用的比較多。

審核編輯：湯梓紅

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

算法

算法

+關注

關注
23

文章
4475

瀏覽量
91197
數據庫

數據庫

+關注

關注
7

文章
3627

瀏覽量
63683
數據結構

數據結構

+關注

關注
3

文章
564

瀏覽量
39952
存儲結構

存儲結構

+關注

關注
0

文章
21

瀏覽量
9683
底層存儲

底層存儲

+關注

關注
0

文章
2

瀏覽量
5364

原文標題：TiDB底層存儲結構LSM樹原理介紹

文章出處：【微信號：OSC開源社區，微信公眾號：OSC開源社區】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

一文了解Linux安全模塊（LSM）

我猜，你讀這篇文章，說明你已經對Linux安全模塊（LSM）有所了解。如果你使用過SELinux或AppArmor，其實就已經用過LSM了。甚至，在你使用的Linux發行版本或Android系統之上，也使用了LSM。

發表于 11-28 09:21 ?5474次閱讀

什么是“紅黑樹”看了就知道

今天我們要說的紅黑樹就是就是一棵非嚴格均衡的二叉樹，均衡二叉樹又是在二叉搜索樹的基礎上增加了自動維持平衡的性質，插入、搜索、刪除的效率都比較高。紅黑

發表于 10-27 17:00

介紹主時鐘樹

什么是時鐘樹下面介紹主時鐘樹二. HSE時鐘 (外部高速時鐘)HSE時鐘無源晶振接線方法三.HSI時鐘 (內部高速...

發表于 08-06 06:11

介紹時鐘樹的構成

RCC是reset clock control的簡稱(即復位和時鐘控制器)，本文將詳細介紹時鐘樹的構成，通過理解時鐘樹我們可以更加的理解STM32的所有時鐘來源和關系。如下圖，是STM32的時鐘

發表于 08-12 07:48

MySQL數據庫索引的底層是怎么實現的

二叉樹，B樹，B+樹這4種數據結構，以及為啥選用B+樹作為mysql數據庫的數據結構。首先看下這

發表于 07-28 15:30

決策樹的生成資料

在本文中，我們將討論一種監督式學習算法。最新一代意法半導體 MEMS 傳感器內置一個基于決策樹分類器的機器學習核心（MLC）。這些產品很容易通過后綴中的 X 來識別（例如，LSM6DSOX）。這種

發表于 09-08 06:50

Hypertable底層存儲結構分析

通過分析Hypertable 的源代碼，描述了CellStore 存儲結構，介紹其讀寫流程，總結了該結構存在的缺陷，并提出了優化思路。優化步驟主要包括：將關鍵字數據進行合并，建立關鍵字

發表于 05-12 16:37 ?27次下載

區塊鏈技術中的六個最底層的數據結構介紹

首先是“數據層”，封裝了底層數據區塊的鏈式結構，以及相關的非對稱公私鑰數據加密技術和時間戳等技術，這是整個區塊鏈技術中最底層的數據結構。這些技術是構建全球金融系統的基礎，數十年的使用證

發表于 05-20 11:36 ?6318次閱讀

一文詳解云存儲結構的模型

在存儲的快速發展過程中，不同的廠商對云存儲提供了不同的結構模型，在這里，我們介紹一個比較有代表性的云存儲

發表于 12-25 11:23 ?3772次閱讀

數據結構LSM tree核心實現講解

LSM tree （log-structured merge-tree）是一種對頻繁寫操作非常友好的數據結構，同時兼顧了查詢效率。LSM tree 是許多 key-value 型或日志型數據庫所依

發表于 09-30 14:19 ?2076次閱讀

TiDB Operator自動化部署運維工具

tidb-operator.zip

發表于 04-28 09:15 ?0次下載

存儲系統中的算法：LSM樹設計原理

通過學習相關資料，我發現 Apache BookKeeper 底層存儲引擎用的是 Facebook 開源的 RocksDB，而 RocksDB 又是基于 Google 開源的 LevelDB 改造的，而 LevelDB 的核心是一個叫做

發表于 11-03 11:32 ?723次閱讀

安全連接 TiDB/Mysql編程案例分析

為了安全起見，Tidb Cloud Serverless Tier 貌似只支持安全連接。

發表于 03-17 09:36 ?277次閱讀

redis的五種數據類型底層數據結構

Redis是一種內存數據存儲系統，支持多種數據結構。這些數據結構不僅可以滿足常見的存儲需求，還能夠通過其底層數據結構提供高效的操作和查詢。以

發表于 11-16 11:18 ?471次閱讀

redis數據結構的底層實現

Redis是一種內存鍵值數據庫，常用于緩存、消息隊列、實時數據分析等場景。它的高性能得益于其精心設計的數據結構和底層實現。本文將詳細介紹Redis常用的數據結構和它們的

發表于 12-05 10:14 ?361次閱讀

OSC開源社區
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 12款開源的低代碼開發平臺
Hot 什么是數據脫敏？常用的脫敏規則有哪些呢？

New 深入理解 Sora 的技術原理
New 深入理解Java 8內存管理機制及故障排查實戰指南

精選推薦
更多

文章

資料

帖子

EMC大揭秘 PCB設計必備指南

凡億PCB
1天前

529 閱讀

華為PCBA檢查規范設計總結

凡億PCB
1天前

620 閱讀

第一批人機戀的“AI前任”已經死了

腦極體
1天前

680 閱讀

手把手教你在orcad中設置CIS元器件數據庫，提高工作效率

硬件花園
1天前

893 閱讀

鴻蒙ArkTS聲明式開發：跨平臺支持列表【組件內容填充方式】

jf_46214456
1天前

490 閱讀

Agilent 34830A, 34832A BenchLi

王偉
2048

5積分

29下載

ADI iCoupler技術大揭秘：隔離式RS-485

guozhixi
621KB

1積分

32下載

TI_針對脈沖負載應用的簡易太陽能電池板最大功率點追蹤解決方案

jfzhangjin
724 KB

免費

36下載

Kinetis微控制器概述與K60硬件最小系統概述

KK
1.28 MB

免費

22下載

ionicons開源圖標集合

江根磊
1.52 MB

2積分

4下載

無線鼠標主板，可以自己照著做嗎？

angel725
1天前

184 閱讀

【Vision Board創客營連載體驗】基于Vision Board的垃圾分類

大菠蘿Alpha
1天前

84 閱讀

【Vision Board創客營連載體驗】使用 Vision Board 做一個 UVC Camera

ouxiaolong
2天前

88 閱讀

【Vision Board創客營連載體驗】TinyMaix進行手寫數字識別

ouxiaolong
2天前

403 閱讀

【Vision Board創客營連載體驗】RA8D1-Vision Board使用7寸屏設置為RGB666大端模式模式成功顯示攝像頭圖案

donatello1996
3天前

374 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看