IndexR架構(gòu)介紹
系統(tǒng)結(jié)構(gòu)
IndexR參考和使用了很多優(yōu)秀的開源產(chǎn)品,充分發(fā)揮了各個組件的優(yōu)勢,并填補了缺失的模塊,組成一個非常簡潔、可靠、高效的數(shù)據(jù)庫系統(tǒng)。
IndexR系統(tǒng)主要涉及幾個組件
IndexR - 負責文件存儲格式,包括索引和數(shù)據(jù),數(shù)據(jù)的實時導入、表定義操作,查詢優(yōu)化,以及數(shù)據(jù)緩存等。
分布式計算框架(Drill/Spark)-負責在IndexR數(shù)據(jù)上的具體查詢操作,以及其他計算任務。
Hadoop以及周邊工具 - 提供分布式文件存儲,離線批量計算,離線數(shù)據(jù)管理,以及各種離線ETL任務。IndexR與Hadoop完美結(jié)合,可以作為一個高度壓縮、自帶索引的文件格式,兼容Hive的所有操作。
Kafka - 消息隊列,數(shù)據(jù)經(jīng)過kafka流入IndexR。
Zookeeper - 集群狀態(tài)管理。

部署架構(gòu)
IndexR數(shù)據(jù)庫系統(tǒng)部署非常簡單,沒有復雜依賴,沒有難以理解的不同類型的節(jié)點,如果你已經(jīng)擁有一個Hadoop系統(tǒng),即使沒有任何經(jīng)驗,在現(xiàn)有集群上部署IndexR通??梢栽诎胄r之內(nèi)完成。只需要在所有Hadoop的DataNode(和NameNode)節(jié)點上部署一份帶有IndexR插件的Drill節(jié)點,只有幾項必須配置項,并且所有節(jié)點的配置都是一樣的。
IndexR的服務邏輯嵌入了Drillbit進程,無需額外啟動服務。

存儲結(jié)構(gòu)
IndexR以列式存儲數(shù)據(jù),并分片存儲,分片稱為Segment,每一個Segment都是自解釋的,包括Schema,數(shù)據(jù)以及索引。Segment通常是固定不變的,這極大簡化了數(shù)據(jù)管理,便于分布式處理。
實時模塊
IndexR的一大特點是可以極高效率的導入實時數(shù)據(jù),并且數(shù)據(jù)可以立刻被查詢,可以多節(jié)點同時導入。
實時導入的數(shù)據(jù)叫做Realtime Segment,在達到一定閥值后,IndexR會將它們合并成歷史Segment,并上傳到HDFS,之后數(shù)據(jù)就可以被離線分析工具所使用和管理。

Realtime Segment具體實現(xiàn)參考了 LSM-Tree。通過在磁盤上的commitlog文件保存所有更新操作,最新數(shù)據(jù)放在內(nèi)存中以快速入庫和索引,周期性將內(nèi)存數(shù)據(jù)dump到磁盤。IndexR進程可以隨時被重啟,或者直接殺死,不用擔心數(shù)據(jù)丟失。

性能標準
測試硬件標準:每個節(jié)點 12核(24線程)CPU, 60G內(nèi)存, SATA接口7200轉(zhuǎn)機械硬盤。
實時導入速度- 超過 30K 消息/秒/節(jié)點/表。即,假如有10個節(jié)點,每個節(jié)點擁有10個表,可以在一秒鐘之內(nèi)消費3M條消息。一天輕松實時導入千億數(shù)據(jù)。
掃描速度- 通常一行內(nèi)通常會讀取多個字段,在現(xiàn)代CPU和計算框架的幫助下,可以同時對多個字段進行運算,從而獲得比以下數(shù)據(jù)更好的性能。
冷數(shù)據(jù) - 30M字段/秒/節(jié)點。
熱數(shù)據(jù) - 100M字段/秒/節(jié)點。
掃描速度約為Parquet的2.5倍。
OLAP查詢- 在我們的實際業(yè)務中,我們發(fā)現(xiàn)95%的查詢延時在3s內(nèi),數(shù)據(jù)量規(guī)模為千億級別,20個節(jié)點。
相同的Drill環(huán)境下約為Parquet格式的3~8倍。
壓縮率- 在我們的實際業(yè)務中,相對于CSV格式,壓縮率約為10:1,有些表甚至達到20:1。
壓縮后大小約為ORC格式的75%。
關(guān)于作者
筆者(Flow Wei)目前任職于舜飛科技數(shù)據(jù)中心部門,主要負責數(shù)據(jù)平臺建設,主導開發(fā)了IndexR項目。
近幾年數(shù)字營銷以及相關(guān)行業(yè)在國內(nèi)可謂發(fā)展迅速,包括各種PC、移動媒體,各大 ADX,DSP,SSP,DMP,以及網(wǎng)站和APP監(jiān)控平臺,深刻的影響著廣告主的宣傳策略和消費者的消費體驗,精準、高效、低成本的營銷方式越來越獲得市場的認可,特別是品牌廣告主的大力支持使得這個領(lǐng)域顯得熱鬧非凡。 舜飛科技 作為國內(nèi)頂級的DSP服務提供商,擁有覆蓋全行業(yè)的產(chǎn)品線,發(fā)展迅速,技術(shù)主導,成績斐然。
目前公司發(fā)展迅速,高級數(shù)據(jù)開發(fā),數(shù)據(jù)分析、挖掘,平臺架構(gòu),高性能服務器等職位虛位以待。我們青睞對自身領(lǐng)域有深入了解,有強烈求知欲,喜歡正面解決問題的你??彀l(fā)送簡歷至 [email protected] ,使用暗號IndexR可走快速通道哦。