TPC-H
TPC-H是一款面向商品零售業(yè)的決策支持系統(tǒng)測試基準(zhǔn),它定義了8張表,22個查詢,遵循SQL92。TPC-H的數(shù)據(jù)模型如圖4所示。TPC-H基準(zhǔn)的數(shù)據(jù)庫模式遵循第三范式,葉曉俊教授等學(xué)者[6]認(rèn)為“它的數(shù)據(jù)表數(shù)據(jù)特征單一(如數(shù)據(jù)不傾斜) ,其數(shù)據(jù)維護(hù)功能僅僅限制了潛在的對索引的過度使用,而沒有測試DBMS 執(zhí)行真實(shí)數(shù)據(jù)維護(hù)操作——數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL) 功能的能力”。同時,新興的數(shù)據(jù)倉庫開始采用新的模型,如星型模型、雪花模型。TPC-H已經(jīng)不能精準(zhǔn)反映當(dāng)今數(shù)據(jù)庫系統(tǒng)的真實(shí)性能。為此,TPC組織推出了新一代的面向決策應(yīng)用的TPC-DS 基準(zhǔn)。
TPC-DS
TPC-DS采用星型、雪花型等多維數(shù)據(jù)模式。它包含7張事實(shí)表,17張緯度表平均每張表含有18列。其工作負(fù)載包含99個SQL查詢,覆蓋SQL99和2003的核心部分以及OLAP。這個測試集包含對大數(shù)據(jù)集的統(tǒng)計、報表生成、聯(lián)機(jī)查詢、數(shù)據(jù)挖掘等復(fù)雜應(yīng)用,測試用的數(shù)據(jù)和值是有傾斜的,與真實(shí)數(shù)據(jù)一致。可以說TPC-DS是與真實(shí)場景非常接近的一個測試集,也是難度較大的一個測試集。
TPC-DS的這個特點(diǎn)跟大數(shù)據(jù)的分析挖掘應(yīng)用非常類似。Hadoop等大數(shù)據(jù)分析技術(shù)也是對海量數(shù)據(jù)進(jìn)行大規(guī)模的數(shù)據(jù)分析和深度挖掘,也包含交互式聯(lián)機(jī)查詢和統(tǒng)計報表類應(yīng)用,同時大數(shù)據(jù)的數(shù)據(jù)質(zhì)量也較低,數(shù)據(jù)分布是真實(shí)而不均勻的。因此TPC-DS成為客觀衡量多個不同Hadoop版本以及SQL> 一共99個測試案例,遵循SQL'99和SQL 2003的語法標(biāo)準(zhǔn),SQL案例比較復(fù)雜
分析的數(shù)據(jù)量大,并且測試案例是在回答真實(shí)的商業(yè)問題
測試案例中包含各種業(yè)務(wù)模型(如分析報告型,迭代式的聯(lián)機(jī)分析型,數(shù)據(jù)挖掘型等)
幾乎所有的測試案例都有很高的IO負(fù)載和CPU計算需求