概述
隨著開源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技術(shù)的商用化,大數(shù)據(jù)管理技術(shù)得到了突飛猛進(jìn)的發(fā)展。一般來說,大數(shù)據(jù)具有3V特性,即Volume(海量)、Velocity(高速)和Variety(多樣)[1]。TPC聯(lián)合主席、Cisco高級工程師Raghunath Nambiar進(jìn)一步認(rèn)為大數(shù)據(jù)還面臨Value(價值)和Veracity(精確)的挑戰(zhàn)。如何客觀地比較不同數(shù)據(jù)管理系統(tǒng),即大數(shù)據(jù)測試基準(zhǔn)的選擇,成為一個重要的研究課題。
事務(wù)性能管理委員會(TPC)是目前最知名的數(shù)據(jù)管理系統(tǒng)評測基準(zhǔn)標(biāo)準(zhǔn)化組織。在過去二十多年間,該機構(gòu)發(fā)布了多款數(shù)據(jù)庫評測基準(zhǔn),如TPC-A、TPC-D、TPC-H和TPC-DS,在業(yè)界得到了廣泛應(yīng)用[2]。BigBench和BigFrame是對TPC-DS進(jìn)行多樣化的數(shù)據(jù)擴充的測試基準(zhǔn)。近年來,Apache開源社區(qū)針對Map/reduce架構(gòu)開發(fā)了多款性能測試用例,如TestDFSIO、teraSort。國內(nèi)對大數(shù)據(jù)測試基準(zhǔn)的研究起步較晚,尚未建立起權(quán)威的測試基準(zhǔn)。目前由中國信息通信研究院牽頭,聯(lián)合中科院計算所及國內(nèi)外知名公司和機構(gòu)共同制定的大數(shù)據(jù)測試基準(zhǔn)正在金羅密布的測試中[3]。
為了方便企業(yè)選擇合適的大數(shù)據(jù)測試基準(zhǔn),本文將在分析總結(jié)現(xiàn)有成果的基礎(chǔ),進(jìn)一步討論大數(shù)據(jù)測試基準(zhǔn)應(yīng)該具有的要素;并以此為基礎(chǔ),對比現(xiàn)有的大數(shù)據(jù)測試基準(zhǔn);然后重點討論TPC-DS測試基準(zhǔn)。
大數(shù)據(jù)測試基準(zhǔn)的選擇
企業(yè)在選擇大數(shù)據(jù)測試基準(zhǔn)時,首先應(yīng)考慮基準(zhǔn)與其自身業(yè)務(wù)的相關(guān)性。
與其自身業(yè)務(wù)的相關(guān)性
它主要描述測試基準(zhǔn)設(shè)定的應(yīng)用場景是否與企業(yè)的實際業(yè)務(wù)場景類似,如基于社交網(wǎng)絡(luò)應(yīng)用的評測基準(zhǔn)與銀行系統(tǒng)的應(yīng)用場景就沒有什么相關(guān)性。不相關(guān)的基準(zhǔn),測試結(jié)果再好,也沒有實際意義。相關(guān)性還要考慮測試基準(zhǔn)所采用的數(shù)據(jù)模型是否代表數(shù)據(jù)倉庫的發(fā)展方向,如基于星型模型的開發(fā)要比基于傳統(tǒng)的關(guān)系模型開發(fā)更加有效。