9月1日,由工業(yè)和信息化部指導(dǎo),中國信息通信研究院、中國通信標(biāo)準(zhǔn)化協(xié)會主辦,數(shù)據(jù)中心聯(lián)盟承辦的“2016可信云大會”在京隆重召開。在9月2日下午的大數(shù)據(jù)分論壇上,中國信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所大數(shù)據(jù)產(chǎn)品認(rèn)證負(fù)責(zé)人姜春宇發(fā)表了題為《第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證情況綜述》的演講。
中國信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所大數(shù)據(jù)產(chǎn)品認(rèn)證負(fù)責(zé)人 姜春宇
以下是演講實(shí)錄:
今年是第二次站在這里,我們今年測評的節(jié)奏比較快一些,三四月份完成了一批,六七八又完成了第三期,今年還會完成第四期。大數(shù)據(jù)發(fā)展的節(jié)奏比較快,所以我們的認(rèn)證和測算也是在不斷的摸索和前進(jìn)的過程。我是來自中國信息通信研究院的姜春宇,很榮幸給大家介紹第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證的情況。
主要兩個(gè)部分,一個(gè)是認(rèn)證情況的介紹,第二部分是我們的總結(jié)和下一步的計(jì)劃。
首先,我們回顧一下大數(shù)據(jù)產(chǎn)品能力認(rèn)證的歷程。去年6到8月份了第一批,是華為,移動(dòng),星環(huán),中興,ucloud5家企業(yè),今年Hadoop,,Spark數(shù)據(jù)基礎(chǔ)能力認(rèn)證是6家企業(yè),現(xiàn)在是大數(shù)據(jù)基礎(chǔ)能力和性能專項(xiàng)6家企業(yè),第四批是數(shù)據(jù)庫基礎(chǔ)能力和性能認(rèn)證,是今年年底。
這是第三批大數(shù)據(jù)產(chǎn)品能力認(rèn)證的評測對象和指標(biāo),分為基礎(chǔ)能力,性能專項(xiàng),基礎(chǔ)能力有七個(gè)維度,性能專項(xiàng)有四大任務(wù)。6到8月份我們看到了6家廠商參與了,其中國雙科技參與基礎(chǔ)能力認(rèn)證,華為,華三,騰訊云,星環(huán),百分點(diǎn)等5家參與了商用版。
我們看基礎(chǔ)能力認(rèn)證體系,三四月份公布過,這樣的變化不是特別大,以七大項(xiàng),其中黃色的是可選,其它的是必測。第四批的評估體系有稍微的修改,但是不會太大,認(rèn)證的流程,這邊是認(rèn)證的流程,這邊是評審的流程。認(rèn)證的話,首先是報(bào)名,其次是我們的審核材料,測試專家去現(xiàn)場審核,給出一個(gè)測試的結(jié)論,引入企業(yè)的互評,最后是對評審?fù)ㄟ^的一些企業(yè)和產(chǎn)品我們頒發(fā)通過的證書,具體的評審流程在右邊,基礎(chǔ)能力的審核方法從五個(gè)方面,包括軟件的版本。這是這批通過大數(shù)據(jù)產(chǎn)品能力認(rèn)證的兩家產(chǎn)品,這是兩個(gè)廠商的完成情況,百分點(diǎn)完成了28項(xiàng)預(yù)測和10項(xiàng)選側(cè),國雙也是一樣。今年第二批的時(shí)候我們會看到一些廠商還沒有完全完成選測,但是現(xiàn)在來看,這兩家的完成度都非常高,這說明我們的標(biāo)準(zhǔn)技術(shù)的牽引已經(jīng)起到了作用。
另外,我們觀察到,根據(jù)自己的業(yè)務(wù)的不同,廠商的產(chǎn)品呈現(xiàn)出一些特點(diǎn),比如說百分點(diǎn)趨向數(shù)據(jù)流管理數(shù)據(jù)。國雙更偏向云計(jì)算,可視化數(shù)據(jù)流降低平臺的管理成本和門檻。數(shù)據(jù)管理的話,你會用到不同的數(shù)據(jù)架構(gòu),數(shù)據(jù)的管理非常重要。
非常重要的一點(diǎn),流計(jì)算也是用戶用的比較多的。一些分析平臺,為機(jī)器學(xué)習(xí),深度學(xué)習(xí),分析平臺,這也是未來的方向。包括一些與云計(jì)算融合的趨勢,也是在加劇。市還有性能專項(xiàng),有SQL,NOSQL,機(jī)器學(xué)習(xí),MR任務(wù)。在SQL任務(wù)方面,我們選了5個(gè)query,是從負(fù)載的代表性上,報(bào)表任務(wù),交互類任務(wù),我們跟這些標(biāo)準(zhǔn)的廠商是一起選擇的,nosql,我們選擇HBase工具,也是因?yàn)闇y試周期有限,95%的讀,5%的寫,還有50%的讀和50%的寫,還有讀、更改、寫。MR任務(wù),我們選了terasort,我們一直以來堅(jiān)持的標(biāo)準(zhǔn)是1TB的數(shù)據(jù)量。機(jī)器學(xué)習(xí)我們選擇了Kmeans和貝葉斯。數(shù)據(jù)規(guī)模,下一步可以承載30TB的能力,是也17個(gè)維度表,7個(gè)事實(shí)表構(gòu)成的,本次5嗯個(gè)語句,涉及了13個(gè)表,這是SQL任務(wù)。HBase是和去年一樣的,是2億條數(shù)據(jù),從十個(gè)客戶端,每個(gè)客戶端2億條數(shù)據(jù),這樣的話,大概一條數(shù)據(jù)是1KB的大小,十個(gè)客戶端接近2TB。terasrot是29TB,機(jī)器學(xué)習(xí)的負(fù)載是中科院的數(shù)據(jù)。
測試環(huán)境,去年是22臺戴爾R7300服務(wù)器,今年又買了10臺聯(lián)想R450服務(wù)器。審核方式與步驟,可以看到性能的測試比功能的測試要嚴(yán)格很多,因?yàn)樯婕暗降狞c(diǎn)比較多,也比較敏感。審核方法和步驟,測前檢查輸入檢查,過程檢查和結(jié)果檢查,文化留存。非常仔細(xì)和詳細(xì)的,我們爭取做到了在評審的時(shí)候,如果有質(zhì)疑,我們所有的結(jié)果都可以復(fù)寫的原則。
具體的審核,可以看到數(shù)據(jù)大小,表的檢查,表行的最高語句,表和列的內(nèi)容檢查,包括執(zhí)行語句要進(jìn)行一些對比,我們要清空緩存。