在一系列針對(duì)大數(shù)據(jù)提出建議的文章中,IDG集團(tuán)PCWorld記者Joab Jackson所寫的《大數(shù)據(jù),CIO應(yīng)該知道的五件事》我認(rèn)為絕對(duì)是最好的一篇。他提出的五點(diǎn)建議在我們與客戶的交談中幾乎每次都會(huì)被提到:
1、大數(shù)據(jù)的入門成本相對(duì)較低。我們現(xiàn)在看到的大數(shù)據(jù)的入門成本,至少按照CapEx的觀點(diǎn),這個(gè)成本是相當(dāng)?shù)偷?。諸如Hadoop、Cassandra、MongoDB、MapReduce和其他開源工具,再加上相對(duì)低廉的云計(jì)算成本,讓組織可以不必花費(fèi)巨大的成本便可去收集、儲(chǔ)存和分析其數(shù)據(jù)集合了。
2、有用的數(shù)據(jù)可來自任何地方。一度曾經(jīng)被“丟棄在地”的數(shù)據(jù)如今是給大數(shù)據(jù)分類的一種方法,Gazzang CEO Larry Warnock將大數(shù)據(jù)比作撒向數(shù)據(jù)海洋的巨大漁網(wǎng)??蛻魝兂30芽蛻艚灰讱v史、地理位置和某些個(gè)人識(shí)別信息如醫(yī)療記錄及銀行賬號(hào)等的總和視為大數(shù)據(jù)。如何使用這些看似孤立的數(shù)據(jù)碎片來提升業(yè)務(wù),或者推進(jìn)某個(gè)項(xiàng)目,正是大數(shù)據(jù)要做的事情。
3、需要有新的大數(shù)據(jù)專業(yè)人才。大數(shù)據(jù)會(huì)成為下一個(gè)增長性行業(yè)嗎?我們希望如此,而且確信如此。
4、大數(shù)據(jù)不需要組織事先積累。我們把大數(shù)據(jù)比喻為一個(gè)“垃圾丟棄場”。我們已將大數(shù)據(jù)比作被丟棄在地的無用資料、打撈數(shù)據(jù)碎片的漁網(wǎng)和垃圾丟棄場。如果說大數(shù)據(jù)還是個(gè)嬰兒,那他也是個(gè)正在治療中的孩子。
但無論如何有一點(diǎn)是對(duì)的。大數(shù)據(jù)既能讓我們攝取任何想要的東西,又會(huì)讓我們擔(dān)憂這么龐大的數(shù)據(jù)今后如何使用。
5、大數(shù)據(jù)不只是Hadoop。如今已有不少實(shí)際流行的開源工具可幫助你分析海量的數(shù)據(jù)。Joab提到的工具有Splunk、HPCC系統(tǒng)和MarkLogic。也有用戶在使用MongoDB、Infochimps的Ironfan,以及用于云基礎(chǔ)設(shè)施自動(dòng)化的Chef等等。不久后,Gazzang還會(huì)給市場帶來一款新的大數(shù)據(jù)監(jiān)控和診斷工具——zOps。
最后,我還想給Joab的五點(diǎn)建議再增加第六點(diǎn)。
6、開始之前必須考慮安全。我們常常聽說,在大數(shù)據(jù)環(huán)境中,企業(yè)會(huì)任由數(shù)據(jù)處于未受保護(hù)的狀態(tài),例如用戶名和密碼、信用卡數(shù)據(jù)或醫(yī)療數(shù)據(jù)等都處于可能被暴露的風(fēng)險(xiǎn)中。幸運(yùn)的是,到目前為止,這種風(fēng)險(xiǎn)尚未傷及到誰(就我們所知而言),但這可能只是個(gè)時(shí)間問題而已。
如何把安全納入現(xiàn)有的大數(shù)據(jù)集群將是一個(gè)挑戰(zhàn)。大數(shù)據(jù)集群可能包含數(shù)千個(gè)節(jié)點(diǎn)。理解數(shù)據(jù)是如何收集的,哪些數(shù)據(jù)值得保護(hù)等等,都需要花費(fèi)時(shí)間。
數(shù)據(jù)加密及密鑰管理可以作為防范未授權(quán)訪問或攻擊的最后一道防線。其成本相對(duì)便宜,而且也不會(huì)顯著地影響到大數(shù)據(jù)的性能或可用性。所以我們對(duì)客戶提出的忠告是,如果你認(rèn)為企業(yè)環(huán)境中有某些敏感數(shù)據(jù),那么首先必須保障其安全。(波波編譯)
?。ū疚淖髡咴诖鳡?、AMD和BMC等著名企業(yè)工作過多年,現(xiàn)在新創(chuàng)企業(yè)Gazzang負(fù)責(zé)產(chǎn)品市場營銷,重點(diǎn)關(guān)注大數(shù)據(jù)安全。)