相比之下,傳統(tǒng)系統(tǒng)需要一臺非常大型而昂貴的服務(wù)器,配置足夠強勁的計算能力,以及一臺同樣代價高昂的存儲陣列來完成相同的任務(wù)。傳統(tǒng)系統(tǒng)需要以一種相對連續(xù)的方式讀取所有所需數(shù)據(jù)、運行分析操作并獲取結(jié)論,在相同的數(shù)據(jù)量下,相比基于分布式計算的映射化簡任務(wù)處理方式需要更長的處理時間。
這其中的不同可以這樣簡單概括。假如一家雜貨店中有20個人要通過同一個收銀臺。假如每個人購買價值200美元的商品,并且需要2分鐘來完成其所有采購貨物的掃描。那么即便是最佳雇員也需要40分鐘來處理這4,000美元的貨物采購。不過如果采用分布式計算的方式:會有10個收銀臺,每個收銀臺只是配置一位低成本,兼職的高校學(xué)生,其處理每一項交易需要額外的50%時間(3分鐘)。那么同樣20個人只需要6分鐘,而你仍可以獲取4,000美金。從業(yè)務(wù)角度來看,將一項工作時間從40分鐘壓縮到6分鐘意味著什么?利用多出的34分鐘你又可以完成多少額外的工作?你可以進行更多的調(diào)研并對于市場趨勢有更快的了解?這在業(yè)務(wù)方面就類似于你無須等待很久就能夠得到所要的分析結(jié)果。
分布式計算也并非完美的方案。集群文件系統(tǒng)非常復(fù)雜,并且很多時候這種復(fù)雜性隱藏在HDFS管理員端建立分布式集群并使其高效運行需要花費大量的時間。此外,在HDFS中,保持所有數(shù)據(jù)位置(元數(shù)據(jù))路徑的數(shù)據(jù)映射(或稱為命名節(jié)點,NameNode)在最新發(fā)布的Apache分布式計算中存在單點故障——其中一部分重要問題將會在下一個計劃發(fā)布的主版本中解決。數(shù)據(jù)保護也依靠管理員進行控制;數(shù)據(jù)復(fù)制設(shè)置決定了每個數(shù)據(jù)文件在集群內(nèi)復(fù)制的次數(shù)。默認(rèn)的設(shè)置是3次,而這會使得整體容量較實際使用容量擴大了3倍。而且這只是本地集群內(nèi)部的保護;遠程站點內(nèi)的備份容災(zāi)在現(xiàn)有版本的分布式計算中還未被考慮。要記住目前市場上還沒有分布式計算的大牌專家;不過,諸如Cloudera、EMC以及MapR等公司目前在培訓(xùn)方面扮演著重要角色,而成形的專業(yè)團隊仍需時日。這也是不應(yīng)當(dāng)被忽略的一件事。最近的研究顯示利用這方面外部咨詢服務(wù)的成本每年高達250,000美元。
大數(shù)據(jù),更大的事實
以上各類不足,結(jié)合上該商業(yè)領(lǐng)域的巨大潛在市場,使得諸如EMC、IBM和NetApp等大型存儲廠商關(guān)注著大數(shù)據(jù)的市場機會。各家廠商都發(fā)布了(或者其指日可待)設(shè)計用于分布式計算環(huán)境的存儲系統(tǒng),在可管理性、可擴展性以及數(shù)據(jù)保護方面幫助用戶克服HDFS的欠缺點。其中大部分可以用開放式接口(比如NFS和CFS)替換HDFS存儲層,而另一些提供其自有的映射化簡框架版本,提供較開源分布更好的性能。一些提供可以填補開源HDFS差異的特性,比如通過標(biāo)準(zhǔn)的NFS和CFS接口在其它應(yīng)用之間共享數(shù)據(jù)的能力,或者是數(shù)據(jù)保護和容災(zāi)方面的功能。
NetApp則采取了一種完全不同的方式。其內(nèi)置了開源的分布式計算標(biāo)準(zhǔn),并在數(shù)據(jù)節(jié)點上使用DAS。不同于以分布式計算的名義使用自有的文件系統(tǒng),NetApp在低端的Engenio平臺上使用SAS連接的JBOD充當(dāng)DAS。而在命名節(jié)點方面,其使用NFS直連的FAS箱來提供從一個故障命名節(jié)點的快速恢復(fù)。這是“兩個領(lǐng)域最佳”的混合的解決問題的方式。
市場是否會愿意購買更為可靠或更具應(yīng)用潛力的工具,這仍有待觀察,現(xiàn)在斷言還為時過早。
大數(shù)據(jù)是真實的存在的,并且各不相同:不同類型的大數(shù)據(jù)需要不同的存儲方式。如果你已經(jīng)面臨大數(shù)據(jù)的各項問題,面臨一些阻礙,這表示你應(yīng)當(dāng)采取一些不同的方式,和供應(yīng)商談?wù)撔枨蟮淖罴训耐緩绞侵敝竼栴}本身,而不要圍繞著大數(shù)據(jù)這個話題。你應(yīng)當(dāng)談?wù)摌I(yè)務(wù)問題和案例情況,這有助于將問題細化到某一特殊的負(fù)載上。這樣你就能快速找到對應(yīng)的存儲解決之道了。