在今天,我們頻繁地地接觸到“大數(shù)據(jù)”這個(gè)術(shù)語。不過業(yè)內(nèi)還是對大數(shù)據(jù)究竟是什么缺少一種標(biāo)準(zhǔn)化的定義。那么,大數(shù)據(jù)對數(shù)據(jù)存儲(chǔ)基礎(chǔ)架構(gòu)中有意味著什么呢?
企業(yè)戰(zhàn)略集團(tuán)(ESG)對大數(shù)據(jù)作出的定義是“大小規(guī)模超過常規(guī)處理能力邊界的數(shù)據(jù)集,它使得你不得不采取非常規(guī)手段。”簡單來講,我們可以將大數(shù)據(jù)這個(gè)詞使用在任何突破了傳統(tǒng)IT處理支撐日常業(yè)務(wù)運(yùn)作能力邊界的數(shù)據(jù)集合上。
這些邊界可能會(huì)出現(xiàn)在以下幾種情況下:
?過高的交易數(shù)據(jù)量導(dǎo)致傳統(tǒng)的數(shù)據(jù)存儲(chǔ)系統(tǒng)達(dá)到了瓶頸,無法及時(shí)地完成各項(xiàng)運(yùn)作任務(wù)。簡單來說其無法提供應(yīng)對如此多的I/O請求的處理能力。在有些時(shí)候,用戶環(huán)境內(nèi)的磁盤轉(zhuǎn)速無法應(yīng)對所有的I/O請求。這往往使得用戶在每塊磁盤驅(qū)動(dòng)器上放置很少一部分?jǐn)?shù)據(jù)并采取“短擊控制”。這意味著通過使用磁盤的很少一部分來增加每GB數(shù)據(jù)的整體轉(zhuǎn)速,即使用更多的磁盤驅(qū)動(dòng)器來處理I/O。這種情況也會(huì)導(dǎo)致用戶部署許多存儲(chǔ)系統(tǒng)并行使用,但卻因?yàn)樾阅芷款i而不使用其全部的容量?;騼烧呒娑兄?。這種方式代價(jià)高昂,是的購買了過多的磁盤驅(qū)動(dòng)器而其中的絕大部分是空的。
?數(shù)據(jù)(單獨(dú)的記錄、文件或?qū)ο螅┏叽缡沟脗鹘y(tǒng)的系統(tǒng)沒有足夠的吞吐量及時(shí)傳輸數(shù)據(jù)。這可能只是由于沒有足夠的帶寬來處理交易量。但帶寬所帶來的挑戰(zhàn)卻非常嚴(yán)謹(jǐn)。我們看到許多企業(yè)采用“短擊控制”來增加系統(tǒng)帶寬,也增加了驅(qū)動(dòng)器數(shù)量,而這又導(dǎo)致了低利用率和增加開銷的問題。
?整個(gè)卷容量超過了傳統(tǒng)的存儲(chǔ)系統(tǒng)容量所能承受的閾值。簡單來講就是存儲(chǔ)系統(tǒng)無法提供足夠的容量來處理卷內(nèi)的數(shù)據(jù)。這會(huì)導(dǎo)致存儲(chǔ)蔓延成幾十或上百個(gè)存儲(chǔ)堆棧,又由數(shù)以十計(jì)或百計(jì)的管理節(jié)點(diǎn)進(jìn)行管理,造成利用率低下,并消耗了大量的占地空間、能源和制冷。
這些癥狀同時(shí)出現(xiàn)時(shí)就會(huì)變得非常嚴(yán)重——沒有什么可以證明用戶不會(huì)同時(shí)面臨大文件所組成的大量數(shù)據(jù),并且要求大量I/O的要求。事實(shí)上,大數(shù)據(jù)這個(gè)詞最開始出現(xiàn)在一些特殊的垂直行業(yè)的IT需求討論中,諸如醫(yī)療和娛樂行業(yè)組織,以及石油和天然氣公司。
支持大數(shù)據(jù)的存儲(chǔ)基礎(chǔ)架構(gòu)
我們正在存儲(chǔ)基礎(chǔ)架構(gòu)中尋求一種全新的變革方式來處理和大數(shù)據(jù)相關(guān)的日益增長的數(shù)據(jù)容量。每一種方式的特點(diǎn)都不盡相同,但又互有重疊。
在對I/O敏感的高交易量事務(wù)處理中,ESG發(fā)現(xiàn)應(yīng)用了大量可以通過增加磁盤進(jìn)行縱向擴(kuò)展的基礎(chǔ)架構(gòu)方式。這種系統(tǒng)是諸如EMC VMAX、IBM DS800以及HDS VSP等公司最傳統(tǒng)的解決方案。
在大文件尺寸的應(yīng)對方面,前沿的企業(yè)在幾年之前就開始采用橫向擴(kuò)展的系統(tǒng),配置足夠的帶寬來處理大文件尺寸,從而解決大數(shù)據(jù)的問題。這類系統(tǒng)包括DataDirect Networks、Hewlett-Packard Ibrix、Isilon(現(xiàn)被EMC收購)以及Panasas等。這些系統(tǒng)通過縱向擴(kuò)展(增加磁盤數(shù)量)以及橫向擴(kuò)展(增加帶寬和處理器能力)來滿足性能所需。隨著大數(shù)據(jù)尺寸的問題變得日益常見,這些系統(tǒng)中的一部分也在尋求更為主流的商業(yè)應(yīng)用。這些更主流的環(huán)境中通?;旌现鳬/O和吞吐量敏感的高性能要求,因此橫向擴(kuò)展和縱向擴(kuò)展的能力都必須具備。
最后,在內(nèi)容容量方面,我們正看到橫向擴(kuò)展、基于對象的存儲(chǔ)基礎(chǔ)架構(gòu)系統(tǒng)可以在單個(gè)簡易的管理系統(tǒng)中更輕松地?cái)U(kuò)展至數(shù)以百億的數(shù)據(jù)對象。這類系統(tǒng)的優(yōu)勢在于其更易于管理和跟蹤魯棒的元數(shù)據(jù),并且設(shè)計(jì)可以使用高密度、低成本的硬盤驅(qū)動(dòng)器,就像Dell 的DX那樣。
關(guān)于Hadoop
沒有哪項(xiàng)大數(shù)據(jù)的應(yīng)用和分布式計(jì)算毫無關(guān)系。分布式計(jì)算所具有的以合理的成本加快業(yè)務(wù)分析周期(從數(shù)周縮短至數(shù)小時(shí)甚至分鐘)的能力對企業(yè)非常有吸引力。這種開源的技術(shù)通常運(yùn)行在廉價(jià)的服務(wù)器上,使用并不昂貴的直連存儲(chǔ)(DAS)。
分布式計(jì)算用于處理大量的數(shù)據(jù),并且由兩部分構(gòu)成:映射化簡(MapReduce)和分布式文件系統(tǒng)(HDFS)。映射化簡處理管理計(jì)算機(jī)任務(wù)的工作,而HDFS自動(dòng)化地管理數(shù)據(jù)存儲(chǔ)于哪一個(gè)計(jì)算機(jī)群(從而降低開發(fā)設(shè)備的負(fù)載)。當(dāng)一項(xiàng)計(jì)算任務(wù)啟動(dòng)后,映射化簡接管這項(xiàng)任務(wù),并將其分解成可以并行運(yùn)行的子任務(wù)。映射化簡會(huì)向HDFS查詢運(yùn)行各項(xiàng)子任務(wù)的數(shù)據(jù)存儲(chǔ)位置,而后將這些子任務(wù)發(fā)送到數(shù)據(jù)存儲(chǔ)所在的計(jì)算節(jié)點(diǎn)。其實(shí),它是將計(jì)算任務(wù)發(fā)送到數(shù)據(jù)端。各項(xiàng)子任務(wù)的結(jié)果會(huì)送回映射化簡中心,進(jìn)行整合并推導(dǎo)出最后的結(jié)論。