里約奧運(yùn)會(huì)近日已落下帷幕,它不僅成功霸占了觀眾的社交流量,在話題上也是堪稱現(xiàn)象級(jí)的。而這背后,大數(shù)據(jù)的成功運(yùn)用可謂功不可沒。從“虛擬獎(jiǎng)牌榜”、“全視氣球”、“水下計(jì)時(shí)器”、“基于數(shù)據(jù)分析的運(yùn)動(dòng)員訓(xùn)練方式”到“將寨卡病毒擋在里約奧運(yùn)的大門之外”, 大數(shù)據(jù)驅(qū)動(dòng)的里約奧運(yùn)會(huì)被烙上了獨(dú)特的科技標(biāo)簽。組委會(huì)CIO Elly Resende表示,大約有250家科技公司為構(gòu)建整個(gè)基礎(chǔ)設(shè)施提供了不同程度的技術(shù)。顯然,“里約印象”的非凡塑造離不開強(qiáng)大IT基礎(chǔ)設(shè)施的支持。
同樣,對(duì)企業(yè)來說,數(shù)據(jù)就像一個(gè)神奇的鉆石礦,當(dāng)它的首要價(jià)值被發(fā)掘后仍能不斷給予。它的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。實(shí)時(shí)分析是當(dāng)今企業(yè)獲得可持續(xù)優(yōu)勢(shì)的基石。更快獲取見解并據(jù)此采取行動(dòng)已日益成為許多企業(yè)成敗的關(guān)鍵。
隨著數(shù)據(jù)的日益增多,企業(yè)需要更快地執(zhí)行分析,這對(duì)當(dāng)今的數(shù)據(jù)工作者帶來了巨大挑戰(zhàn):你應(yīng)該如何快速行動(dòng),才能確保對(duì)數(shù)據(jù)的見解始終具有價(jià)值,而且優(yōu)于你的競(jìng)爭(zhēng)對(duì)手?哪些方面的投資有助于你在這種數(shù)據(jù)劇增的環(huán)境中保持領(lǐng)先地位?
對(duì)所有大數(shù)據(jù)戰(zhàn)略來說,軟件必不可少,但僅有軟件是不夠的。各組織對(duì)快速實(shí)時(shí)決策的需求不斷增長(zhǎng),他們必須借助存儲(chǔ)和內(nèi)存領(lǐng)域的創(chuàng)新來實(shí)現(xiàn)基礎(chǔ)設(shè)施轉(zhuǎn)型,才能滿足這一需求。
總之,基礎(chǔ)設(shè)施確實(shí)至關(guān)重要。為什么呢?這是因?yàn)椋绻M織不對(duì)數(shù)據(jù)采取任何行動(dòng),他們就會(huì)損失資金,還會(huì)錯(cuò)失競(jìng)爭(zhēng)機(jī)會(huì)。IT 團(tuán)隊(duì)有必要對(duì)支撐新一代大數(shù)據(jù)解決方案的底層基礎(chǔ)設(shè)施進(jìn)行持續(xù)投資,但這種投資不應(yīng)該僅是購(gòu)買合適的新硬件。企業(yè)還需要認(rèn)真優(yōu)化和調(diào)整現(xiàn)有硬件系統(tǒng),確保系統(tǒng)具備充足的性能、容量和吞吐量,加快數(shù)據(jù)處理速度,并推進(jìn)到規(guī)定的分析階段。
當(dāng)然,要想利用大數(shù)據(jù)和先進(jìn)的分析工作負(fù)載(如 Hadoop 和 Spark),各組織需要克服很多困難,其中最大的挑戰(zhàn)與底層數(shù)據(jù)有關(guān)。具體來說,就是數(shù)據(jù)的“3 V”:種類 (Variety)、數(shù)據(jù)量 (Volume) 和速度 (Velocity)。數(shù)據(jù)的這三項(xiàng)特征都非常重要,其中速度(即不斷提升的數(shù)據(jù)創(chuàng)建和決策速度)尤為重要。
為什么在優(yōu)化大數(shù)據(jù)時(shí)必須要關(guān)注速度呢?這在一定程度上由其他兩個(gè) V(即種類和數(shù)據(jù)量)所致。大數(shù)據(jù)系統(tǒng)捕獲和處理的不僅僅是文本;傳感器、視頻、音頻、社交媒體以及多種多樣的非結(jié)構(gòu)化數(shù)據(jù)都有成為深度分析之瓶頸的潛在可能。當(dāng)然,目前(更不用說將來)龐大的數(shù)據(jù)量會(huì)讓這一問題雪上加霜。如果不密切關(guān)注速度以及底層的存儲(chǔ)和內(nèi)存基礎(chǔ)設(shè)施,大數(shù)據(jù)項(xiàng)目將無法發(fā)揮全部潛力,同時(shí)會(huì)大幅增加企業(yè)的財(cái)務(wù)和運(yùn)營(yíng)成本。
存儲(chǔ)速度更快
在 TechTarget 的購(gòu)買者中,數(shù)千位來自北美的 IT 決策者在訪談時(shí)都表示,他們最希望大數(shù)據(jù)存儲(chǔ)能夠滿足延時(shí)、容量和帶寬這幾大存儲(chǔ)功能要求。其中,延遲更是大數(shù)據(jù)計(jì)劃必須妥善處理的一大問題。從根本上來說,延遲會(huì)損害服務(wù)器處理更大數(shù)據(jù)集的能力,導(dǎo)致工作負(fù)載癱瘓,并使得完成先進(jìn)分析工作負(fù)載的過程更費(fèi)時(shí)、代價(jià)更高昂。事實(shí)上,延遲比容量或 IOPS 重要得多,對(duì)大數(shù)據(jù)和其他先進(jìn)分析工作負(fù)載而言尤其如此。
實(shí)際上,基于幀的陣列(目前的數(shù)據(jù)中心基礎(chǔ)設(shè)施普遍都采用這種配置)采用旋轉(zhuǎn)式硬盤作為存儲(chǔ)介質(zhì),在功能上已達(dá)到極限。在空間、供電/散熱成本、CPU 周期和存儲(chǔ)容量方面,這已經(jīng)從根本上耗盡了許多數(shù)據(jù)中心的能力。而這又會(huì)迫使組織設(shè)立新的數(shù)據(jù)中心,通常要耗費(fèi)數(shù)百萬美元的成本。
因此,這不斷推動(dòng)著各組織轉(zhuǎn)為使用閃存/固態(tài)存儲(chǔ)。勇于創(chuàng)新的組織正在重新設(shè)計(jì)自己的數(shù)據(jù)中心,將存儲(chǔ)從 NAS 設(shè)備和 SAN 上移除,轉(zhuǎn)為使用支持閃存的服務(wù)器。這有助于減輕數(shù)據(jù)中心的擴(kuò)張,減少物理空間占用量,降低供電和散熱成本,并提高整體運(yùn)營(yíng)效率。
“如果你詢問托管大數(shù)據(jù)的最好方法,大部分的大數(shù)據(jù)倡導(dǎo)者都會(huì)微笑著回答:‘當(dāng)然是采用閃存啦!’”存儲(chǔ)行業(yè)分析師 Jon Toigo 表示,“因此,目前,以 Oracle 和 SAP 為首的數(shù)據(jù)庫(kù)制造商重新調(diào)整其產(chǎn)品也就不足為奇了。Oracle 和 SAP 的大數(shù)據(jù)設(shè)備采用全套閃存和動(dòng)態(tài) RAM 來托管其常駐內(nèi)存的數(shù)據(jù)庫(kù)。
當(dāng)數(shù)據(jù)科學(xué)家搜索各個(gè)數(shù)據(jù)塊以獲取見解時(shí),從 Hadoop 到 Spark 的遷移(無論是兩者間相互協(xié)作,還是用 Spark 替換 Hadoop)已經(jīng)對(duì)存儲(chǔ)和內(nèi)存基礎(chǔ)設(shè)施造成了壓力。旋轉(zhuǎn)式硬盤速度過慢,無法跟上提取關(guān)鍵見解所需的迭代機(jī)器學(xué)習(xí)工作流。投資混合陣列最初或許能夠節(jié)約成本,但很可能會(huì)導(dǎo)致無法獲取關(guān)鍵見解,因?yàn)樗鼈冃枰却脖P找到必要的數(shù)據(jù)。