毋庸置疑,大數(shù)據(jù)時代已經(jīng)來了。那么,我們?nèi)绾稳?yīng)對這種局面呢?下面,我們聽聽擁有此方面經(jīng)驗的專家是如何說的吧。
首先我們要知道,在成百上千TB的信息中,我們該如何充分利用大數(shù)據(jù)。這完全取決于個人的需求和偏好。Interclick廣告服務(wù)公司找到了一種在提供接近實時數(shù)據(jù)分析的同時,能提供更高效的解決方案。哈佛醫(yī)學(xué)院也了解到,在對病人數(shù)量和多年保持不變的數(shù)據(jù)研究的情況下,數(shù)據(jù)也會明顯增長?;ヂ?lián)網(wǎng)流量監(jiān)測機(jī)構(gòu)comSCore,擁有12年的利用列存儲數(shù)據(jù)庫壓縮數(shù)據(jù)的豐富經(jīng)驗,事實上,它采用了排序技術(shù)來優(yōu)化壓縮、減少處理需求。
目前,包括雅虎、Facebook、Twitter、NetFlix和eHarmony(美國在線約會網(wǎng)站)都認(rèn)為,Hadoop是一個理想化的低成本處理 非結(jié)構(gòu)化數(shù)據(jù)平臺。它不僅能滿足互聯(lián)網(wǎng)巨頭需要,也能滿足包括摩根大通銀行和其他主流的傳統(tǒng)企業(yè)的需求。數(shù)據(jù)供應(yīng)商InfoChimps同時發(fā)現(xiàn),隨著越來越多的附加和輔助應(yīng)用的提供,Hadoop將是提供部署支持的快速成熟方案。
大數(shù)據(jù)時代下的應(yīng)用
當(dāng)然,并非所有的大數(shù)據(jù)部署都是根據(jù)總規(guī)模來衡量。比如Linkshare只保留了幾個月但每天都需要加載和快速分析多達(dá)數(shù)十GB的數(shù)據(jù),因此對于每天的這些數(shù)據(jù)規(guī)模來說它是一個比較大規(guī)模的部署。除此之外,我們還需要注意數(shù)據(jù)倉庫擴(kuò)展性的六個維度。只有這樣,我們才可以制定一個較為準(zhǔn)確的方案,從而滿足最為苛刻的測試需求,并獲得技術(shù)投資滿足未來需要。
一、快速查詢確保高效和及時
大規(guī)模并行處理平臺、列存儲數(shù)據(jù)庫、數(shù)據(jù)庫內(nèi)處理技術(shù)和內(nèi)存計算技術(shù),都可以大幅降低數(shù)據(jù)查詢時間,從數(shù)天、數(shù)小時縮減到幾分鐘甚至幾秒。但這并不夠。紐約廣告公司Interclick發(fā)現(xiàn),快速分析帶來的最主要好處是高效??焖夙憫?yīng)能爭取到更多時間進(jìn)行更多、更深入的查詢工作。第二個好處則是,可以獲得幾近實時分析的結(jié)果,據(jù)此分析有助于提高決策反應(yīng)水平和準(zhǔn)確率。
Interclick所采用的大數(shù)據(jù)分析技術(shù)
通過快速響應(yīng),Interclick能夠在幾個小時甚至數(shù)分鐘內(nèi)對網(wǎng)上沖浪者的行為進(jìn)行細(xì)分。它能夠?qū)υL問旅游站點、預(yù)訂酒店站點等的網(wǎng)名行為信息,發(fā)送給相應(yīng)的航空公司、連鎖酒店、汽車租賃公司等。Interclick采用的是ParAccel列存儲數(shù)據(jù)庫部署,內(nèi)存集群可以容納3.2TB容量的數(shù)據(jù)。

壓縮和削減存儲成本
二、衡量數(shù)據(jù)增長時深知何為貴
通過對長達(dá)20年的醫(yī)療記錄、研究各種藥物的療效和風(fēng)險,哈佛醫(yī)學(xué)院吸取到了這樣一種教訓(xùn)--在規(guī)劃數(shù)據(jù)倉儲投資時,不僅僅需要解諸如客戶、記錄和交易數(shù)量等簡單問題。雖然病人數(shù)量和時限仍然較為穩(wěn)定,但各種醫(yī)療記錄卻不斷豐富起來,因為涌現(xiàn)出了很多新的健康監(jiān)測技術(shù)指標(biāo)。因此,事先了解所有的動態(tài)需求至關(guān)重要。
哈佛醫(yī)學(xué)院