就在幾周前,Apache Hadoop 2.0正式發(fā)布,這是 Hadoop領(lǐng)域巨大的里程碑,因?yàn)樗_啟了史無前例的數(shù)據(jù)存儲(chǔ)方式革命。Hadoop保留它典型的“大數(shù)據(jù)”基礎(chǔ)技術(shù),但它是否適合當(dāng)下數(shù)據(jù)庫及數(shù)據(jù)倉庫的使用方式?又是否有一種通用模式可以切實(shí)降低固有的使用復(fù)雜性呢?
Hadoop使用的一般模式
Hadoop最初的構(gòu)想是為像Yahoo、Google、Facebook等這樣的公司以非常低的成本來解決大量數(shù)據(jù)的存儲(chǔ)問題?,F(xiàn)在,它正被越來越多地引入企業(yè)環(huán)境中處理新不同數(shù)據(jù)類型。機(jī)器生成的數(shù)據(jù)、傳感器數(shù)據(jù)、社交數(shù)據(jù)、網(wǎng)絡(luò)日志等數(shù)據(jù)類型呈指數(shù)級增長,而且這些數(shù)據(jù)也常常(但不總是)是非結(jié)構(gòu)化。正是由于這種類型的數(shù)據(jù)將人機(jī)對話從“數(shù)據(jù)分析”帶到“大數(shù)據(jù)分析”:因?yàn)橥诰蜻@些數(shù)據(jù)可以得到商業(yè)優(yōu)勢。
分析應(yīng)用程序以各種形式流行起來,最重要的是可以定向解決一個(gè)垂直行業(yè)的需要。乍一看,他們彼此似乎在行業(yè)和垂直上沒有關(guān)系,但是實(shí)際上,當(dāng)在基礎(chǔ)設(shè)施層面觀察時(shí),會(huì)出現(xiàn)一些非常清晰的模式,也就是以下3種模式:
Pattern 1:數(shù)據(jù)精煉廠
使用Hadoop的“數(shù)據(jù)精煉廠”模式使組織能夠?qū)⑦@些新數(shù)據(jù)源納入他們常用BI和分析應(yīng)用程序。例如,我可能有一個(gè)應(yīng)用程序,它能夠在ERP和CRM系統(tǒng)中查看客戶建立在上面的數(shù)據(jù)。但是如何才能從他們的web session(基于我們網(wǎng)站)中發(fā)現(xiàn)他們的興趣所在?“數(shù)據(jù)精煉廠”,這個(gè)使用模式正是顧客期望的。
這里的關(guān)鍵概念是Hadoop是被用來提取大量數(shù)據(jù)以便更容易管理。然后生成的數(shù)據(jù)被加載到現(xiàn)有數(shù)據(jù)系統(tǒng),這些數(shù)據(jù)可以使用傳統(tǒng)的工具訪問,但是別忘了,這些操作都是建立在更豐富的數(shù)據(jù)集上。從某些方面來說,這是最簡單的用例,因?yàn)闊o需對傳統(tǒng)途徑進(jìn)行大的修改,企業(yè)就可以清晰的從Hadoop上獲益。無論垂直與否,精煉廠概念仍然適用。在金融服務(wù)領(lǐng)域,我們看到組織提煉交易數(shù)據(jù)以便更好地了解市場,分析和從復(fù)雜的組合中尋找價(jià)值。能源公司使用大數(shù)據(jù)來分析不同地區(qū)的消費(fèi)水平以便更好地預(yù)測生產(chǎn)水平。零售企業(yè)(任何面向消費(fèi)者組織)經(jīng)常使用精煉廠來洞察網(wǎng)絡(luò)人氣。電信公司使用精煉廠調(diào)用電話記錄來提取有用信息細(xì)節(jié)以便優(yōu)化計(jì)費(fèi)方式。最后,在昂貴的,任務(wù)關(guān)鍵的垂直設(shè)備上,我們常常發(fā)現(xiàn)Hadoop被用來預(yù)測分析和主動(dòng)的故障識別。在通信技術(shù)中,這可能是一個(gè)網(wǎng)絡(luò)的基站。特許經(jīng)營餐廳中可以用來監(jiān)控冷藏庫的數(shù)據(jù)。
Pattern 2: 用Apache Hadoop來探索數(shù)據(jù)
第二個(gè)最常見的用例我們稱之為“數(shù)據(jù)探索”。在這種情況下,組織在Hadoop上獲取和存儲(chǔ)大量的新數(shù)據(jù),然后直接探索這些數(shù)據(jù)。因此不是使用Hadoop作為暫存區(qū)域進(jìn)行處理然后將數(shù)據(jù)轉(zhuǎn)移到企業(yè)數(shù)據(jù)倉庫(就像使用精煉廠用例一樣),數(shù)據(jù)是保存在Hadoop上然后直接探索。
數(shù)據(jù)探索用例通常是在企業(yè)開始可以探索以前被丟棄的數(shù)據(jù)(如網(wǎng)絡(luò)日志,社交媒體數(shù)據(jù)等等)并構(gòu)建全新的分析應(yīng)用程序然后直接使用這些數(shù)據(jù)。幾乎每一個(gè)垂直系統(tǒng)都可以享受到探索用例的優(yōu)越性。在金融服務(wù)領(lǐng)域,我們可以用探索用例來執(zhí)行取證或識別欺詐。職業(yè)體育團(tuán)隊(duì)將利用數(shù)據(jù)科學(xué)來分析交易和年度草案,就像我們在電影《Moneyball》看到的??傊?dāng)?shù)據(jù)科學(xué)和探索可以用來發(fā)現(xiàn)新的商業(yè)機(jī)會(huì)或新的見解,這在Hadoop之前是不可能實(shí)現(xiàn)的。