談到Hadoop應(yīng)用,如果僅將目光集中在為搜索引擎提供動(dòng)力或者為廣告服提供用戶行為分析的平臺(tái)上,那么顯然有所局限。本文提供了搜索以及廣告分析以外的10個(gè)應(yīng)用領(lǐng)域,和在這些領(lǐng)域中通過使用Hadoop而獲得成功的多家創(chuàng)新型企業(yè)。也許相比互聯(lián)網(wǎng)巨頭并不知名,但卻代表了Hadoop的生命力——在行業(yè)端商務(wù)領(lǐng)域的新拓展方向。
Hadoop12個(gè)典型應(yīng)用領(lǐng)域
最近,在Hadoop最新版本的發(fā)布會(huì)上,Cloudera COO Kirk Dunn和業(yè)內(nèi)一些專家指出了Hadoop在不同領(lǐng)域的應(yīng)用案例。這與我近些年來關(guān)注的方向相同。為此,特別總結(jié)出在線旅游、移動(dòng)數(shù)據(jù)、電子商務(wù)、能源發(fā)現(xiàn)、能源節(jié)省、基礎(chǔ)設(shè)施管理、圖像處理、欺詐檢測(cè)、IT安全和醫(yī)療保健這十個(gè)領(lǐng)域,這其中,幾乎每個(gè)領(lǐng)域都有我曾采訪過的創(chuàng)新企業(yè)。當(dāng)然,我也相信,在這些企業(yè)之外,還有更多的應(yīng)用空間等待挖掘。
1. 在線旅游(Online travel)。Dunn表示,目前Cloudera的Hadoop架構(gòu)正在為80%左右的全球在線旅游預(yù)定服務(wù)。盡管其并沒有提及這些客戶的名字,但是去年的時(shí)候我曾對(duì)應(yīng)用了Hadoop的一家企業(yè)Orbitz Worldwide做了采訪。Orbitz CEO Barney Harford當(dāng)時(shí)表示,受益于Hadoop架構(gòu),他們極為輕松地實(shí)現(xiàn)了諸多data-crunching,并在其中得出“MAC用戶比Windows用戶愿意支付20美元的成本來預(yù)訂酒店”,這樣的影響范圍很廣的調(diào)查結(jié)論。當(dāng)然,在他看來,Hadoop本身并不能帶來如此的神奇效應(yīng),但是其可以幫助發(fā)現(xiàn)以前從來沒有發(fā)現(xiàn)的數(shù)據(jù)點(diǎn),進(jìn)而使分析和挖掘成為了可能。延伸閱讀:我是如何發(fā)現(xiàn)MAC用戶比Windows用戶更大方的?
2. 移動(dòng)數(shù)據(jù)(Mobile data)。這是Dunn的另一項(xiàng)“匿名”統(tǒng)計(jì),Cloudera為“70%美國(guó)智能手機(jī)”提供服務(wù)。我認(rèn)為他談?wù)摰氖峭ㄟ^無線方式存儲(chǔ)和處理移動(dòng)數(shù)據(jù),以及有關(guān)市場(chǎng)份額的數(shù)學(xué)可以幫助他們鎖定客戶。
3. 電子商務(wù)(E-commerce)。Dunn透漏的Cloudera第三個(gè)市場(chǎng)是美國(guó)超過10,000,000家網(wǎng)上商店。Dunn說一家大型零售商(我認(rèn)為說的是eBay,作為一個(gè)主要的Hadoop用戶并且成功經(jīng)營(yíng)著大型零售賣場(chǎng)來幫助數(shù)百萬商人銷售)在使用了Hadoop后僅90天內(nèi)就增加了3%的凈利潤(rùn)。延伸閱讀:為什么eBay大部分工程師都愛Hadoop?
4. 能源發(fā)現(xiàn)(Energy discovery)。在Cloudera的圓桌會(huì)議上,來自行業(yè)的一位代表 Chevron 解釋了為什么他們選擇了Hadoop:我們采用Hadoop來對(duì)數(shù)據(jù)進(jìn)行排序和整理,而這些數(shù)據(jù)全部來自從海洋深處地震時(shí)產(chǎn)生的數(shù)據(jù),而其背后有可能意味著石油儲(chǔ)量。
5. 能源節(jié)?。‥nergy savings)。與 Chevron目標(biāo)截然相反,Opower使用Hadoop來提升電力服務(wù),盡量為用戶節(jié)省在資源方面的投入。一個(gè)代表小組注意到,某些特定功能,如精確并長(zhǎng)期的費(fèi)用預(yù)測(cè)如果沒有Hadoop幾乎很難完成。據(jù)了解,Opower現(xiàn)在管理著30TB的信息,其中包括來自5000萬用戶(橫跨60個(gè)公共事業(yè)部)能源數(shù)據(jù),氣象與人口方面的公共及私人數(shù)據(jù),歷史信息,地理數(shù)據(jù)及其他。這些都是通過超過20個(gè)MySQL數(shù)據(jù)庫(kù)和一個(gè)Hadoop集群來存儲(chǔ)和處理的。延伸閱讀:能源行業(yè)Opower的大數(shù)據(jù)規(guī)劃
6. 基礎(chǔ)設(shè)施管理(Infrastructure management)。這是一個(gè)比較常見的應(yīng)用方向,實(shí)際上,隨著更多的公司(Esty,我最近采訪過)從服務(wù)器、交換機(jī)及其他IT設(shè)備商收集并分析數(shù)據(jù),Hadoop更有市場(chǎng)。在Cloudera發(fā)布會(huì)中,NetApp代表指出他們公司收集設(shè)備日志(現(xiàn)在已經(jīng)超過1PB的容量了),并將它們存儲(chǔ)在Hadoop中。事實(shí)上,Esty是專門從事國(guó)產(chǎn)與復(fù)古商品的電子商務(wù)網(wǎng)站,現(xiàn)在已經(jīng)超過110萬的用戶,250萬的獨(dú)立訪問量和11億的頁(yè)面瀏覽量。舉個(gè)例子,通過Splunk管理和分析的集群數(shù)據(jù)已經(jīng)到了每天1TB的量級(jí)。Esty每晚都要在以 Elastic MapReduce Hadoop service為基礎(chǔ)的亞馬遜云計(jì)算平臺(tái)上運(yùn)行數(shù)十種Hadoop工作流程。根據(jù)一些詳細(xì)技術(shù)報(bào)告,其運(yùn)行差不多5000 Hadoop job是在2011年5月份來分析來自內(nèi)部運(yùn)行數(shù)據(jù)和外部活動(dòng)數(shù)據(jù)如用戶行為變化。延伸閱讀:Esty如何構(gòu)建大數(shù)據(jù)平臺(tái)!
7. 圖像處理(Image processing)。一家創(chuàng)業(yè)型企業(yè)Skybox Imaging,利用Hadoop來存儲(chǔ)和處理高來自衛(wèi)星捕捉的高分辨率圖像,并嘗試將這些信息及圖像與地理格局的變化相對(duì)應(yīng)。延伸閱讀:Skybox新投7000萬美元在云中處理圖像。
8. 欺詐檢測(cè)(Fraud detection)。這已經(jīng)是老生常談了,在金融服務(wù)機(jī)構(gòu)和情報(bào)機(jī)構(gòu)中,欺詐檢測(cè)一直都是關(guān)注的重點(diǎn)。一家企業(yè),Zions Bancorporation向我講述了他們是如何利用Hadoop來存儲(chǔ)所有數(shù)據(jù),并對(duì)客戶交易和現(xiàn)貨異常進(jìn)行判斷,對(duì)可能存在欺詐行為提前預(yù)警的。延伸閱讀:銀行正在使用Hadoop來幫助抵御攻擊!
9. IT安全(IT security)。如基礎(chǔ)設(shè)施管理一樣,企業(yè)通過使用Hadoop來處理機(jī)器產(chǎn)生的數(shù)據(jù),以識(shí)別惡意軟件和網(wǎng)絡(luò)攻擊模式。去年,ipTrus通過使用Hadoop來指定IP地址的名譽(yù)得分(在0-1之間的得分,O等于沒有防線或未知的風(fēng)險(xiǎn)),從而使其他安全產(chǎn)品可以判斷是否接受來自這些來源的通信,IBM和HP都使用ipTrust的安全產(chǎn)品。延伸閱讀:ipTrus:殺死互聯(lián)網(wǎng)僵尸網(wǎng)絡(luò)!
10. 醫(yī)療保健(Health care)。我認(rèn)為有很多方法可使更多的醫(yī)療保健醫(yī)生從Hadoop中受益。但是最常見的仍然在搜索領(lǐng)域。去年,我介紹的Apixio,利用Hadoop平臺(tái)開發(fā)了語義分析服務(wù),可以對(duì)病人的健康提供醫(yī)生、護(hù)士、及其他相關(guān)人士的回答。Apixio試圖通過對(duì)醫(yī)療記錄進(jìn)行先進(jìn)的技術(shù)分析,與一個(gè)簡(jiǎn)單的基于云計(jì)算的搜索引擎來幫助醫(yī)生迅速了解病人相關(guān)病史,挽救生命。延伸閱讀:Apixio促進(jìn)“云”中醫(yī)療數(shù)據(jù)共享。
原文鏈接:10-ways-companies