任何一個時代或者模式的興起,都離不開與之相關(guān)的Killer App,比如,C/S時代的SAP ERP,互聯(lián)網(wǎng) 1.0 時代的門戶,以及互聯(lián)網(wǎng) 2.0時代的搜索和SNS等,那么在當(dāng)今云計算這個時代有那些Killer App呢?當(dāng)然首先想到的肯定是以VMware 和Amazon EC2為代表的虛擬化和相關(guān)IaaS服務(wù),除此之外,新近崛起的大數(shù)據(jù)絕對也是云計算的Killer App之一。不僅類似百度、阿里,以及騰訊這樣的互聯(lián)網(wǎng)巨頭有相關(guān)的應(yīng)用需求,而且根據(jù)筆者平時與客戶的接觸,發(fā)現(xiàn)有很多普通中小企業(yè),特別是中型的互聯(lián)網(wǎng)和物聯(lián)網(wǎng)企業(yè),在大數(shù)據(jù)方面的場景也有很多。本文將首先給大家介紹一下在筆者眼中的大數(shù)據(jù),以及大數(shù)據(jù)的意義和特點,再介紹一下大數(shù)據(jù)的常見處理流程,之后將會和大家分享一下筆者如何幫助一些中小企業(yè)實施大數(shù)據(jù)相關(guān)的解決方案,也就是大數(shù)據(jù)如何從“小”做起。
什么是大數(shù)據(jù)?
過去計算機產(chǎn)生的數(shù)據(jù)較簡單,基本上都是一筆筆事務(wù),總量雖大,但整體增長幅度都還是可控的。比如傳統(tǒng)的金融企業(yè),經(jīng)常使用幾臺大型機就能管理其所有的業(yè)務(wù)數(shù)據(jù)。而最近幾年,由于以平板、智能手機和傳感器為代表的智能設(shè)備越來越多,這些設(shè)備的生成的數(shù)據(jù)更是遠遠地超過我們的想象。據(jù)IDC的統(tǒng)計,全球數(shù)字信息在未來幾年將呈現(xiàn)驚人增長,預(yù)計到2020年總量將是現(xiàn)在的44倍。據(jù)另外一份數(shù)據(jù)顯示,全球 90% 的數(shù)據(jù)都是在過去兩年中生成的,并且每年以50%的速度增長。每天,遍布世界各個角落的傳感器、移動設(shè)備、在線交易和社交網(wǎng)絡(luò)會產(chǎn)生PB級別的數(shù)據(jù);每個月,全球網(wǎng)友會發(fā)布了10多 億條 Twitter 信息和300多 億條 Facebook 信息。那么這些大數(shù)據(jù)的存在有什么價值和意義呢?
大數(shù)據(jù)的意義
筆者個人和一些朋友一直覺得大數(shù)據(jù)就好比一口油井,因為里面蘊含著非常豐富的價值,如果企業(yè)能有效利用其內(nèi)部存儲的海量數(shù)據(jù),那么將會改善其自身的產(chǎn)品和服務(wù),從而提升客戶和受眾的體驗,在大數(shù)據(jù)時代獲取競爭優(yōu)勢。并且隨著本身分析和挖掘技術(shù)不斷的提升,可以在之前的基礎(chǔ)上提供新的決策模式,從而支持管理者進行快速和精確地決策,這樣能夠超越對手,搶占市場先機。
以下的內(nèi)容會通過幾個行業(yè)來舉例講解一下大數(shù)據(jù)有哪些意義和作用?
互聯(lián)網(wǎng)企業(yè)
有一些客戶主要是做網(wǎng)絡(luò)輿情或者網(wǎng)絡(luò)廣告方面的業(yè)務(wù),他們每天都會處理和收集TB級別的日志或者網(wǎng)頁信息,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都有。他們就是通過分析這些數(shù)據(jù)來為其客戶提供價值,比如分析一下一個男性護膚品廣告是在世界杯期間投放好,還是在亞洲杯期間播出好?在電子商務(wù)方面,eBay是個很好的例子。其分析平臺每天處理的數(shù)據(jù)量高達100PB,超過了納斯達克交易所每天的數(shù)據(jù)處理量。為了準確分析用戶的購物行為,eBay定義了超過500種類型的數(shù)據(jù),對顧客的行為進行跟蹤分析,并且通過這些分析促進eBay自身的業(yè)務(wù)創(chuàng)新和利潤增長。
智能電網(wǎng)
我們有一個合作伙伴,他們是做智能電網(wǎng)相關(guān)的解決方案。對那些電網(wǎng)而言,如果無法準確預(yù)估實際電力的使用情況,將會使電網(wǎng)要求電廠發(fā)出過量的電力,雖然這些過量電力可以通過某種模式進行保存,但是大量的電力浪費已不可避免。而通過他們智能電網(wǎng)的解決方案,每隔一刻鐘會采集一個省幾千萬用戶的用電數(shù)據(jù),之后他們會根據(jù)這些數(shù)據(jù)來精確分析用戶的用電模型,最后通過這個用電模型來優(yōu)化電力生產(chǎn),從而有效地減少電力資源的浪費。
車聯(lián)網(wǎng)
在車聯(lián)網(wǎng)方面,有一家客戶在一個城市有幾十萬臺基于Android的終端,而這些終端每隔一段時間都會發(fā)送具體位置的GPS消息給后端的數(shù)據(jù)集群,接著這些集群會分析這些海量的GPS信息,分析出哪些路段在什么時候比較堵,之后將這些非常有價值的信息不斷地推送給客戶,從而幫助用戶減少在路上所消耗的時間。
醫(yī)療行業(yè)
在醫(yī)療行業(yè),大數(shù)據(jù)的用例有很多。首先,通過分析大量的病例信息,將有效地幫助醫(yī)生治病;其次,假設(shè)在一個病人身體的多個節(jié)點加入探針設(shè)備,而且每個探針每天會采集GB級別關(guān)于人體細胞和血液運行狀態(tài)的數(shù)據(jù),之后計算集群可以根據(jù)這些數(shù)據(jù)來進行分析,這樣能更精確地判斷病因,從而讓醫(yī)生對病人進行更具針對性的治療。
機器學(xué)習(xí)
在這方面,最出名的例子莫過于最近很流行的Siri,它后臺有一個龐大的HBase集群來對類似語言這樣的文本數(shù)據(jù)進行分析和管理,從而使Siri變成一位越來越老練的個人助手,為iPhone 4S的用戶提供了日期提醒、天氣預(yù)報和飯店建議等服務(wù)。除此之外,還有IBM的Watson,它通過一個基于Hadoop UIMA框架的集群來挖掘海量的文本信息來實現(xiàn)一定程度的人工智能,并在美國著名知識問答節(jié)目Jeopardy中戰(zhàn)勝多位出色的人類選手。
國家安全
這方面最出名的例子,莫過于美國的聯(lián)邦情報局(CIA)。在過去10年中,他們通過無人偵察機收集了大量阿富汗那邊地理相關(guān)的視頻資料,之后通過分析這些海量視頻資料,來對極具危害性的恐怖組織團伙進行定位。