大數(shù)據(jù)技術(shù)能夠幫助企業(yè)用戶在茫茫的數(shù)據(jù)海洋里快速找到所需要的東西。大數(shù)據(jù)分析相關(guān)的人才之爭(zhēng)即將展開(kāi)。
對(duì)于推特(Twitter)來(lái)說(shuō),處理海量的用戶數(shù)據(jù)是一個(gè)非常令人頭疼的問(wèn)題,為此他們專門(mén)收購(gòu)了一家公司幫助他們做這項(xiàng)工作。推特的成功完全取決于其對(duì)用戶所產(chǎn)生數(shù)據(jù)的充分利用。他們需要處理大量的數(shù)據(jù):推特?fù)碛?億多個(gè)托管賬戶,而這些賬戶每天會(huì)產(chǎn)生2.3億條推文。
2011年7月份,社交網(wǎng)站巨子推特收購(gòu)了BackType公司及該公司的Storm軟件,后者能夠從語(yǔ)法上實(shí)時(shí)分析數(shù)據(jù)流,例如數(shù)百萬(wàn)條的推文。收購(gòu)之后,推特公布了Storm的源代碼,無(wú)意使該軟件商品化。Storm對(duì)于推特的價(jià)值在于其特殊的工作方式,因?yàn)檫@有助于識(shí)別新出現(xiàn)話題。比方說(shuō),推特使用該軟件能夠?qū)崟r(shí)計(jì)算出Web地址在多個(gè)推特用戶間的共享程度。
推特的Storm 軟件首席工程師Nathan Marz解釋說(shuō):“這一工作實(shí)際上是一種高強(qiáng)度的計(jì)算,涉及數(shù)千個(gè)數(shù)據(jù)調(diào)用和數(shù)百萬(wàn)份的用戶記錄。”在使用一臺(tái)機(jī)器的情況下,計(jì)算Web地址的范圍需要花上10分鐘的時(shí)間。但是如果使用10臺(tái)機(jī)器,那么計(jì)算只需要幾秒鐘。對(duì)于靠新興趨勢(shì)銷(xiāo)售廣告掙錢(qián)的公司而言,更快的運(yùn)作非常關(guān)鍵。
推特等公司發(fā)現(xiàn),他們手中掌握著大量的數(shù)據(jù),而這些數(shù)據(jù)可幫助實(shí)現(xiàn)利潤(rùn)的最大化,并提高效率。而實(shí)現(xiàn)這些目標(biāo)的前提是,他們能夠快速組織和分析這些數(shù)據(jù)。目前大量新技術(shù)的出現(xiàn)使得這一目標(biāo)成為可能,這些新技術(shù)大多數(shù)是開(kāi)源技術(shù)。
團(tuán)購(gòu)網(wǎng)站LivingSocial 的CTO Aaron Batalion說(shuō):“如果我們能夠更好地理解用戶關(guān)注什么,利用這些數(shù)據(jù)提供更好的服務(wù)體驗(yàn),那么我們無(wú)疑將獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。”目前LivingSocial使用的是Apache Hadoop數(shù)據(jù)處理平臺(tái),以收集更多的用戶關(guān)注信息。
Batalion說(shuō):“開(kāi)發(fā)出一款產(chǎn)品,然后讓它們工作起來(lái)就萬(wàn)事大吉的日子已經(jīng)結(jié)束了。為了獲得成功,你必須要想主意、測(cè)試它們、進(jìn)行迭代、使用數(shù)據(jù)和分析法去搞清楚哪些在工作,哪些沒(méi)有。這是我們使用大數(shù)據(jù)基礎(chǔ)設(shè)施的方式。”
大數(shù)據(jù)越來(lái)越大
2011年5月,咨詢公司McKinsey and Company公布了一份報(bào)告。該報(bào)告預(yù)測(cè)了企業(yè)在未來(lái)幾年將會(huì)如何被數(shù)據(jù)洪流所淹沒(méi)。他們還預(yù)測(cè)了包括醫(yī)療、公共部門(mén)和制造業(yè)等行業(yè)將從對(duì)快速增長(zhǎng)的數(shù)據(jù)的分析中獲益。
收集和分析交易數(shù)據(jù)可以讓企業(yè)洞察到客戶的選擇,讓他們能夠及時(shí)通知產(chǎn)品設(shè)計(jì)與服務(wù)部門(mén),同時(shí)讓他們對(duì)新出現(xiàn)的問(wèn)題進(jìn)行快速補(bǔ)救。報(bào)告總結(jié)稱:“對(duì)大數(shù)據(jù)的使用將成為單個(gè)企業(yè)的競(jìng)爭(zhēng)力與增長(zhǎng)的重要基礎(chǔ)。大數(shù)據(jù)的使用將支撐下一波生產(chǎn)力增長(zhǎng)與消費(fèi)者盈余浪潮。”
當(dāng)然,Teradata、IBM和甲骨文等公司推出太字節(jié)級(jí)(TB)的數(shù)據(jù)倉(cāng)庫(kù)已有十多年時(shí)間。在這段時(shí)期內(nèi),數(shù)據(jù)更多的是以各種各樣的格式被收集與存儲(chǔ),數(shù)據(jù)能夠在多個(gè)服務(wù)器間被平行處理,而這是大量信息被分析的必要基礎(chǔ)。除了維護(hù)來(lái)自數(shù)據(jù)庫(kù)的交易型數(shù)據(jù),認(rèn)真挑選數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)外,企業(yè)還獲得了服務(wù)器產(chǎn)生的大量日志數(shù)據(jù)、由機(jī)器生成的數(shù)據(jù)表格、來(lái)自內(nèi)部與外部社交網(wǎng)絡(luò)的用戶評(píng)論,以及其他松散的非結(jié)構(gòu)型數(shù)據(jù)源。
Hortonworks公司的CTO Eric Baldeschwieler說(shuō):“傳統(tǒng)的數(shù)據(jù)系統(tǒng)無(wú)法很好地處理大數(shù)據(jù),它們無(wú)法處理各種各樣的數(shù)據(jù),同時(shí)這些系統(tǒng)無(wú)法以相應(yīng)的速度進(jìn)行擴(kuò)展。這是因?yàn)閿?shù)據(jù)增長(zhǎng)速度很快,當(dāng)今的數(shù)據(jù)很少是結(jié)構(gòu)化的數(shù)據(jù)。”
研究機(jī)構(gòu)Monash Research的Curt Monash稱,數(shù)據(jù)增長(zhǎng)的速度正在以指數(shù)級(jí)的速度增長(zhǎng)。摩爾定律指出,集成電路上可容納的晶體管數(shù)目,約每隔18個(gè)月便會(huì)增加一倍,性能也將提升一倍。 因此并不奇怪,新服務(wù)器的性能每18個(gè)月就會(huì)增長(zhǎng)一倍,這也意味著它們的活動(dòng)將相應(yīng)地產(chǎn)生更多的數(shù)據(jù)集。
MapR公司的營(yíng)銷(xiāo)副總裁Jack Norris認(rèn)為,大數(shù)據(jù)解決方案代表了數(shù)據(jù)處理方式出現(xiàn)了重大轉(zhuǎn)變。此前,被認(rèn)真挑選出來(lái)的數(shù)據(jù)通過(guò)被輸入到數(shù)據(jù)倉(cāng)庫(kù)中,在那里它們將被進(jìn)一步檢測(cè)。隨著數(shù)據(jù)量的增長(zhǎng),網(wǎng)絡(luò)將成為瓶頸。而Hadoop等分布式系統(tǒng)能夠在數(shù)據(jù)所在地就對(duì)數(shù)據(jù)進(jìn)行分析。
大數(shù)據(jù)軟件僅僅是收集企業(yè)產(chǎn)生的所有數(shù)據(jù),讓管理員和分析師以后再考慮如何使用這些數(shù)據(jù),而不是在數(shù)據(jù)倉(cāng)庫(kù)中創(chuàng)建干凈的用戶數(shù)據(jù)子集放置數(shù)據(jù),然后再以有限的預(yù)設(shè)方式應(yīng)付查詢。在這一層面上,與傳統(tǒng)的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)相比,它們要更具備可擴(kuò)展性。