Web智能提供商ComScore對(duì)其“大數(shù)據(jù)”分析系統(tǒng)做了一次巨大的改變。
位于美國弗吉尼亞州的ComScore公司將“大數(shù)據(jù)”環(huán)境從Cloudera Apache Hadoop轉(zhuǎn)到了MapR公司提供的平臺(tái)上。ComScore自稱有超過1000臺(tái)服務(wù)器并繼續(xù)將Cloudera用作培訓(xùn)目的,更換的決策大部分是基于成本的考慮,另外還有MapR支持NFS協(xié)議。
ComScore的CTOMikeBrown說:“我們要投資購買的MapR,每年還按節(jié)點(diǎn)支付一定百分比的維護(hù)費(fèi)用。NFS可以讓我們的企業(yè)系統(tǒng)很容易訪問集群中的數(shù)據(jù)?!?/p>
日益增長(zhǎng)的數(shù)據(jù)存儲(chǔ)促使ComScore采取行動(dòng)
ComScore監(jiān)控并度量在線購買者的行為。公司跟蹤了超過200萬消費(fèi)者,這些消費(fèi)者允許ComScore監(jiān)控和分析他們?cè)诰W(wǎng)上的購買和點(diǎn)擊行為。通過分析消費(fèi)者的行為,ComScore能用有價(jià)值的智能方式為廣告商提供關(guān)于如何確定目標(biāo)市場(chǎng)的方案,并按他們的要求做出統(tǒng)計(jì)。
“大部分網(wǎng)絡(luò)廣告都是通過我們的工具來做規(guī)劃,購買和銷售,”Brown說:“我們?yōu)閺V告商建議最適合投放廣告的站點(diǎn)。
跟蹤200萬消費(fèi)者,分析他們的行為,意味著ComScore每天必須要處理巨大的數(shù)據(jù)量。據(jù)Brown說,公司當(dāng)前管理了超過PB級(jí)別的數(shù)據(jù)。
由于數(shù)據(jù)持續(xù)大量地增長(zhǎng),公司于2009年開始使用Hadoop,并于去年七月實(shí)現(xiàn)了從Cloudera到MapR的切換。
隨著全球經(jīng)濟(jì)出現(xiàn)滑坡,許多IT專家說為數(shù)據(jù)管理項(xiàng)目采購、審批、申請(qǐng)資金都比較困難。據(jù)公司的核心業(yè)務(wù)的副總裁WillDuckworth說,如果實(shí)施MapR這就不成問題了。
Duckworth說,ComScore在經(jīng)過相對(duì)輕松的實(shí)施過程后,于去年七月正式上線MapR。當(dāng)時(shí),公司有還運(yùn)行著Cloudera產(chǎn)品,要求不停機(jī)或少停機(jī)完成到MapR的遷移。ComScore的IT團(tuán)隊(duì)通過拷貝Cloudera數(shù)據(jù)再將數(shù)據(jù)重新加載進(jìn)MapR就很容易地實(shí)現(xiàn)了這一目標(biāo)。
“如果要再做一遍,我們可能就不會(huì)重新裝載數(shù)據(jù)了,因?yàn)閿?shù)據(jù)量現(xiàn)在更大了,”Duchworth說:“我們可能會(huì)采用滾動(dòng)的方式,先處理25%的機(jī)器,先將他們轉(zhuǎn)為MapR,然后拷貝數(shù)據(jù),然后再做另外25%的機(jī)器,就這樣完成所有的?!?/p>
Duckworth和Brown特別喜歡MapR的直接訪問NFS功能,它將Hadoop分布式文件系統(tǒng)數(shù)據(jù)顯示為NFS文件,可以很容易地匯總,修改或覆蓋。
“HDFS是內(nèi)部的,但為了從Hadoop存取數(shù)據(jù),你必須要做一些類似HDFS導(dǎo)出的操作,”Brown說:“使用MapR,可以先將HDFS裝載為NFS,然后再使用本地的工具,無論是Windows還是Linux,UNIX都行。”
排序軟件增加數(shù)據(jù)準(zhǔn)備的速度
MapRHadoop分布式計(jì)算極大地加快ComScore大數(shù)據(jù)管理操作,但這不是公司所采取的唯一的高性能計(jì)算解決方案。
ComScore也使用了業(yè)務(wù)應(yīng)用巨頭SAP的高速分析數(shù)據(jù)庫SybaseIQ來增強(qiáng)其客戶知識(shí)平臺(tái)(CKP),這是給用戶提供用戶網(wǎng)上行為分析的數(shù)據(jù)倉庫。
據(jù)ComScore透露,CKP服務(wù)監(jiān)視了100萬客戶的行為,SybaseIQ數(shù)據(jù)倉庫目前存有40T的壓縮信息。
此外,ComScore正在運(yùn)行Syncsort的數(shù)據(jù)集成和排序軟件以加速Hadoop處理。公司于2009年上線了Syncsort,最近已升級(jí)到SyncsortDMExpress6.5,軟件的最新版本新增了對(duì)Hadoop的支持。
在將數(shù)據(jù)裝載進(jìn)MapR做進(jìn)一步處理和分析之前,DMExpress聚集重復(fù)的字符串,幫助ComScore壓縮進(jìn)來的數(shù)據(jù)流。他們將ComScore直接嵌入到Syncsort的25~30個(gè)業(yè)務(wù)應(yīng)用中以增加數(shù)據(jù)準(zhǔn)備過程的效率。
Brown說:“我們購買了Syncsort來幫助解決排序的問題,因?yàn)閿?shù)據(jù)量增長(zhǎng)得很快,Syncsort的壓縮算法通過尋找重復(fù)字符串并排序數(shù)據(jù),把這些重復(fù)數(shù)據(jù)放在一起,從而增加了壓縮比?!?/p>
大數(shù)據(jù)分析最佳實(shí)踐
Brown說,正在考慮大數(shù)據(jù)分析可行性的組織應(yīng)該記住,要規(guī)劃潛在的數(shù)據(jù)增長(zhǎng)——因?yàn)榇髷?shù)據(jù)爆炸沒有跡象會(huì)減慢下來。
對(duì)數(shù)據(jù)排序軟件感興趣的公司應(yīng)該尋找易于實(shí)施并完全能與現(xiàn)有的硬件兼容的產(chǎn)品。
“這種技術(shù)可以讓很多系跑得更快,”Brown解釋說:“但是有個(gè)問題沒有考慮:是否能很容易地將這個(gè)軟件與現(xiàn)有的應(yīng)用集成。”