小说区欧美激情小说,2019精品自拍视频曝光,亚洲毛片儿免费观看

MapR

Web智能提供商ComScore對(duì)其“大數(shù)據(jù)”分析系統(tǒng)做了一次巨大的改變。

位于美國弗吉尼亞州的ComScore公司將“大數(shù)據(jù)”環(huán)境從Cloudera Apache Hadoop轉(zhuǎn)到了MapR公司提供的平臺(tái)上。ComScore自稱有超過1000臺(tái)服務(wù)器并繼續(xù)將Cloudera用作培訓(xùn)目的，更換的決策大部分是基于成本的考慮，另外還有MapR支持NFS協(xié)議。

ComScore的CTOMikeBrown說：“我們要投資購買的MapR，每年還按節(jié)點(diǎn)支付一定百分比的維護(hù)費(fèi)用。NFS可以讓我們的企業(yè)系統(tǒng)很容易訪問集群中的數(shù)據(jù)?！?/p>

日益增長(zhǎng)的數(shù)據(jù)存儲(chǔ)促使ComScore采取行動(dòng)

ComScore監(jiān)控并度量在線購買者的行為。公司跟蹤了超過200萬消費(fèi)者，這些消費(fèi)者允許ComScore監(jiān)控和分析他們?cè)诰W(wǎng)上的購買和點(diǎn)擊行為。通過分析消費(fèi)者的行為，ComScore能用有價(jià)值的智能方式為廣告商提供關(guān)于如何確定目標(biāo)市場(chǎng)的方案，并按他們的要求做出統(tǒng)計(jì)。

“大部分網(wǎng)絡(luò)廣告都是通過我們的工具來做規(guī)劃，購買和銷售，”Brown說：“我們?yōu)閺V告商建議最適合投放廣告的站點(diǎn)。

跟蹤200萬消費(fèi)者，分析他們的行為，意味著ComScore每天必須要處理巨大的數(shù)據(jù)量。據(jù)Brown說，公司當(dāng)前管理了超過PB級(jí)別的數(shù)據(jù)。

由于數(shù)據(jù)持續(xù)大量地增長(zhǎng)，公司于2009年開始使用Hadoop，并于去年七月實(shí)現(xiàn)了從Cloudera到MapR的切換。

隨著全球經(jīng)濟(jì)出現(xiàn)滑坡，許多IT專家說為數(shù)據(jù)管理項(xiàng)目采購、審批、申請(qǐng)資金都比較困難。據(jù)公司的核心業(yè)務(wù)的副總裁WillDuckworth說，如果實(shí)施MapR這就不成問題了。

Duckworth說，ComScore在經(jīng)過相對(duì)輕松的實(shí)施過程后，于去年七月正式上線MapR。當(dāng)時(shí)，公司有還運(yùn)行著Cloudera產(chǎn)品，要求不停機(jī)或少停機(jī)完成到MapR的遷移。ComScore的IT團(tuán)隊(duì)通過拷貝Cloudera數(shù)據(jù)再將數(shù)據(jù)重新加載進(jìn)MapR就很容易地實(shí)現(xiàn)了這一目標(biāo)。

“如果要再做一遍，我們可能就不會(huì)重新裝載數(shù)據(jù)了，因?yàn)閿?shù)據(jù)量現(xiàn)在更大了，”Duchworth說：“我們可能會(huì)采用滾動(dòng)的方式，先處理25%的機(jī)器，先將他們轉(zhuǎn)為MapR，然后拷貝數(shù)據(jù)，然后再做另外25%的機(jī)器，就這樣完成所有的?！?/p>

Duckworth和Brown特別喜歡MapR的直接訪問NFS功能，它將Hadoop分布式文件系統(tǒng)數(shù)據(jù)顯示為NFS文件，可以很容易地匯總，修改或覆蓋。

“HDFS是內(nèi)部的，但為了從Hadoop存取數(shù)據(jù)，你必須要做一些類似HDFS導(dǎo)出的操作，”Brown說：“使用MapR，可以先將HDFS裝載為NFS，然后再使用本地的工具，無論是Windows還是Linux，UNIX都行。”

排序軟件增加數(shù)據(jù)準(zhǔn)備的速度

MapRHadoop分布式計(jì)算極大地加快ComScore大數(shù)據(jù)管理操作，但這不是公司所采取的唯一的高性能計(jì)算解決方案。

ComScore也使用了業(yè)務(wù)應(yīng)用巨頭SAP的高速分析數(shù)據(jù)庫SybaseIQ來增強(qiáng)其客戶知識(shí)平臺(tái)(CKP)，這是給用戶提供用戶網(wǎng)上行為分析的數(shù)據(jù)倉庫。

據(jù)ComScore透露，CKP服務(wù)監(jiān)視了100萬客戶的行為，SybaseIQ數(shù)據(jù)倉庫目前存有40T的壓縮信息。

此外，ComScore正在運(yùn)行Syncsort的數(shù)據(jù)集成和排序軟件以加速Hadoop處理。公司于2009年上線了Syncsort，最近已升級(jí)到SyncsortDMExpress6.5，軟件的最新版本新增了對(duì)Hadoop的支持。

在將數(shù)據(jù)裝載進(jìn)MapR做進(jìn)一步處理和分析之前，DMExpress聚集重復(fù)的字符串，幫助ComScore壓縮進(jìn)來的數(shù)據(jù)流。他們將ComScore直接嵌入到Syncsort的25~30個(gè)業(yè)務(wù)應(yīng)用中以增加數(shù)據(jù)準(zhǔn)備過程的效率。

Brown說：“我們購買了Syncsort來幫助解決排序的問題，因?yàn)閿?shù)據(jù)量增長(zhǎng)得很快，Syncsort的壓縮算法通過尋找重復(fù)字符串并排序數(shù)據(jù)，把這些重復(fù)數(shù)據(jù)放在一起，從而增加了壓縮比?！?/p>

大數(shù)據(jù)分析最佳實(shí)踐

Brown說，正在考慮大數(shù)據(jù)分析可行性的組織應(yīng)該記住，要規(guī)劃潛在的數(shù)據(jù)增長(zhǎng)——因?yàn)榇髷?shù)據(jù)爆炸沒有跡象會(huì)減慢下來。

對(duì)數(shù)據(jù)排序軟件感興趣的公司應(yīng)該尋找易于實(shí)施并完全能與現(xiàn)有的硬件兼容的產(chǎn)品。

“這種技術(shù)可以讓很多系跑得更快，”Brown解釋說：“但是有個(gè)問題沒有考慮：是否能很容易地將這個(gè)軟件與現(xiàn)有的應(yīng)用集成。”

大數(shù)據(jù)分析案例：從Cloudera轉(zhuǎn)到MapR