3.3 使用情況
Nutch使用Hadoop作業(yè)處理數(shù)據(jù)。
36大數(shù)據(jù)知識圖譜:
關于Nutch:Nutch 是一個開源Java 實現(xiàn)的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
4 Rackspace
4.1 背景
Rackspace hosting為企業(yè)提供管理系統(tǒng)。在數(shù)百臺服務器上為100萬用戶和幾千家公司提供郵件服務。
4.2 使用情況
日志分析。發(fā)送郵件需要使用多個postfix郵件代理服務器,大部分消息穿越多個Postfix服務器,但每個服務器只知道郵件的目的地,為了給消息建立完整的歷史信息,需要用Hadoop處理日志記錄。
4.3 使用方式
在數(shù)據(jù)中心, syslog-ng從source機器傳統(tǒng)日志數(shù)據(jù)到一組負載均衡的collector收集器機器。在收集器上,日志數(shù)據(jù)被匯集成一個單獨的數(shù)據(jù)流,用gzip格式進行輕量級壓縮。
當壓縮的日志流到達本地收集器,數(shù)據(jù)會被寫入Hadoop,這一步用簡單的python腳本寫入即可。
Hadoop集群有15個數(shù)據(jù)節(jié)點,每個節(jié)點使用普通cpu和3個500G硬盤。
4.4 計算
每個電子郵件有一個唯一標示符號queue-id。每個電子郵件有一個唯一的message-id,但惡意客戶端會重復發(fā)送消息,所以message-id會被偽造。
在Postfix日志,需要用queue-id查找message-id。
第一步,以queue-id為健,進行map,把日志log的每個分配給對應的queue-id,然后,執(zhí)行reduce過程,根據(jù)日志消息數(shù)值判斷queue-id的發(fā)送過程是否完整。
第二步,根據(jù)message-id對第一步的結果進行分組,以queue-di和message-id同時為鍵,以它們對應的日志行作為值,在reuce階段,判斷針對某個message-id的所有queue-id是否合理,驗證消息是否離開系統(tǒng)。
36大數(shù)據(jù)知識圖譜:
關于Rackspace:
Rackspace (NYSE:RAX)全球三大云計算中心之一,1998年成立,是一家全球領先的托管服務器及云計算提供商,公司總部位于美國,在英國,澳大利亞,瑞士,荷蘭及香港設有分部。在全球擁有10個以上數(shù)據(jù)中心,管理超過10萬臺服務器。Rackspace的托管服務產(chǎn)品包括專用服務器,電子郵件,SharePoint,云服務器,云存儲,云網(wǎng)站等。在服務架構上提供專用托管,公有云,私有云及混合云。
2010年,Rackspace與美國航空航天局(NASA)合作創(chuàng)始了開源云平臺OpenStack。2012年Rackspace宣布在自己的云平臺使用建立于OpenStack的技術,并開源自己的云平臺軟件Rackspace Cloud。
5. Cascading
5.1 背景
Cascading是一個開源的Java庫,為MapReduce提供抽象層。用Java寫Hadoop的MapReduce是有難度的:cascading用簡單字段名和數(shù)據(jù)元組模型代替MapReduce的key-value;cascading引入了比Map和Reduce更抽象的層次,如Function, Fileter, Aggregator和Buffer。
5.2 使用情況
Cascading以字段名和元組的方式,把多個MapReduce的處理簡化成一個管道鏈接起來的形式處理數(shù)據(jù)。從例子來看非常簡潔,需要的代碼很少。
6. 用Pig和Wukong探索十億數(shù)據(jù)級別的網(wǎng)絡圖
6.1 圖=節(jié)點+連接節(jié)點的邊。
6.2 Infochimps項目,一個發(fā)現(xiàn),共享,出售數(shù)據(jù)集的全球性網(wǎng)站。用簡單的腳本語言-不超過一頁,就可以處理TB級別的圖數(shù)據(jù)。
6.3 在Infochimps,有twitter,faceboobk的數(shù)據(jù)集;有wiki百科數(shù)據(jù)集;線蟲項目神經(jīng)愿和突觸的聯(lián)系;高速公路地圖等等。
6.4 在網(wǎng)絡圖分析上可以做出很多很好玩的有趣東東。
以上內(nèi)容來自《Hadoop權威指南》的案例。
更多詳細信息,請您微信關注“計算網(wǎng)”公眾號: