国产国产成年年人免费看片 ,国产在找视频在线

3.3 使用情況
Nutch使用Hadoop作業(yè)處理數(shù)據(jù)。

36大數(shù)據(jù)知識圖譜：

關于Nutch：Nutch 是一個開源Java 實現(xiàn)的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

4 Rackspace

4.1 背景
Rackspace hosting為企業(yè)提供管理系統(tǒng)。在數(shù)百臺服務器上為100萬用戶和幾千家公司提供郵件服務。

4.2 使用情況

日志分析。發(fā)送郵件需要使用多個postfix郵件代理服務器，大部分消息穿越多個Postfix服務器，但每個服務器只知道郵件的目的地，為了給消息建立完整的歷史信息，需要用Hadoop處理日志記錄。

4.3 使用方式
在數(shù)據(jù)中心, syslog-ng從source機器傳統(tǒng)日志數(shù)據(jù)到一組負載均衡的collector收集器機器。在收集器上，日志數(shù)據(jù)被匯集成一個單獨的數(shù)據(jù)流，用gzip格式進行輕量級壓縮。
當壓縮的日志流到達本地收集器，數(shù)據(jù)會被寫入Hadoop，這一步用簡單的python腳本寫入即可。
Hadoop集群有15個數(shù)據(jù)節(jié)點，每個節(jié)點使用普通cpu和3個500G硬盤。

4.4 計算
每個電子郵件有一個唯一標示符號queue-id。每個電子郵件有一個唯一的message-id，但惡意客戶端會重復發(fā)送消息，所以message-id會被偽造。
在Postfix日志，需要用queue-id查找message-id。
第一步，以queue-id為健，進行map，把日志log的每個分配給對應的queue-id，然后，執(zhí)行reduce過程，根據(jù)日志消息數(shù)值判斷queue-id的發(fā)送過程是否完整。
第二步，根據(jù)message-id對第一步的結果進行分組，以queue-di和message-id同時為鍵，以它們對應的日志行作為值，在reuce階段，判斷針對某個message-id的所有queue-id是否合理，驗證消息是否離開系統(tǒng)。

36大數(shù)據(jù)知識圖譜：

關于Rackspace：

Rackspace （NYSE：RAX）全球三大云計算中心之一，1998年成立，是一家全球領先的托管服務器及云計算提供商，公司總部位于美國，在英國，澳大利亞，瑞士，荷蘭及香港設有分部。在全球擁有10個以上數(shù)據(jù)中心，管理超過10萬臺服務器。Rackspace的托管服務產(chǎn)品包括專用服務器，電子郵件，SharePoint，云服務器，云存儲，云網(wǎng)站等。在服務架構上提供專用托管，公有云，私有云及混合云。

2010年，Rackspace與美國航空航天局（NASA）合作創(chuàng)始了開源云平臺OpenStack。2012年Rackspace宣布在自己的云平臺使用建立于OpenStack的技術，并開源自己的云平臺軟件Rackspace Cloud。

5. Cascading

Cascading

5.1 背景
Cascading是一個開源的Java庫，為MapReduce提供抽象層。用Java寫Hadoop的MapReduce是有難度的：cascading用簡單字段名和數(shù)據(jù)元組模型代替MapReduce的key-value；cascading引入了比Map和Reduce更抽象的層次，如Function, Fileter, Aggregator和Buffer。

5.2 使用情況
Cascading以字段名和元組的方式，把多個MapReduce的處理簡化成一個管道鏈接起來的形式處理數(shù)據(jù)。從例子來看非常簡潔，需要的代碼很少。

6. 用Pig和Wukong探索十億數(shù)據(jù)級別的網(wǎng)絡圖

大數(shù)據(jù)

6.1 圖=節(jié)點+連接節(jié)點的邊。

6.2 Infochimps項目，一個發(fā)現(xiàn)，共享，出售數(shù)據(jù)集的全球性網(wǎng)站。用簡單的腳本語言-不超過一頁，就可以處理TB級別的圖數(shù)據(jù)。
6.3 在Infochimps，有twitter，faceboobk的數(shù)據(jù)集；有wiki百科數(shù)據(jù)集；線蟲項目神經(jīng)愿和突觸的聯(lián)系；高速公路地圖等等。
6.4 在網(wǎng)絡圖分析上可以做出很多很好玩的有趣東東。

以上內(nèi)容來自《Hadoop權威指南》的案例。

36大數(shù)據(jù)

2/2 首頁上一頁 1 2

更多詳細信息，請您微信關注“計算網(wǎng)”公眾號：

從Hadoop 說起 六個真實的大數(shù)據(jù)應用案例

4 Rackspace

5. Cascading

6. 用Pig和Wukong探索十億數(shù)據(jù)級別的網(wǎng)絡圖

從Hadoop 說起六個真實的大數(shù)據(jù)應用案例