案例主要關注三個問題:數(shù)據(jù)從哪里來?數(shù)據(jù)如何存儲?數(shù)據(jù)如何計算?
1. Last.fm
1.1 背景
創(chuàng)建于2002年,提供網(wǎng)絡電臺和網(wǎng)絡音樂服務的社交網(wǎng)絡。每個月有2500萬人使用Last.fm,產(chǎn)生大量數(shù)據(jù)?,F(xiàn)在有了中文版http://cn.last.fm/,界面很不錯!
2006年初,Last.fm開始使用Hadoop,幾個月后投入實際應用。Hadoop是Last.fm基礎平臺的關鍵組件,有2個Hadoop集群,50臺計算機,300個內(nèi)核,100TB的硬盤空間。在集群上,運行數(shù)百種各種日常作業(yè),包括日志文件分析,A/B測試評測,即時處理和圖表生成。
1.2 圖表生成
圖表生成是Hadoop在Last.fm的第一個應用。
1.3 數(shù)據(jù)從哪里來
Last.fm有兩種收聽信息:用戶播放自己的音樂,如pc或者其他設備mp3,這種信息通過Last.fm的客戶端或者第三方應用發(fā)送到Last.fm,這一類叫scrobble收藏數(shù)據(jù);用戶收聽Last.fm網(wǎng)絡電臺的節(jié)目,以及聽節(jié)目時候的喜愛,跳過,禁止等操作信息,這一類叫radio listen電臺收聽數(shù)據(jù)。
1.4 數(shù)據(jù)存儲
收聽數(shù)據(jù)被發(fā)送到Last.fm,經(jīng)歷驗證和轉換,形成一系列有空格分隔的文本文件,包含用戶id-userid,音樂id-trackid,這首音樂被收藏的次數(shù)scrobble,這首音樂在電臺中收聽的次數(shù)radio,被跳過的次數(shù)skip。真實數(shù)據(jù)達到GB級別,有更多屬性字段。
1.5 數(shù)據(jù)處理
1.5.1 Unique Listeners作業(yè):統(tǒng)計收聽某一首歌的不同用戶數(shù),也就說說,有多少個用戶聽過某個歌,如果用戶重復收聽,只算一次。
1.5.2 Sum作業(yè):每首歌的收聽總數(shù),收藏總數(shù),電臺收聽總數(shù),被跳過的總數(shù)。
1.5.3 合作作業(yè):每首歌的被多少不同用戶收聽總數(shù),收聽總數(shù),收藏總數(shù),電臺收聽總數(shù),被跳過的總數(shù)。
1.5.4 這些數(shù)據(jù)會被作為周排行榜等在Last.fm主站上顯示出來。
2. Facebook
2.1 背景
Facebook社交網(wǎng)絡。
開始時,試用一個小Hadoop集群,很成功。同時開始開發(fā)Hive,Hive讓工程師能用SQL語言處理Hadoop集群的數(shù)據(jù),畢竟很多人更熟悉SQL。后來,F(xiàn)acbook運行了世界第二大Hadoop集群,數(shù)據(jù)超多2PB,每天加入10TB數(shù)據(jù),2400個內(nèi)核,9TB內(nèi)存,大部分時間硬件滿負荷運行。
2.2 使用情況
2.2.1 在大規(guī)模數(shù)據(jù)是以天和小時為單位產(chǎn)生概要信息。如用戶數(shù),網(wǎng)頁瀏覽次數(shù),網(wǎng)站訪問時間增常情況,廣告活動效果數(shù)據(jù),計算用戶喜歡人和應用程序。
2.2.2 分析歷史數(shù)據(jù),以設計和改進產(chǎn)品,以及管理。
2.2.3 文件存檔和日志查詢。
2.3 廣告分析
2.3.1 cpc-cost perclick點擊數(shù)計費,cpm-cost per mille每千人成本。
2.3.2 個性化廣告定制:根據(jù)個體用戶進行不同的內(nèi)容剪輯。Yahoo!的SmartAds,F(xiàn)acebook的Social Ads,Engagement Ad廣告意見/嵌入視頻交互。Facebook每天處理1TB數(shù)量級廣告數(shù)據(jù)。
2.3.3 用Hive分析A/B測試的結果。
2.3.4 Hadoop和Hive分析人氣網(wǎng)站,生物信息公司,原油勘探公司,在線廣告。
3.Nutch搜索引擎
3.1 Nutch框架用戶建立可擴展的crawler網(wǎng)絡爬蟲和搜索引擎。
3.2 架構
3.2.1 crawlDb網(wǎng)頁數(shù)據(jù)庫:跟蹤網(wǎng)絡crawler抓取的網(wǎng)頁和它們的狀態(tài)。
3.2.2 fetchlist爬取網(wǎng)頁清單:crawler定期刷新web視圖信息,下載新的網(wǎng)頁。
3.2.3 page content原始網(wǎng)頁數(shù)據(jù):從遠程網(wǎng)站下載,以原始的未世界的格式在本地存儲成字節(jié)數(shù)組。
3.2.4 解析的網(wǎng)頁數(shù)據(jù):Nutch為html, pdf, open office, ms office, rss提供了解析器。
3.2.5 linkdb鏈接圖數(shù)據(jù)庫:page rank來的。
3.2.6 lucene全文檢索索引:倒排索引,基于搜集到的所有網(wǎng)頁元數(shù)據(jù)和抽取到的純文本內(nèi)容建立。
更多詳細信息,請您微信關注“計算網(wǎng)”公眾號: