我們已經(jīng)看到了的一大批面向終端用戶的大數(shù)據(jù)預(yù)處理創(chuàng)新,Alteryx、Trifacta和Paxata。這些工具降低了后期Hadoop采用者和初學(xué)者的進(jìn)入門(mén)檻,并將在2017年體現(xiàn)更大價(jià)值。
9、大數(shù)據(jù)成長(zhǎng):Hadoop增加了企業(yè)標(biāo)準(zhǔn)
Hadoop將逐漸成為企業(yè)IT環(huán)境的核心部分。
在2017年,我們將看到圍繞企業(yè)系統(tǒng)的安全、管理成為投資熱地的更多投資。ApacheSentry提供了一個(gè)系統(tǒng),在這個(gè)系統(tǒng)中,我們可以強(qiáng)制對(duì)元數(shù)據(jù)進(jìn)行細(xì)致的、按需分配的授權(quán)。
作為數(shù)據(jù)管理的一項(xiàng)重大創(chuàng)舉,Apache Atlas,讓企業(yè)可以在繁雜的數(shù)據(jù)生態(tài)系統(tǒng)中實(shí)行統(tǒng)一的數(shù)據(jù)分類。Apache Ranger為Hadoop提供集中式安全管理。
客戶開(kāi)始期望從企業(yè)級(jí)RDBMS平臺(tái)獲得這些類型的功能。這些功能走在新興大數(shù)據(jù)技術(shù)的前沿,從而消除了企業(yè)關(guān)于技術(shù)迭代而被淘汰方面的擔(dān)憂。
Hadoop對(duì)數(shù)據(jù)進(jìn)行細(xì)致管理、按需分配的實(shí)例
Last.fm創(chuàng)建于2002年,是提供網(wǎng)絡(luò)電臺(tái)和音樂(lè)服務(wù)的社交網(wǎng)絡(luò)。每個(gè)月有2500萬(wàn)人使用,產(chǎn)生大量數(shù)據(jù)。2006年初,Last.fm開(kāi)始使用Hadoop。Hadoop是Last.fm基礎(chǔ)平臺(tái)的關(guān)鍵組件,有2個(gè)Hadoop集群,運(yùn)行數(shù)百種各種日常作業(yè),包括日志文件分析,A/B測(cè)試評(píng)測(cè),即時(shí)處理和圖表生成。
圖表生成:圖表生成是Hadoop在Last.fm的第一個(gè)應(yīng)用。
數(shù)據(jù)從哪里來(lái):Last.fm有兩種收聽(tīng)信息:用戶播放自己的音樂(lè),如pc或者其他設(shè)備mp3,這種信息通過(guò)Last.fm的客戶端或者第三方應(yīng)用發(fā)送到Last.fm,這一類叫scrobble收藏?cái)?shù)據(jù);用戶收聽(tīng)Last.fm網(wǎng)絡(luò)電臺(tái)的節(jié)目,以及聽(tīng)節(jié)目時(shí)候的喜愛(ài),跳過(guò),禁止等操作信息,這一類叫radio listen電臺(tái)收聽(tīng)數(shù)據(jù)。
數(shù)據(jù)存儲(chǔ):收聽(tīng)數(shù)據(jù)被發(fā)送到Last.fm,經(jīng)歷驗(yàn)證和轉(zhuǎn)換,形成一系列有空格分隔的文本文件,包含用戶id-userid,音樂(lè)id-trackid,這首音樂(lè)被收藏的次數(shù)scrobble,這首音樂(lè)在電臺(tái)中收聽(tīng)的次數(shù)radio,被跳過(guò)的次數(shù)skip。真實(shí)數(shù)據(jù)達(dá)到GB級(jí)別,有更多屬性字段。
數(shù)據(jù)處理:
Unique Listeners作業(yè):統(tǒng)計(jì)收聽(tīng)某一首歌的不同用戶數(shù),也就說(shuō)說(shuō),有多少個(gè)用戶聽(tīng)過(guò)某個(gè)歌,如果用戶重復(fù)收聽(tīng),只算一次。
Sum作業(yè):每首歌的收聽(tīng)總數(shù),收藏總數(shù),電臺(tái)收聽(tīng)總數(shù),被跳過(guò)的總數(shù)。
合作作業(yè):每首歌被多少用戶收聽(tīng)總數(shù),收聽(tīng)總數(shù),收藏總數(shù),電臺(tái)收聽(tīng)總數(shù),被跳過(guò)的總數(shù)等。
最后,這些數(shù)據(jù)會(huì)被作為周排行榜等在Last.fm主站上顯示出來(lái)。
10、元數(shù)據(jù)目錄的建立幫助篩選出具有分析價(jià)值的數(shù)據(jù)
很長(zhǎng)一段時(shí)間以來(lái),公司拋棄了數(shù)據(jù),因?yàn)樗麄冋J(rèn)為海量的數(shù)據(jù)處理起來(lái)確實(shí)無(wú)從下手。用Hadoop當(dāng)然也可以處理大量的數(shù)據(jù),但是這些數(shù)據(jù)仍然沒(méi)有一個(gè)清晰的分類、易追溯的架構(gòu)。
元數(shù)據(jù)目錄可以幫助用戶發(fā)現(xiàn)和理解哪些數(shù)據(jù)需要使用自助服務(wù)工具進(jìn)行分析。客戶的這種需求正被Alation和Waterline這樣的公司填補(bǔ),它們使用機(jī)器學(xué)習(xí)來(lái)自動(dòng)篩選Hadoop需要分析的數(shù)據(jù):
如,使用標(biāo)簽對(duì)文件進(jìn)行編目,標(biāo)明數(shù)據(jù)資產(chǎn)之間的關(guān)聯(lián),必要時(shí)還會(huì)提供搜索UI給出的查詢建議。這大大縮短了數(shù)據(jù)使用者和管理者取得信任、查找以及準(zhǔn)確查詢數(shù)據(jù)的時(shí)間。在2017年,作為自助服務(wù)的自然延伸,我們將看到更多企業(yè)意識(shí)到自助分析的重要性,以及對(duì)其迫切的需求。