更高IO,更快Map配置
將計(jì)算移動(dòng)到所在數(shù)據(jù)的節(jié)點(diǎn)上,通過節(jié)點(diǎn)實(shí)現(xiàn)并行化IO,因此需要掛很多層。而Map Reduce任務(wù)的數(shù)量跟CPU核數(shù)捆綁,因此CPU核數(shù)越多,Map配置就越快。OpenPOWER去年推出的兩款服務(wù)器都是雙路2U主機(jī),配備最多24個(gè)核,在此硬件平臺(tái)上,Map配置速度明顯優(yōu)于X86平臺(tái)。
另外,紅旗在Hadoop調(diào)優(yōu)中,將Linux命令blockdev設(shè)置預(yù)讀取緩沖區(qū)的大小,以提高Hadoop中大文件順序讀的性能。便于用戶系統(tǒng)通過移動(dòng)計(jì)算取代移動(dòng)數(shù)據(jù),以獲得更高的IO,以實(shí)現(xiàn)大數(shù)據(jù)的真正價(jià)值。
按需定制,易用性高
紅旗在移植構(gòu)建工作之外,推出“Linux OS +Hadoop”的解決方案,該方案具備高擴(kuò)展性,能夠根據(jù)企業(yè)需要將集群處理數(shù)據(jù)能力從TB擴(kuò)展到PB級(jí)別,并且用戶可以自由選擇任意數(shù)目的節(jié)點(diǎn)來處理數(shù)據(jù)。同時(shí),用戶擁有每個(gè)節(jié)點(diǎn)的最高級(jí)別(root)訪問權(quán)限,可以完全掌控整個(gè)集群。用戶可以自由安裝額外的應(yīng)用程序來定制每個(gè)集群,RedFlag Linux OS +Hadoop也同時(shí)提供豐富的組件,包括不限于hadoop、hbase、greenplum、R、PHP、Haproxy LVs Perl ruby python go nginx Redis mysql postgresql等等。
Hadoop應(yīng)用環(huán)境一覽
Hadoop平臺(tái)是能夠推動(dòng)企業(yè)內(nèi)部的數(shù)據(jù)開放,能夠讓每個(gè)人參與到報(bào)表、數(shù)據(jù)的研發(fā)過程。能夠?qū)崿F(xiàn)企業(yè)的數(shù)據(jù)共享,特別是Hadoop隊(duì)列,資源池,隊(duì)列,任務(wù)調(diào)度器的機(jī)制,能讓整個(gè)機(jī)型切換成多個(gè)資源進(jìn)行管理,不僅在企業(yè)的數(shù)據(jù)查詢與分析系統(tǒng)中提供了查找、收集、識(shí)別、上傳、標(biāo)準(zhǔn)化、存儲(chǔ)、再利用與服務(wù)數(shù)據(jù)的方式,并且顯著增加了數(shù)據(jù)的靈活性、彈性與易用性。
無論是互聯(lián)網(wǎng)巨頭如谷歌,F(xiàn)acebook和LinkedIn,還是中國(guó)在數(shù)據(jù)時(shí)代中需求日益迫切的各行業(yè)用戶,他們?cè)贖adoop應(yīng)用的探究之路上已有許多成功案例:
01網(wǎng)絡(luò)資源和在線零售商的推薦引擎:
使用Hadoop根據(jù)用戶的個(gè)人資料和行為數(shù)據(jù)匹配和推薦用戶、產(chǎn)品和服務(wù)。LinkedIn使用此方法增強(qiáng)其“你可能認(rèn)識(shí)的人”這一功能,而亞馬遜利用該方法為網(wǎng)上消費(fèi)者推薦相關(guān)產(chǎn)品。
02社會(huì)化媒體和社交網(wǎng)絡(luò)數(shù)據(jù)中情感分析:
Hadoop與先進(jìn)的文本分析工具結(jié)合,分析社會(huì)化媒體和社交網(wǎng)絡(luò)發(fā)布的非結(jié)構(gòu)化的文本,包括Tweets和Facebook,以確定用戶對(duì)特定公司,品牌或產(chǎn)品的情緒。分析既可以專注于宏觀層面的情緒,也可以細(xì)分到個(gè)人用戶的情緒。
03財(cái)務(wù)公司、銀行等公司的風(fēng)險(xiǎn)建模:
使用Hadoop和下一代數(shù)據(jù)倉(cāng)庫(kù)分析大量交易數(shù)據(jù),以確定金融資產(chǎn)的風(fēng)險(xiǎn),模擬市場(chǎng)行為為潛在的“假設(shè)”方案做準(zhǔn)備,并根據(jù)風(fēng)險(xiǎn)為潛在客戶打分。
04金融公司、零售商的欺詐檢測(cè):
使用大數(shù)據(jù)技術(shù)將客戶行為與歷史交易數(shù)據(jù)結(jié)合來檢測(cè)欺詐行為。例如,信用卡公司使用大數(shù)據(jù)技術(shù)識(shí)別可能的被盜卡的交易行為。
05營(yíng)銷活動(dòng)分析及客戶流失分析:
各行業(yè)的營(yíng)銷部門長(zhǎng)期使用技術(shù)手段監(jiān)測(cè)和確定營(yíng)銷活動(dòng)的有效性。大數(shù)據(jù)讓營(yíng)銷團(tuán)隊(duì)擁有更大量的越來越精細(xì)的數(shù)據(jù),如點(diǎn)擊流數(shù)據(jù)和呼叫詳情記錄數(shù)據(jù),以提高分析的準(zhǔn)確性。
企業(yè)使用Hadoop和大數(shù)據(jù)技術(shù)分析客戶行為數(shù)據(jù)并確定分析模型,該模型指出哪些客戶最有可能流向存在競(jìng)爭(zhēng)關(guān)系的供應(yīng)商或服務(wù)商。企業(yè)就能采取最有效的措施挽留欲流失客戶。
06社交圖譜分析:
Hadoop和下一代數(shù)據(jù)倉(cāng)庫(kù)相結(jié)合,通過挖掘社交網(wǎng)絡(luò)數(shù)據(jù),可以確定社交網(wǎng)絡(luò)中哪些客戶對(duì)其他客戶產(chǎn)生最大的影響力。這有助于企業(yè)確定其“最重要”的客戶,不總是那些購(gòu)買最多產(chǎn)品或花最多錢的,而是那些最能夠影響他人購(gòu)買行為的客戶。
07用戶體驗(yàn)分析:
面向消費(fèi)者的企業(yè)使用Hadoop和其他大數(shù)據(jù)技術(shù)將之前單一 客戶互動(dòng)渠道(如呼叫中心,網(wǎng)上聊天,微博等)數(shù)據(jù)整合在一起, ,以獲得對(duì)客戶體驗(yàn)的完整視圖。這使企業(yè)能夠了解客戶交互渠道之間的相互影響,從而優(yōu)化整個(gè)客戶生命周期的用戶體驗(yàn)。