說起Spark,熟悉大數(shù)據(jù)架構(gòu)的人一定不會(huì)陌生,它已是繼Hadoop之后最活躍的開源項(xiàng)目之一。作為發(fā)源于美國加州大學(xué)伯克利分校AMPLab的集群計(jì)算平臺(tái),Spark立足于內(nèi)存計(jì)算,并以多迭代批量處理出發(fā),兼收并蓄數(shù)據(jù)倉庫、流處理和圖計(jì)算等多種計(jì)算形式得到了行業(yè)的肯定。作為國內(nèi)IT行業(yè)領(lǐng)軍廠商,浪潮早在2012年就推出了采用Hadoop+Spark架構(gòu)的大數(shù)據(jù)一體機(jī),如今這款產(chǎn)品已經(jīng)應(yīng)用于金融、電信、公安、交通、衛(wèi)生等各個(gè)行業(yè)領(lǐng)域,成為用戶大數(shù)據(jù)分析處理平臺(tái)的理想之選。
Hadoop+Spark的數(shù)據(jù)架構(gòu)模式
據(jù)了解,云海大數(shù)據(jù)一體機(jī)就是采用了業(yè)內(nèi)主流的Hadoop+Spark的架構(gòu)形式,搭建了國內(nèi)外領(lǐng)先的大數(shù)據(jù)分析平臺(tái)CloudCanyon,通過Spark計(jì)算框架消除了傳統(tǒng)Map/Reduce計(jì)算框架的弊病,實(shí)現(xiàn)了高效的內(nèi)存計(jì)算。Hadoop經(jīng)過多年的發(fā)展,大家對(duì)其性能已經(jīng)是耳熟能詳;但是對(duì)于Spark,許許多人還覺得有些陌生。
其實(shí)在架構(gòu)上Spark的優(yōu)勢(shì)更為明顯——Spark是一個(gè)靈活的計(jì)算框架,適合做批處理、工作流、交互式分析、迭代式機(jī)器學(xué)習(xí)、流處理等不同類型的應(yīng)用,因此Spark可以成為一個(gè)用途廣泛的計(jì)算引擎,并在未來取代Map/Reduce的地位。與此同時(shí),Spark還可以與Hadoop生態(tài)系統(tǒng)的很多組件互操作,可以運(yùn)作在新一代資源管理框架YARN上,它還可以讀取已有的存放在Hadoop上的數(shù)據(jù),這是個(gè)非常大的優(yōu)勢(shì)。
經(jīng)過復(fù)雜的系統(tǒng)調(diào)優(yōu)和的改進(jìn),浪潮云海大數(shù)據(jù)一體機(jī)具有高性能、穩(wěn)定性好、功能豐富、易管理等特征,采用不同的數(shù)據(jù)處理的架構(gòu)來提供對(duì)不同行業(yè)應(yīng)用的支撐。通過新型的數(shù)據(jù)處理架構(gòu),實(shí)現(xiàn)了計(jì)算隨數(shù)據(jù)分布的數(shù)據(jù)本地化,保證了業(yè)務(wù)的連續(xù)性,即使三到四千個(gè)計(jì)算單元重載節(jié)點(diǎn)情況下,還能夠?qū)崿F(xiàn)相對(duì)比較好的擴(kuò)展性。
浪潮云海大數(shù)據(jù)一體機(jī)的性能優(yōu)勢(shì)
Spark優(yōu)化后性能可比原生快數(shù)倍
從技術(shù)角度來說,浪潮云海大數(shù)據(jù)一體機(jī)支持高性能Apache Spark作為缺省執(zhí)行引擎,可比原生的Hadoop Map/Reduce快;其次,通過建立獨(dú)立與Spark的分布式列存緩存層,可以有效防止GC的影響,消除Spark的性能波動(dòng),同時(shí)在列式緩存上實(shí)現(xiàn)索引機(jī)制,進(jìn)一步提高了執(zhí)行性能;再次,在SQL執(zhí)行計(jì)劃優(yōu)化方面,實(shí)現(xiàn)了基于代價(jià)的優(yōu)化器(Cost based optimizer)以及多種優(yōu)化策略,性能可比原生Spark快數(shù)倍;最后通過全新的方法解決數(shù)據(jù)傾斜或者數(shù)據(jù)量過大的問題,使得處理超大數(shù)據(jù)量時(shí)也游刃有余。
3大語法實(shí)現(xiàn)SQL支持
浪潮云海大數(shù)據(jù)一體機(jī)支持SQL 99語法及PL/SQL過程語言擴(kuò)展,并且可以自動(dòng)識(shí)別HiveQL、SQL99和PL/SQL語法,在保持跟Hive兼容的同時(shí)提供更強(qiáng)大的SQL支持。由于現(xiàn)有的數(shù)據(jù)倉庫大都基于SQL99,而且國內(nèi)客戶大量使用PL/SQL,因此浪潮云海大數(shù)據(jù)一體機(jī)可以支持復(fù)雜的數(shù)據(jù)倉庫類的分析應(yīng)用,也使得原有數(shù)據(jù)庫系統(tǒng)遷移到Hadoop更為容易。
基于R的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)
浪潮云海大數(shù)據(jù)一體機(jī)包含了專業(yè)用于數(shù)據(jù)挖掘的R語言執(zhí)行引擎,并且擴(kuò)展了R語言,支持多種分布式數(shù)據(jù)挖掘算法,包括統(tǒng)計(jì)算法和機(jī)器學(xué)習(xí)算法;也支持在R中調(diào)用SQL語句,通過Spark訪問分布式內(nèi)存數(shù)據(jù)。這些功能使得用戶可以真正的在全量數(shù)據(jù)上進(jìn)行機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘,而再也不用使用采樣的方法,精準(zhǔn)度得到很大提高。
數(shù)據(jù)處理性價(jià)比提升10倍
浪潮云海大數(shù)據(jù)一體機(jī)支持混合存儲(chǔ)體系(內(nèi)存/閃存/磁盤),分布式列存儲(chǔ)可以存放在速度較快的閃存SSD上或者更快的內(nèi)存中。經(jīng)過實(shí)際測(cè)試發(fā)現(xiàn),大數(shù)據(jù)一體機(jī)中采用SSD替代大容量昂貴的內(nèi)存作為緩存,性能沒有明顯的下降,因此可以用同樣的價(jià)格買到容量大10倍的SSD作為緩存,提供了極高的數(shù)據(jù)處理性價(jià)比。
浪潮云海大數(shù)據(jù)一體機(jī)集成了計(jì)算單元、存儲(chǔ)單元、通訊單元、管理單元等核心模塊,能夠覆蓋數(shù)據(jù)的存儲(chǔ)、處理、展現(xiàn)等所有技術(shù)環(huán)節(jié)。正如浪潮集團(tuán)高級(jí)副總裁王恩東所描述的那樣:“云海大數(shù)據(jù)一體機(jī)正是順應(yīng)時(shí)代要求推出的,采用新型體系架構(gòu)的軟件一體化的產(chǎn)品。通過浪潮集團(tuán)一體化的產(chǎn)品、服務(wù),幫助用戶快速實(shí)現(xiàn)對(duì)大數(shù)據(jù)的應(yīng)用與開發(fā),同時(shí)我們也希望以此為起點(diǎn),增強(qiáng)產(chǎn)業(yè)鏈的應(yīng)用,共同挖掘并充分釋放中國大數(shù)據(jù)的潛能,將中國的大數(shù)據(jù)產(chǎn)業(yè)做大做強(qiáng)?!?p align="center" class="pageLink"> 1/2 1 2 下一頁 尾頁