到2020年,電子數(shù)據(jù)存儲量將在2009年的基礎上增加44倍,達到35萬億GB。然而這并非數(shù)據(jù)存儲的末日。在正在形成數(shù)據(jù)時代,企業(yè)與政府用戶的的業(yè)務方向都將依賴大數(shù)據(jù)的積累與分析,如何保存、闡釋、檢索與分析海量數(shù)據(jù),就成為用戶們最關心的熱點。近日,紅旗軟件推出了Hadoop大數(shù)據(jù)處理服務,為各行各業(yè)的數(shù)據(jù)中心和數(shù)據(jù)管理等難題提供了新的解決方案。
據(jù)了解,RedFlag在基于OpenPOWER平臺上的Hadoop大數(shù)據(jù)處理服務中,構建了完整的hadoop ecosystem——包括hadoop、hbase、greenplum、R、PHP、Haproxy LVs Perl ruby python go nginx Redis mysql postgresql等hadoop生態(tài)系統(tǒng)的相關軟件。這些軟件能在基于OpenPOWER的硬件、RedFlag OS的平臺上有效提升了數(shù)據(jù)處理效率,快速擴展、監(jiān)控和告警等功能則讓集群管理更加便捷,從而實現(xiàn)輕松快速并經(jīng)濟地處理大量數(shù)據(jù)的需求。
Hadoop:最有價值的大數(shù)據(jù)處理平臺
Hadoop于2006年1月28日誕生,至今已有10年,它改變了企業(yè)對數(shù)據(jù)的存儲、處理和分析的過程,加速了大數(shù)據(jù)的發(fā)展,形成了自己的極其火爆的技術生態(tài)圈,并受到非常廣泛的應用。目前已經(jīng)被包括Google、Facebook、Twitter、百度等全球互聯(lián)網(wǎng)巨頭在內(nèi)的商業(yè)企業(yè)所使用。據(jù)統(tǒng)計,全世界一半以上的數(shù)據(jù)涉及Hadoop,讓其成為最有價值的大數(shù)據(jù)處理平臺之一。不過,Hadoop同時也面臨一些挑戰(zhàn),譬如本身的復雜性,以及企業(yè)如何將開源平臺與自身架構整合等。
Hadoop 主要用于大數(shù)據(jù)的并行計算,其中包括數(shù)據(jù)密集型并行計算、計算密集型并行計算、數(shù)據(jù)密集與計算密集混合型的并行計算。當下Hadoop的主要應用場景在歸檔、搜索引擎及數(shù)據(jù)倉庫上面,各個機構使用Hadoop不同的組件來實現(xiàn)自己的用例。而在這3個場景之外還有一個比較冷門的場景——流處理,這塊源于Hadoop 2.0可結合其他框架的特性,而在將來,Hadoop肯定會發(fā)展到聯(lián)機數(shù)據(jù)處理。
Hadoop平臺不僅能夠推動企業(yè)內(nèi)部的數(shù)據(jù)開放,還能夠讓每個人參與到報表、數(shù)據(jù)的研發(fā)過程。同時還能夠實現(xiàn)企業(yè)的數(shù)據(jù)共享,特別是Hadoop隊列,資源池,隊列,任務調(diào)度器的機制,能讓整個機型切換成多個資源,而不是以前的數(shù)據(jù)庫,一層層的隔離去使用。
RedFlag: 全球首家提供OpenPOWER平臺的Hadoop技術服務
從2015年初至今,紅旗作為整個OpenPOWER產(chǎn)業(yè)鏈的核心成員,組建了專業(yè)化的“OpenPOWER能力中心”,與IBM的LTC team、奧斯汀的核心研發(fā)團隊保持密切的深入內(nèi)核層面技術交流。此次,紅旗在OpenPOWER平臺上構建了完整的hadoop ecosystem——包括的hadoop、hbase、greenplum、R、PHP、Haproxy LVs Perl ruby python go nginx Redis mysql postgresql等hadoop生態(tài)系統(tǒng)的相關軟件。
紅旗在本次Hadoop的移植構建過程中,克服了greenplum沒有spec文件等諸多技術難點,以手動創(chuàng)建spec文件等方式完成“從無到有”,以至“從有到優(yōu)”,最終成功地將所有組件全部以rpm的形式遷移至OpenPOWER平臺,方便用戶安裝。目前,所有軟件源碼已全部移植成功, 并且在實際的生產(chǎn)場景中,不但保證了各軟件所有功能正常,且運行性能高于x86平臺。
紅旗OpenPOWER能力中心完成此項工作,是希望能從軟件層面、開發(fā)工具、數(shù)據(jù)庫、大數(shù)據(jù)包括云平臺、高可用等各個方面,能夠把一些開源軟件放到OpenPOWER上,充分利用OpenPOWER的加速技術、CAPI技術,為軟件加速,提高用戶應用環(huán)境中軟件運行效率。
RedFlag Linux OS +Hadoop
眾所周知,Hadoop是一個能夠對大數(shù)據(jù)進行分布式存儲和處理的軟件框架,它具有高可靠性、高擴展、容錯、高效、低成本的特點,一度廣受互聯(lián)網(wǎng)公司青睞,企業(yè)級用戶也越來越多的接受Hadoop。但凡事都有兩面性,Hadoop是非常耗費計算資源的,用戶希望獲得更優(yōu)秀的性能。
好馬必須配好鞍,恰恰OpenPOWER產(chǎn)品非常適合Hadoop應用。IBM曾專門針對 Hadoop來對硬件的性能優(yōu)化和調(diào)優(yōu),獲得了非常好的結果,有3.65倍的運行速度提升。而且,POWER在中國很多的行業(yè)、在企業(yè)級市場有著深厚的積淀和客戶群,產(chǎn)品也非常適合這些客戶。
Hadoop在大數(shù)據(jù)技術理念方面不同于虛擬化打造成“大型機”的方式,是用化整為零的方式將各種資源池化,文件被切開到不同層面,通過節(jié)點實現(xiàn)并行化IO。紅旗結合OpenPOWER的硬件優(yōu)勢,在對Linux內(nèi)核參數(shù)進行調(diào)優(yōu),在一定程度上提高了作業(yè)的運行效率,讓解決方案具有以下優(yōu)點: