10月27日,2016年全國高性能計(jì)算學(xué)術(shù)年會(HPC China 2016)在西安舉行。國內(nèi)領(lǐng)先的信息系統(tǒng)綜合服務(wù)商中科曙光在會上發(fā)布了國內(nèi)首個(gè)“科學(xué)大數(shù)據(jù)引擎”,旨在幫助政府部門、科研院所、教育機(jī)構(gòu)、行業(yè)技術(shù)創(chuàng)新中心、大型企業(yè)研發(fā)部門等用戶向大數(shù)據(jù)研究方面轉(zhuǎn)型,促進(jìn)數(shù)據(jù)密集型計(jì)算架構(gòu)在各行業(yè)領(lǐng)域的創(chuàng)新發(fā)展和深入應(yīng)用。曙光公司總裁歷軍說,科學(xué)大數(shù)據(jù)引擎集成了曙光在高性能計(jì)算、海量數(shù)據(jù)存儲和大數(shù)據(jù)處理分析技術(shù)等領(lǐng)域的優(yōu)勢資源,以積極應(yīng)對科學(xué)大數(shù)據(jù)發(fā)展對傳統(tǒng)HPC系統(tǒng)提出的挑戰(zhàn)。
“科學(xué)大數(shù)據(jù)的時(shí)代已經(jīng)來臨?!笔锕夤究偛脷v軍介紹說,數(shù)字化進(jìn)程正在引發(fā)不同行業(yè)領(lǐng)域的群體性技術(shù)革命,已經(jīng)深入到IT互聯(lián)網(wǎng)、科學(xué)研究、工業(yè)制造、現(xiàn)代農(nóng)業(yè)、服務(wù)業(yè)等各個(gè)應(yīng)用場景,有力地帶動(dòng)了產(chǎn)業(yè)升級和技術(shù)革新。而大數(shù)據(jù)技術(shù)給科學(xué)研究帶來的影響更為深遠(yuǎn)——科學(xué)發(fā)現(xiàn)將越來越依賴數(shù)據(jù)密集型計(jì)算來驅(qū)動(dòng)。今天,大數(shù)據(jù)研究已經(jīng)成為繼理論、實(shí)驗(yàn)和計(jì)算模擬之后的第四種科學(xué)范式,在新型材料、生物基因、精準(zhǔn)醫(yī)學(xué)、地球科學(xué)、生態(tài)環(huán)境、衛(wèi)星遙感、天文、空間地理、高能物理、現(xiàn)代農(nóng)業(yè)等諸多領(lǐng)域受到廣大科研人員的高度重視。
面向科學(xué)大數(shù)據(jù)應(yīng)時(shí)而動(dòng)
“科學(xué)研究正變成一個(gè)又一個(gè)的大數(shù)據(jù)問題。”曙光公司高性能產(chǎn)品事業(yè)部總經(jīng)理曹振南舉例說,“千人基因組計(jì)劃”每月產(chǎn)生1萬億條堿基序列信息,我國30多個(gè)在軌民用航天平臺每年有超過3PB遙感衛(wèi)星數(shù)據(jù),F(xiàn)AST 射電望遠(yuǎn)鏡的數(shù)據(jù)產(chǎn)出速度是6000億條記錄/年,大型強(qiáng)子對撞機(jī)實(shí)驗(yàn)每年產(chǎn)生15PB原始數(shù)據(jù)……“未來,基于對科學(xué)大數(shù)據(jù)的處理和分析將成為發(fā)現(xiàn)新知識的基本特征?!?/p>
科學(xué)大數(shù)據(jù)的海量、多源、異構(gòu)、高維等特征,向傳統(tǒng)HPC系統(tǒng)發(fā)起了全新的挑戰(zhàn)?!岸鄶?shù)科研項(xiàng)目的數(shù)據(jù)量非常巨大并快速變化,且往往是分布、異構(gòu)的,傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)已不能滿足需要;此外對科學(xué)大數(shù)據(jù)的‘計(jì)算’包括了從數(shù)據(jù)獲取、管理到分析、可視化的全過程,傳統(tǒng)的高性能計(jì)算亟需將服務(wù)向外延拓展?!辈苷衲辖忉屨f。
作為誕生于科研國家隊(duì)、多年服務(wù)于科研領(lǐng)域的HPC領(lǐng)軍企業(yè),中科曙光敏銳地洞察到科學(xué)大數(shù)據(jù)的未來前景及其對“計(jì)算-存儲-分析”架構(gòu)提出的更高要求,率先將“大力發(fā)展科學(xué)大數(shù)據(jù)”列入公司“數(shù)據(jù)中國加速計(jì)劃”戰(zhàn)略,為科學(xué)大數(shù)據(jù)引擎的進(jìn)一步開發(fā)和提高水平提供了有力的保障。
走向融合的計(jì)算模式
針對科學(xué)大數(shù)據(jù)的行業(yè)應(yīng)用特征,曙光公司認(rèn)為,科學(xué)大數(shù)據(jù)引擎將實(shí)現(xiàn)計(jì)算存儲分析一體化,充當(dāng)連接數(shù)據(jù)源和業(yè)務(wù)應(yīng)用的“黑匣子”,完成對數(shù)據(jù)的清洗轉(zhuǎn)換、存儲與管理、數(shù)據(jù)處理與挖掘、數(shù)據(jù)分析及可視化等工作,架起從科學(xué)數(shù)據(jù)到科學(xué)發(fā)現(xiàn)的橋梁。
據(jù)曹振南介紹,在科學(xué)大數(shù)據(jù)引擎的“黑匣子”里,部署著曙光全系列數(shù)據(jù)計(jì)算技術(shù)及服務(wù)產(chǎn)品,主要由5個(gè)引擎組件構(gòu)成,分別是:針對海量非結(jié)構(gòu)化數(shù)據(jù)的曙光ParaStor并行存儲系統(tǒng)、類型豐富的曙光高性能計(jì)算平臺、最大化提升系統(tǒng)整體效能的曙光深度學(xué)習(xí)計(jì)算平臺、高效敏捷的曙光XData大數(shù)據(jù)處理平臺以及能覆蓋科學(xué)大數(shù)據(jù)中心全生命周期的曙光 EasyOP運(yùn)維管理平臺。
“科學(xué)大數(shù)據(jù)引擎融合了高性能計(jì)算、云計(jì)算、認(rèn)知計(jì)算、大數(shù)據(jù)分析計(jì)算等多種模式,是高性能計(jì)算與數(shù)據(jù)分析挖掘的有機(jī)結(jié)合,可為科研工作者提供一個(gè)實(shí)現(xiàn)科學(xué)數(shù)據(jù)存儲、分析和管理的一體化解決方案?!辈苷衲显u價(jià)說。 曙光的科學(xué)大數(shù)據(jù)引擎擁有以下六個(gè)亮點(diǎn)特征:
1)專為科學(xué)數(shù)據(jù)處理流程進(jìn)行優(yōu)化,提供“計(jì)算、存儲、分析、運(yùn)維”一體化強(qiáng)勁性能;
2)基于曙光獨(dú)特的超融合架構(gòu),靈活支持高性能計(jì)算、大數(shù)據(jù)計(jì)算、深度學(xué)習(xí)計(jì)算等多種計(jì)算模式;
3)超強(qiáng)彈性設(shè)計(jì),最高支持E級超算系統(tǒng)立體擴(kuò)展;
4)可構(gòu)建EB級單一存儲空間,是經(jīng)過驗(yàn)證的國內(nèi)最大存儲系統(tǒng);
5)支持PB級數(shù)據(jù)處理能力,可實(shí)現(xiàn)億級數(shù)據(jù)庫毫秒級極速查詢分析;
6)可為上萬節(jié)點(diǎn)提供7*24小時(shí)在線、移動(dòng)、實(shí)時(shí)自動(dòng)監(jiān)控服務(wù)。
打造科學(xué)大數(shù)據(jù)社區(qū)
中科曙光“科學(xué)大數(shù)據(jù)引擎”雖然剛剛發(fā)布,但曙光在多年的HPC技術(shù)服務(wù)工作中已經(jīng)形成了一套全流程、一體化數(shù)據(jù)處理技術(shù)體系,目前已經(jīng)在多個(gè)大科學(xué)項(xiàng)目上開展了應(yīng)用。