每六個月發(fā)布一次的HPC500強排行榜越來越受到業(yè)界廣泛關(guān)注,尤其在近幾年,連續(xù)數(shù)屆榮登榜首的都是中國的HPC系統(tǒng)。
HPC(高性能計算)話題備受矚目,不僅因為本土系統(tǒng)在業(yè)界博得好評,更重要的是高性能計算逐漸走進每個人的生活,并且發(fā)揮著不可或缺的作用。比如說金融、氣象、能源、制造等行業(yè)中的很多企事業(yè)都在應(yīng)用高性能計算,作為普通百姓的衣食住行,我們在刷卡購物、打電話、聽天氣預(yù)報、出門坐車時也已經(jīng)在享受高性能計算所帶來的準確與方便。
談到HPC,大家最關(guān)注的總是計算性能,卻鮮有人談到HPC的存儲系統(tǒng),即并行文件系統(tǒng)。在近期舉辦的一次溝通會上,中國氣象局正研級高工洪文董、中國高性能計算TOP100排行榜發(fā)起人袁國興、中國計算機學會高性能計算專業(yè)委員會秘書長張云泉幾位HPC領(lǐng)域的專家,不約而同地就HPC領(lǐng)域并行文件系統(tǒng)的重要價值闡述了各自的觀點。
并行文件系統(tǒng)是HPC實現(xiàn)資源調(diào)度和性能優(yōu)化的關(guān)鍵因素
在高性能計算領(lǐng)域,尤其以氣象部門為例,很多天氣預(yù)報的模式都是將任務(wù)分成多個小任務(wù),最后通過網(wǎng)絡(luò)將其歸結(jié)到一起。并行計算快速進行,而相應(yīng)的數(shù)據(jù)量也隨之激增,這就需要有并行文件系統(tǒng)進行處理。
中國計算機學會高性能計算專業(yè)委員會秘書長張云泉在溝通會上表示,在高性能計算領(lǐng)域,需要通過并行來實現(xiàn)加速,而這樣的加速對于高性能計算來說,有著重大的意義。
中國氣象局正研級高工洪文董說,“要實現(xiàn)HPC系統(tǒng)的科學計算的效能,就一定需要一個并行的文件系統(tǒng)。CPU需要通過并行文件系統(tǒng)將眾多的存儲硬件管理起來,尤其在氣象領(lǐng)域,數(shù)據(jù)相互之間是有關(guān)聯(lián)的,計算的結(jié)果之間要進行交換,這對于并行文件系統(tǒng)的要求就更高?!?/p>
因此,洪文董認為,一般的開源并行文件操作系統(tǒng)并不能滿足科學計算領(lǐng)域HPC系統(tǒng)的需求,因為在科學計算領(lǐng)域,大多數(shù)時候文件系統(tǒng)存儲的數(shù)據(jù)相互之間是需要相互影響的,即它們是分布共享并行文件系統(tǒng),不像社會計算領(lǐng)域,如電信、網(wǎng)絡(luò)、物流等,每個文件系統(tǒng)的數(shù)據(jù)相互之間沒有關(guān)系,它們是分布并行文件系統(tǒng)。這兩種模式對于文件系統(tǒng)的要求是完全不一樣的。
中國高性能計算TOP100排行榜發(fā)起人袁國興也認為,在HPC系統(tǒng)中,存儲系統(tǒng)的響應(yīng)速度必須要盡可能地高,同時并行文件系統(tǒng)也需要盡可能地高效,否則,系統(tǒng)產(chǎn)生的數(shù)據(jù)量激增,即便計算系統(tǒng)速度再快,如果并行文件系統(tǒng)無法快速響應(yīng),那么也會急劇降低HPC整體系統(tǒng)的性能。
并行文件系統(tǒng)可以把多個結(jié)點上的磁盤組織成為一個大的存儲系統(tǒng),提供更大的存儲容量和聚集的I/O帶寬,并隨系統(tǒng)規(guī)模的擴大而擴展,在多種存儲環(huán)境下發(fā)揮著重要的作用,尤其是集群結(jié)構(gòu)的高性能計算領(lǐng)域。
同時,張云泉認為,現(xiàn)在大數(shù)據(jù)的發(fā)展,使得HPC的研究有了新的用武之地,產(chǎn)生了眾多的新興交叉學科。無論對于深度學習還是大數(shù)據(jù)分析、在線游戲而言,各種全新的應(yīng)用對于HPC提出了全新的需求,這些對于HPC的存儲系統(tǒng),尤其是并行文件系統(tǒng)提出了各種挑戰(zhàn)。
從高性能上看,GPFS即現(xiàn)在的IBM Spectrum Scale,通過將I/O分布在多個硬盤提高性能,能夠高效工作在1個節(jié)點到4000多個節(jié)點的集群環(huán)境中,也能夠很好地支持SSD盤和閃存陣列。
同時,可靠性是高性能運算的重中之重,在GPFS環(huán)境中,某一節(jié)點的硬盤連接丟失,不會影響到其他的節(jié)點,GPFS使用RSCT的功能持續(xù)監(jiān)控不同文件模塊的健康狀態(tài),當任 一錯誤被檢測到時,相應(yīng)的恢復(fù)動作將自動執(zhí)行。GPFS還提供了額外的日志和恢復(fù)功能,可以維持元數(shù)據(jù)的一致性。最大三副本,可支持節(jié)點的自動Failover。相較于開源的CEPH,作為商用系統(tǒng)代表的GPFS,經(jīng)歷了大量的實踐和檢驗,相對來說更加穩(wěn)定和可靠。
洪文董認為,“從商用軟件的角度來說,IBM的GPFS是并行文件系統(tǒng)中做得最成功的,也是業(yè)界做得最好的?!?/p>
IBM Spectrum Scale,以商業(yè)的可靠性滿足多方高性能存儲需求
軟件定義存儲時代,高性能計算面臨著不同時代、不同品牌的存儲設(shè)備和解決方案的整合的問題,IBM整合了自身所有跟存儲相關(guān)的軟件,推出光譜存儲家族,以幫助企業(yè)和機構(gòu)應(yīng)對高性能計算時代出現(xiàn)的新問題。光譜家族的SpectrumScale, 即廣為人知的IBM并行文件系統(tǒng)明星產(chǎn)品GPFS,也就是HPC領(lǐng)域備受推崇的并行文件系統(tǒng)的商用軟件,在2013年的全球top500超級計算機有超過150臺的集群使用GPFS文件系統(tǒng)。