基因測(cè)序是高性能計(jì)算的重要應(yīng)用領(lǐng)域之一,在基因組學(xué)研究中,高通量測(cè)序是最重要的數(shù)據(jù)來(lái)源。然而,高通量測(cè)序技術(shù)的飛速發(fā)展,在給基因組學(xué)研究帶來(lái)極大便利的同時(shí),也帶來(lái)了“幸福的煩惱”:?jiǎn)未螠y(cè)序數(shù)據(jù)量的大幅度提升,使得基因組學(xué)研究從原來(lái)的“測(cè)的沒有算的快”,變?yōu)槿缃竦摹八愕臎]有測(cè)的快”。
特別在近年來(lái),無(wú)創(chuàng)產(chǎn)前基因檢測(cè)(NIPT)以高的準(zhǔn)確度和安全性獲得了越來(lái)越多準(zhǔn)爸準(zhǔn)媽的青睞,通過基因測(cè)序更多的應(yīng)用在臨床醫(yī)學(xué)診斷上,這項(xiàng)技術(shù)開始受到越來(lái)越多的人關(guān)注,倍增的基因測(cè)序需求也對(duì)計(jì)算效率提出了更高要求。因此,必須提升高性能計(jì)算應(yīng)用效率,才能應(yīng)對(duì)龐大的測(cè)序需求。
復(fù)雜又昂貴的生命天書
基因組的數(shù)量非常大,一個(gè)小小真菌,如酵母的基因組總量就有10Mb,而一個(gè)人的全基因組則是3Gb(3000Mb),也就是30億個(gè)堿基,如果將全部測(cè)序數(shù)據(jù)打成文字排成書,這本書的厚度將超過100米。此外,由于受到技術(shù)和方法學(xué)的限制,每個(gè)人至少要測(cè)100Gb也就是基因組的30倍以上,才能得到相對(duì)準(zhǔn)確的全基因組數(shù)據(jù)。
在過去,測(cè)序的成本也是非常高的。在90年代初期“人類基因組”計(jì)劃正式啟動(dòng)后,歷經(jīng)了16年,花費(fèi)約30億美金才完成了一個(gè)白種人的全基因組圖譜繪制,而現(xiàn)在需要3天的時(shí)間完成一個(gè)人的全基因組測(cè)序,大概需要1000美金左右。隨著時(shí)間的縮短,價(jià)格的降低,基因測(cè)序技術(shù)變得更加的有‘親和力’。尤其在2013年后,好萊塢女星安吉麗娜·朱莉通過基因檢測(cè)得知她患乳腺癌以及卵巢癌的風(fēng)險(xiǎn)分別為87%和50%,因此毅然地選擇切除了乳腺和卵巢。
“舊時(shí)王謝堂前燕,飛入尋常百姓家”,基因測(cè)序從原來(lái)的象牙塔里的技術(shù),進(jìn)入更多普通人的生活。
復(fù)雜的基因分析流程
那么,基因測(cè)序?yàn)楹螘?huì)面臨“算的沒有測(cè)得快”?首先讓我們先了解下基因分析的流程。
通過基因測(cè)序獲得只是ATCG四種不同堿基的組合,還不是直觀的結(jié)果;要將測(cè)序結(jié)果進(jìn)行解讀,還需要在高性能計(jì)算機(jī)上進(jìn)行大量的演算和分析。
在高性能計(jì)算機(jī)中計(jì)算時(shí)需要多個(gè)軟件協(xié)同工作,一步一步完成數(shù)據(jù)的分析,最終才能呈現(xiàn)出可讀的結(jié)果。通常要得到最終的結(jié)果,要經(jīng)過樣本的采集,提取組織DNA,進(jìn)入測(cè)序儀測(cè)序,隨后進(jìn)入計(jì)算機(jī)對(duì)測(cè)序數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的計(jì)算,最終進(jìn)行數(shù)據(jù)的分析,核驗(yàn)。
圖:基因檢測(cè)的流程
圖:測(cè)序數(shù)據(jù)分析流程(以全基因組分析為例)
實(shí)例講解:如何提升基因計(jì)算應(yīng)用效率
然而計(jì)算分析的過程是非常復(fù)雜并且相當(dāng)耗時(shí)的,涉及到多款軟件,每一個(gè)軟件的算法不同,所需要的計(jì)算資源不同,如何才能理解軟件所需要的資源,合理配置計(jì)算環(huán)境呢?
采用浪潮“天眼”(TEYE)高性能應(yīng)用特征分析系統(tǒng)(下面簡(jiǎn)稱浪潮天眼),我們可以獲得軟件的運(yùn)行特征,以便可指導(dǎo)資源的配置。下面我們以基因計(jì)算中使用率較高的軟件BWA為例來(lái)看在計(jì)算過程中的資源使用情況。
我們采用的算例規(guī)模是:134809168條reads,reads長(zhǎng)100bp;
該測(cè)試集群采用了浪潮NF5440M4刀片節(jié)點(diǎn),單節(jié)點(diǎn)處理性能1萬(wàn)億次,支持AVX2.0指令集,單節(jié)點(diǎn)內(nèi)存容量128GB DDR4,且充分發(fā)揮了“四通道內(nèi)存”及“DDR4頻率優(yōu)勢(shì)”。
表:測(cè)試集群配置
圖:浪潮天眼監(jiān)測(cè)BWA在CPU資源使用方面
從上圖可以看出,BWA運(yùn)行中單節(jié)點(diǎn)運(yùn)行CPU利用率的周期性變化,本算例中每10s會(huì)出現(xiàn)一次CPU利用率的峰值,當(dāng)CPU利用率處于峰值時(shí),IDLE增加;