當(dāng)“天河二號”以每秒33.86千萬億次浮點(diǎn)運(yùn)算速度再次榮登全球超級計(jì)算機(jī)500強(qiáng)排行榜榜首的時(shí)候,我一直有兩個(gè)疑問:一是33.86千萬億次計(jì)算能力是不是通過增加服務(wù)器數(shù)量就可以實(shí)現(xiàn),有沒有這么簡單?第二什么應(yīng)用需要如此強(qiáng)大并行計(jì)算能力,所謂計(jì)算能力是不是一個(gè)數(shù)字游戲。
基因研究和超級計(jì)算機(jī)
如今,這兩個(gè)問題都有了答案。首先要實(shí)現(xiàn)千萬億次浮點(diǎn)運(yùn)算不是那么簡單的。以天河二號為例,參與LINPACK測試的節(jié)點(diǎn)有16000個(gè),耗時(shí)5個(gè)多小時(shí),在這個(gè)過程中,只要有一臺服務(wù)器出現(xiàn)故障,測試就會宣告失敗。這意味著如果節(jié)點(diǎn)服務(wù)器的故障率是萬分之一,1.6萬臺節(jié)點(diǎn)服務(wù)器就意味著測試100%不會成功。因此,參與運(yùn)算的機(jī)器數(shù)量越大,失敗的風(fēng)險(xiǎn)越高。另外,節(jié)點(diǎn)之間的網(wǎng)絡(luò)延時(shí)、效率都是問題。總之,要構(gòu)建一臺千萬億次超級計(jì)算機(jī)還是有很多技術(shù)難點(diǎn)要克服。
有關(guān)第二個(gè)問題,我在華大基因也找到了答案。
說到基因,我是的的確確的門外漢。但也知道圍繞基因研究存在的巨大爭論。有人說人類翻開基因這本原來只有上帝才能閱讀的“天書”時(shí),誰有權(quán)擁有能洞悉個(gè)體生命的基因信息?有人將其稱為困擾人類社會的新斯芬克司之謎。但這也從另外一面說明了基因研究所帶來的成就。
華大基因高性能計(jì)算研發(fā)主管王丙強(qiáng)博士
在華大基因展廳,可以看到很多與基因研究相關(guān)的成果,從分子選育石斑魚——青龍斑,到小米,我們看到這些石斑魚不僅體積碩大,據(jù)說肉質(zhì)鮮美;小米則高產(chǎn)優(yōu)質(zhì)。這都是依托基因組學(xué)的生物分子育種成果。在生物醫(yī)藥、健康等領(lǐng)域,基因研究都有著光明的前景。
分子選育石斑魚
3歲半榕樹(右)和輕木(左)對比,對輕木正在展開基因方面的相關(guān)研究
有關(guān)基因爭論不做評述。我關(guān)心地是,基因研究和超級計(jì)算能力之間的關(guān)系。
在華大基因,我采訪了華大基因高性能計(jì)算研發(fā)主管王丙強(qiáng)博士和華大基因健康云運(yùn)營總監(jiān)官鑫先生。
談到基因?qū)τ诔売?jì)算的需求,王丙強(qiáng)表示主要有三個(gè)維度,一個(gè)是數(shù)量的增加,從人類基因組計(jì)劃,到千人基因組計(jì)劃,數(shù)量的增加導(dǎo)致對計(jì)算量的不斷需求。與此形成鮮明對照的是測序成本的大幅度降低。
“以前做1M的基因序列測序,2001年大概需要6000美元,現(xiàn)在大概只要10個(gè)美分,降幅超過一萬倍,這也為商用創(chuàng)造了條件?!?王丙強(qiáng)說。
針對同一個(gè)人,按照不同時(shí)間段,搜集樣本進(jìn)行分析,其計(jì)算量是非常大的。因?yàn)閮H基因數(shù)據(jù)已經(jīng)是指數(shù)增長了,加上時(shí)間維度,其計(jì)算量更是大幅度增長。
另外一個(gè)與超級計(jì)算機(jī)計(jì)算能力相關(guān)的技術(shù)對基因未知因素的探索。對此,王丙強(qiáng)表示:如今容易做的都做了,有些基因功能是比較容易鑒別出來的,以樹種為例,有些樹長得粗壯一點(diǎn),有的長得快一點(diǎn),很容易把相關(guān)基因找出來。但有些是比較復(fù)雜的,而有些是有關(guān)聯(lián),要這個(gè)搞清楚至少就需要更多的計(jì)算量。“剩下的都是不容易做的事情?!蓖醣麖?qiáng)說。
據(jù)介紹,我們?nèi)擞写蟾?萬億個(gè)細(xì)胞,每個(gè)細(xì)胞有23對染色體,染色體包含DNA,由ATCG不同堿基序列構(gòu)成,數(shù)量大概有30億。生命密碼就包含在這些序列中。從研究進(jìn)展看,已經(jīng)掌握的編碼(基因)有數(shù)萬個(gè),且有更復(fù)雜的非編碼區(qū)域等待探索,這需要更加大量的計(jì)算。
“有很多應(yīng)用,用一臺計(jì)算機(jī)算1~2年也可以算出來;但另外一些問題,就不能在有效時(shí)間內(nèi)完成,例如某些分析需要4~5年,這就是超出了這一代測序技術(shù)的有效期,就沒有意義了?!?王丙強(qiáng)說。
“在臨床上,也需要更強(qiáng)大的計(jì)算能力,花幾十個(gè)小時(shí)才能把數(shù)據(jù)分析完,這在很多情況下大家接受不了,特別一些非常緊急情況下,要求迅速得到結(jié)果,這都需要強(qiáng)大計(jì)算能力作為保障?!?官鑫說。