數(shù)據(jù)量
基因組數(shù)據(jù)因測(cè)序成本的急劇下降不斷涌現(xiàn),對(duì)于配備了新一代測(cè)序技術(shù)的學(xué)術(shù)醫(yī)學(xué)研究中心AMRC,數(shù)據(jù)存儲(chǔ)容量每6至12個(gè)月翻一番已變得司空見慣。AMRC作為紐約的尖端研究機(jī)構(gòu),于2013年以300TB的數(shù)據(jù)存儲(chǔ)能力起步,截至2013年底,存儲(chǔ)量激增超過1PB(1000TB),超12個(gè)月前存儲(chǔ)總量三倍。更令人吃驚的是,這一增長(zhǎng)仍在加速并一直延續(xù)至今。對(duì)一些世界領(lǐng)先的基因組醫(yī)藥項(xiàng)目,如英格蘭基因組(英國(guó))、沙特阿拉伯基因組(卡塔爾)、百萬精英項(xiàng)目(美國(guó))以及中國(guó)國(guó)家基因庫(kù)等,數(shù)據(jù)量的起點(diǎn)或基準(zhǔn)都不再以千兆字節(jié)(TB)計(jì),而是成百上千拍字節(jié)(PB)。
數(shù)據(jù)存取速度
基因組平臺(tái)對(duì)數(shù)據(jù)存取速度的需求非??量?,原因有三點(diǎn):
文件非常大:在基因研究中,文件通常用來存放研究對(duì)象的基因組信息,它可以是單個(gè)患者的,亦或是一組患者的。主要有兩種類型:二進(jìn)制隊(duì)列或圖即BAM(由基因組序列比對(duì)產(chǎn)生)和變型調(diào)用文件即VCF(處理后得到的基因變型),此類文件往往大于1TB,可占用典型基因組數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)總量的一半。此外,通過擴(kuò)大研究范圍,使用更高的覆蓋分辨率,可得出更多的基因組信息(如30至100倍全基因組),這會(huì)使存儲(chǔ)文件迅速增大。由于基因組研究通常從對(duì)罕見變異的研究(單個(gè)病人變異提取)演變?yōu)槌R娮儺愌芯浚谑浅霈F(xiàn)了一種新的需求:共享成千上萬患者的提取樣本。以布羅德研究所提供的一個(gè)假設(shè)為例:對(duì)于57000個(gè)共享提取的樣品,BAM輸入文件有1.4PB,而VCF輸出文件有2.35TB,兩者以現(xiàn)有水準(zhǔn)衡量都是海量數(shù)據(jù),但可能在不久的將來變得很普遍。