新技術(shù)和研究方法的成功同樣帶來(lái)了相當(dāng)大的成本,海量數(shù)據(jù)成為亟待解決的難題:
- 基因組數(shù)據(jù)在過(guò)去的8年中,每5個(gè)月翻一番。
- 基因編碼項(xiàng)目為80%的基因組賦予了明確的含義,所以獲取全基因組序列變得尤為重要。
- 癌癥基因組研究揭示了一組不同的癌細(xì)胞基因變體,通過(guò)全基因組測(cè)序的跟蹤和監(jiān)控,每次分析都會(huì)產(chǎn)生約1TB的數(shù)據(jù)。
- 已有越來(lái)越多的國(guó)家啟動(dòng)了基因組測(cè)序項(xiàng)目,如美國(guó)、英國(guó)、中國(guó)和卡塔爾。這些項(xiàng)目動(dòng)輒就會(huì)產(chǎn)生數(shù)以百PB級(jí)的測(cè)序數(shù)據(jù)。
對(duì)端到端架構(gòu)的要求
為了滿足基因醫(yī)藥研究對(duì)于速度、規(guī)模和智能化的苛刻要求,需要端到端參考架構(gòu)涵蓋基因計(jì)算的關(guān)鍵功能,如數(shù)據(jù)管理(數(shù)據(jù)集線器),負(fù)載編排(負(fù)載編排器)和企業(yè)接入(應(yīng)用中心)等。為了確定參考架構(gòu)(能力與功能)和映射解決方案(硬件與軟件)的內(nèi)容和優(yōu)先級(jí),需要遵循以下三個(gè)主要原則: