基因組研究基礎(chǔ)設(shè)施的日益分散性也要求更大甚至全球規(guī)模上的數(shù)據(jù)管理。數(shù)據(jù)不僅需要在不同的地點(diǎn)移動或共享,還需與負(fù)載和工作流相協(xié)調(diào)。為實(shí)現(xiàn)這一目標(biāo),數(shù)據(jù)集線器依賴頻譜規(guī)模活動文件管理(AFM)進(jìn)行共享。AFM可擴(kuò)展全局命名空間到多個(gè)站點(diǎn),允許共享元數(shù)據(jù)目錄或映射遠(yuǎn)程客戶端家目錄到本地作為緩存副本。如基因組研究中心可擁有、運(yùn)營和版本控制所有的參考數(shù)據(jù)庫或數(shù)據(jù)集,而附屬、合作網(wǎng)站或中心可通過這種共享功能訪問參考數(shù)據(jù)集。當(dāng)數(shù)據(jù)庫的核心副本得到更新,其他站點(diǎn)的緩存副本也會迅速更新。
有了數(shù)據(jù)集線器,全系統(tǒng)元數(shù)據(jù)引擎還可用來索引和搜索所有的基因組和臨床數(shù)據(jù),以挖掘出強(qiáng)大的下游分析和轉(zhuǎn)化研究能力。
負(fù)載編排器
本節(jié)介紹基因組負(fù)載編排所面臨的挑戰(zhàn),并利用編排工具幫助減少負(fù)載管理工作。
基因組負(fù)載管理的挑戰(zhàn)
基因組負(fù)載管理是非常復(fù)雜的。隨著基因組應(yīng)用程序越來越多,它們的成熟度和編程模型也不斷分化:許多是單線程(如R)或易并行(如BWA)的,也有的是多線程或啟用了MPI的(如MPI BLAST)。但相同的是,所有應(yīng)用程序都需要在高吞吐量、高性能模式下工作,以產(chǎn)生最終結(jié)果。