負(fù)載管理器
基因組計算資源需要在資源管理器的控制下有效共享、使用并提供最佳性能給基因組應(yīng)用程序。負(fù)載管理器能處理要求苛刻的、分布式的關(guān)鍵任務(wù)應(yīng)用程序,如Illumina公司的ISSAC,CASAVA,bcltofastq,BWA,Samtools,SOAP(短寡核苷酸分析軟件包)以及GATK。負(fù)載管理器還需要高度可擴展和可靠性以管理批量提交的大型作業(yè),這是中大型基因組計算機構(gòu)的通用需求。例如紐約一家醫(yī)學(xué)院的基因組計算集群通常需要處理含25萬個作業(yè)的排隊系統(tǒng),其間不能崩潰或當(dāng)機。世界上一些大型的基因組中心,負(fù)載管理器隊列有時會存在上百萬個作業(yè)。對于成熟度不同、架構(gòu)需求(如CPU,GPU,大內(nèi)存,MPI等)也不同、且日益增加的基因組研究應(yīng)用程序,負(fù)載管理器提供了必要的資源抽象使作業(yè)可在提交、放置、監(jiān)控和記錄時保持對用戶透明。
工作流引擎
針對基因組的工作流程管理,工作流引擎致力于把作業(yè)連接為一個邏輯網(wǎng)絡(luò)。該網(wǎng)絡(luò)可按多個步驟讓計算流線性開展,比如序列對齊、組合、然后變形提取,也可以基于用戶定義的標(biāo)準(zhǔn)和完成條件以更加復(fù)雜的分支來運行。
編排器工作流引擎需要動態(tài)、快速的復(fù)雜工作流處理能力。獨立的負(fù)載和作業(yè)可通過用戶界面,結(jié)合變量、參數(shù)和數(shù)據(jù)被定義到標(biāo)準(zhǔn)工作流模板。有許多負(fù)載類型可被集成到工作流引擎,如并行高性能計算應(yīng)用程序,大數(shù)據(jù)應(yīng)用程序,或者分析負(fù)載的R腳本。在被定義和驗證后,用戶可使用該模板從他們的工作站直接啟動工作流,或者發(fā)布至企業(yè)站點為他人所用。