隨著越來(lái)越多的機(jī)構(gòu)以分布式資源部署混合云解決方案,編排器可基于數(shù)據(jù)位置預(yù)定義策略、臨界值和資源有效性實(shí)時(shí)輸入來(lái)均衡負(fù)載。如工作流可被設(shè)計(jì)用于處理基因組原始數(shù)據(jù),以使其更切合測(cè)序器需要,并使用遠(yuǎn)程大數(shù)據(jù)集群的MapReduce模型進(jìn)行序列比對(duì)和組合;也可設(shè)計(jì)為當(dāng)基因處理達(dá)50%完成率時(shí),觸發(fā)代理事件把數(shù)據(jù)從衛(wèi)星系統(tǒng)轉(zhuǎn)移到中央高性能計(jì)算集群,從而使數(shù)據(jù)遷移和計(jì)算可并發(fā)進(jìn)行以節(jié)省時(shí)間和成本。
由研究機(jī)構(gòu)發(fā)布基因組流程與他人共享,是對(duì)另一個(gè)編排器的需求。由于工作流模板可被保存和分發(fā),一些美國(guó)和卡塔爾的主要癌癥和醫(yī)學(xué)研究機(jī)構(gòu)已開(kāi)始通過(guò)交換基因組工作流進(jìn)行合作。
溯源管理
有許多計(jì)算方法和應(yīng)用可應(yīng)用于收集、分析和注釋基因組序列。應(yīng)用程序、基準(zhǔn)數(shù)據(jù)和運(yùn)行時(shí)變量是重要的溯源信息,它們可對(duì)基因組分析的解讀和維護(hù)產(chǎn)生重要影響。目前,很少用不公開(kāi)標(biāo)準(zhǔn)或慣例來(lái)捕捉溯源信息,因?yàn)樗赡軐?dǎo)致重要計(jì)算分析數(shù)據(jù)的缺失。這個(gè)問(wèn)題同樣潛伏在其他因素中,例如以復(fù)雜數(shù)據(jù)、工作流程或渠道作為高層次分析過(guò)程,或者所用的應(yīng)用程序頻繁發(fā)布更新。
因此,溯源管理成為編排器需要的一個(gè)可與數(shù)據(jù)集線器元數(shù)據(jù)管理功能相媲美重要功能。溯源數(shù)據(jù)也可被理解為負(fù)載元數(shù)據(jù),溯源管理器的功能需求是捕捉、存儲(chǔ)和索引用戶定義的溯源數(shù)據(jù),以透明無(wú)中斷的方式追溯到任何已有的計(jì)算負(fù)載或工作流。
基于這樣的需求,多種技術(shù)和解決方案正在研發(fā),有些已經(jīng)完成并已投入商用,如Lab7的ESP平臺(tái)和General Atomics的Nirvana。IBM也致力于開(kāi)發(fā)了一種用于大規(guī)模、近實(shí)時(shí)的元數(shù)據(jù)管理系統(tǒng),可與數(shù)據(jù)集線器和編排器協(xié)同工作。