另一個(gè)新的挑戰(zhàn)是數(shù)據(jù)位置的管理。由于機(jī)構(gòu)間的合作變得越來越普遍,大量的數(shù)據(jù)需要共享或聯(lián)合,這使得地理位置成為數(shù)據(jù)不可缺少的一個(gè)特征。同樣的數(shù)據(jù)集,特別是參照數(shù)據(jù)或輸出數(shù)據(jù),可以在不同地理位置存在多個(gè)拷貝,或者因法規(guī)要求在同一位置存在多個(gè)拷貝(如因臨床測序平臺與研究機(jī)構(gòu)物理隔離產(chǎn)生的多重?cái)?shù)據(jù)副本)。在這種情況下,有效的管理元數(shù)據(jù)以減少數(shù)據(jù)移動(dòng)或復(fù)制,不僅能降低額外存儲所需成本,還能減少版本同步帶來的問題。
數(shù)據(jù)置信度
許多復(fù)雜的身心機(jī)能失調(diào),如糖尿病、肥胖、心臟病、阿爾茨海默氏癥和自閉癥譜系障礙等,要研究它們的多因素特性,需要在廣泛的來源中實(shí)施縝密復(fù)雜的計(jì)算,統(tǒng)計(jì)分析大流量數(shù)據(jù)(基因組、蛋白質(zhì)組、成像)和觀察點(diǎn)(臨床、癥狀、環(huán)境、現(xiàn)實(shí)證據(jù))。全球數(shù)據(jù)共享和網(wǎng)絡(luò)聯(lián)合保證了訪問和分析數(shù)據(jù)的進(jìn)程以前所未有的規(guī)模和維度不斷創(chuàng)新和智能化,數(shù)據(jù)庫和文件倉庫的進(jìn)化也由此相互關(guān)聯(lián)在一起。在這樣的前提下,數(shù)據(jù)置信度作為一個(gè)不可或缺的元素在研究中得以被考量。例如,臨床數(shù)據(jù)(基因組和成像)需要被恰當(dāng)和完整的標(biāo)識以保護(hù)研究課題的機(jī)密性?;蚪M數(shù)據(jù)需要端到端的溯源以提供完整的審計(jì)跟蹤和可重復(fù)能力。數(shù)據(jù)的著作權(quán)和所有權(quán)需要由一個(gè)多用戶協(xié)作機(jī)構(gòu)恰當(dāng)申明。借助內(nèi)置特性處理數(shù)據(jù)準(zhǔn)確性,基因組計(jì)算機(jī)構(gòu)可以讓研究人員和數(shù)據(jù)科學(xué)家根據(jù)上下文和置信度分享和探討大量數(shù)據(jù)。
數(shù)據(jù)集線器的功能
為了解決基因組數(shù)據(jù)管理中遇到的問題,構(gòu)建一個(gè)可伸縮、可擴(kuò)展層提供數(shù)據(jù)和元數(shù)據(jù)給負(fù)載,這樣的企業(yè)級功能可被命名為數(shù)據(jù)集線器。它可以存儲、移動(dòng)、共享和索引海量基因組的原始和處理后數(shù)據(jù)。它還管理著從固態(tài)硬盤或閃存到磁盤、磁帶、以及云的底層異構(gòu)存儲結(jié)構(gòu)。