四個功能可分別映射到數(shù)據(jù)集線器:
I/O管理:針對大型和可擴展I/O,有兩個方面的能力。一是服務(wù)像BAM這種大文件的I/O帶寬,二是服務(wù)像BCL和FASTQ這種大量小文件的IOPS。由于這些不同的需求,傳統(tǒng)的額定量架構(gòu)很難勝任性能和規(guī)模需求。數(shù)據(jù)集線器I/O管理通過引入池的概念,將小文件元數(shù)據(jù)的I/O操作與大文件的操作分離,解決了這一問題。這些存儲池,在映射到不同底層硬件,提供最佳存儲性能的同時,仍能在文件系統(tǒng)級達(dá)到統(tǒng)一,對所有數(shù)據(jù)和元數(shù)據(jù)提供唯一的全局命名空間,并對用戶透明。
生命周期管理:對數(shù)據(jù)被創(chuàng)建、刪除和保存的整個生命周期進行全線管理。如果以溫度作比喻來描述數(shù)據(jù)需要被捕獲、處理、遷移和歸檔的階段和及時性。使用像高通量測序儀這樣的工具捕獲而來的原始數(shù)據(jù)溫度最高,并需要有健壯I/O性能的高性能計算集群(所謂的原始存儲)來處理。初步處理后,原始和處理后數(shù)據(jù)變得暖起來,因為它會采取一個基于策略的過程,以確定最終操作,如刪除、保留在一個長期存儲池或存檔等。這個過程會在帳戶文件中記錄文件類型、大小、使用情況(如用戶最后訪問的時間)和系統(tǒng)使用信息。任何符合操作需求的文件要么被刪除,要么從一個存儲池遷移到另一個,比如一個更大容量、但低效率且廉價的存儲池。這種目標(biāo)層可以是一個磁帶庫,通過配備存儲池和諸如磁帶這樣的低成本介質(zhì),可高效利用底層存儲硬件并顯著降低成本。
共享管理:針對存儲設(shè)施邏輯域內(nèi)部和之間數(shù)據(jù)共享的需求。隨著基因組樣品和參考數(shù)據(jù)集變得更大(某些情況下每負(fù)載工作量可超1PB),為了共享和協(xié)作,移動和復(fù)制數(shù)據(jù)變得越發(fā)困難。為最小化數(shù)據(jù)復(fù)制對數(shù)據(jù)共享造成的影響,數(shù)據(jù)集線器在共享管理下需要具備三個特點,從而使數(shù)據(jù)共享和移動可發(fā)生在私有高性能網(wǎng)絡(luò)或廣域網(wǎng),并高度依賴安全和容錯性。