諾獎(jiǎng)得主、生物化學(xué)家 弗雷德里克·桑格(Fredrick Sanger )與蘋(píng)果公司創(chuàng)始人 史蒂夫·喬布斯(Steven Jobs)有什么聯(lián)系?
1977 年 2 月,F(xiàn)redrick Sanger 與他的同事發(fā)表了第一個(gè)生物體的完整基因組序列,即噬菌體 phiX174 的 5375 個(gè)核苷酸。從那之后,人們就清楚地意識(shí)到,隨著科學(xué)家測(cè)出更多復(fù)雜物種,全基因組的研究將會(huì)變得繁瑣冗長(zhǎng)。幸好,發(fā)展中的基因組學(xué)很快就有了解決方案。僅 僅 4 個(gè)月之后,加州庫(kù)比提諾一家新成立的小公司就開(kāi)始為電子發(fā)燒友們出售 Apple II??茖W(xué)家也迅速發(fā)現(xiàn),這套相對(duì)劃算的新計(jì)算系統(tǒng)是存儲(chǔ)和分析基因數(shù)據(jù)的理想系統(tǒng)。
如今,分子生物學(xué)根本離不開(kāi)計(jì)算機(jī)的幫助。當(dāng)高度自動(dòng)化的測(cè)序儀每天產(chǎn)生數(shù)百萬(wàn)兆字節(jié)的新數(shù)據(jù)時(shí),研究人員仍然能夠常規(guī)地搜尋巨大的在線數(shù)據(jù)庫(kù),尋找基因間的新聯(lián)系。事實(shí)上,“生物信息學(xué)”這個(gè)全新的科學(xué)學(xué)科已悄然興起,用于分類(lèi)、研究不斷增長(zhǎng)的生物學(xué)新信息。
很多研究機(jī)構(gòu)都建立了專(zhuān)門(mén)的計(jì)算中心,處理過(guò)多的數(shù)據(jù)。然而,近期生物信息學(xué)專(zhuān)家開(kāi)始借用計(jì)算機(jī)行業(yè)的另一套策略,避免更多的花費(fèi),那就是云計(jì)算(或分布 式計(jì)算)?;谠朴?jì)算的系統(tǒng)不同于本地化的存儲(chǔ)和分析數(shù)據(jù),它將強(qiáng)度很大的工作程序化地按需分派到成百上千的遠(yuǎn)程服務(wù)器上。早期采用云計(jì)算基因組學(xué)的科研 人員不得不自己編寫(xiě)軟件,但現(xiàn)如今計(jì)算機(jī)專(zhuān)家和服務(wù)器公司開(kāi)始設(shè)計(jì)更加人性化的界面,進(jìn)一步推廣這一技術(shù)。
計(jì)算無(wú)極限
對(duì)于云計(jì)算,最顯見(jiàn)的爭(zhēng)論就是新測(cè)序數(shù)據(jù)的絕對(duì)量。“我們機(jī)構(gòu)不大,每天能產(chǎn)生一百萬(wàn)兆字節(jié)。”紐約冷泉港實(shí)驗(yàn)室定量生物學(xué)助理教授 Michael Schatz 說(shuō)。這足以在僅僅兩到三天內(nèi)填滿一臺(tái)臺(tái)式機(jī)的整個(gè)硬盤(pán)。
Schultz解釋道,從全球來(lái)看, DNA 測(cè)序儀每年能產(chǎn)生大約150億兆(PB)字節(jié)的數(shù)據(jù)(這一數(shù)據(jù)仍在迅速增長(zhǎng));而 1PB 就是 1000 個(gè) TB。要想把 150 億兆字節(jié)的數(shù)據(jù)刻錄到大容量 DVD 中,刻出來(lái)的光盤(pán)摞起來(lái)能達(dá)到2.5英里高,而這僅僅是原始數(shù)據(jù)。顯微圖片等表型信息的實(shí)驗(yàn)數(shù)據(jù)甚至?xí)杀对黾哟鎯?chǔ)的問(wèn)題。
幸運(yùn)的是,有些公司資金雄厚、計(jì)算經(jīng)驗(yàn)豐富,已經(jīng)能夠解決這一規(guī)模的數(shù)據(jù)問(wèn)題。例如,谷歌公司會(huì)為用戶收集和處理幾百億兆字節(jié)的日程信息。“他們一天處理的數(shù)據(jù)超出了全世界一年產(chǎn)生的(序列)數(shù)據(jù)量。” Schatz 說(shuō)。
為了達(dá)到這一要求,谷歌利用云計(jì)算技術(shù),將工作分派到世界各地的成百上千臺(tái)服務(wù)器“云”中。研究人員可以通過(guò)諸如亞馬遜公司EC2系統(tǒng)之類(lèi)的分布式計(jì)算系統(tǒng),取得類(lèi)似廉價(jià)、便捷的服務(wù),任何人都可以租用類(lèi)似的大型服務(wù)器“云”。
然而,在匆忙選擇云計(jì)算之前,研究者應(yīng)該先評(píng)估他們的需求和本地資源。有的科學(xué)家不需要與遠(yuǎn)方合作者共享數(shù)據(jù)的話,就可以采用自己機(jī)構(gòu)的計(jì)算中心,服務(wù)比 遠(yuǎn)程云系統(tǒng)更加快捷低廉。 Schatz 建議大家要跟著經(jīng)驗(yàn)走:“如果你的數(shù)據(jù)有幾億兆之多,又要與合作者共享,那么還是云計(jì)算平臺(tái)最合適。”
有的研究機(jī)構(gòu)沒(méi)有專(zhuān)門(mén)的計(jì)算中心,因此也想使用云計(jì)算。“傳統(tǒng)上來(lái)講,你會(huì)去建設(shè)一個(gè)大數(shù)據(jù)中心,買(mǎi)大量的設(shè)備。但是這不僅造價(jià)高昂,而且大半時(shí)間,機(jī)器 都在空轉(zhuǎn)。因此云計(jì)算的好處在于,你只是支付了使用時(shí)的服務(wù)費(fèi),而剩下的時(shí)間你就不怎么破費(fèi)了。”英國(guó) Eagle Genomics 公司首席商務(wù)官 Richard Holland 說(shuō)。
另一種“云圖”
除了有權(quán)使用大量的遠(yuǎn)程服務(wù)器外,云計(jì)算的一個(gè)典型服務(wù)就是提供基礎(chǔ)軟件。很多云計(jì)算產(chǎn)業(yè)現(xiàn)在依賴于免費(fèi)、開(kāi)源的工具,例如應(yīng)用頗廣的 Apache 服務(wù)器軟件和 Apache 的 Hadoop 插件。前者主要負(fù)責(zé)每臺(tái)服務(wù)器和網(wǎng)絡(luò)間的基礎(chǔ)通信,而后者則用于執(zhí)行復(fù)雜的計(jì)算任務(wù),并在成千上萬(wàn)臺(tái)服務(wù)器間進(jìn)行有效分配。
網(wǎng)絡(luò)公司最初研發(fā)出這種架構(gòu),滿足自身的需求—— Hadoop 處理著世界上所有 Facebook 的照片和 Yahoo! 的搜索。然而在 2009 年, Schatz 和他的同事開(kāi)始在基因組數(shù)據(jù)中使用它。自此以后, Hadoop 成為了云計(jì)算中生物信息學(xué)的首選。“在生命科學(xué)中,一次需要分析幾億兆或幾十億兆數(shù)據(jù)已經(jīng)成了事實(shí)標(biāo)準(zhǔn)。” Schatz 說(shuō)。
Hadoop 的一大優(yōu)點(diǎn)就在于操作的簡(jiǎn)便性,至少是對(duì)熟悉計(jì)算機(jī)編程的科學(xué)家來(lái)說(shuō)。“只要懂點(diǎn) Java 編程就足以在非常大的集群中運(yùn)行大規(guī)模的分析任務(wù),這是用 Hadoop 的一大優(yōu)勢(shì)。”德國(guó)薩爾布呂肯薩爾倫大學(xué)信息系統(tǒng)學(xué)教授 Jens Dittrich 說(shuō)。 Hadoop 不用記錄哪個(gè)處理器正在進(jìn)行哪項(xiàng)任務(wù),程序員可以像單機(jī)工作一樣去寫(xiě)算法。而且, Hadoop 可以處理底層的復(fù)雜操作,將程序分派給上千臺(tái)服務(wù)器。
總體來(lái)說(shuō),云計(jì)算特別是 Hadoop 確實(shí)存在一些缺陷。為了在云計(jì)算中分析數(shù)據(jù),研究者首先必須將數(shù)據(jù)放進(jìn)去。即使網(wǎng)速很快,幾百萬(wàn)兆的數(shù)據(jù)上傳也需要數(shù)個(gè)小時(shí)。由于 Hadoop 缺乏很多數(shù)據(jù)庫(kù)中使用的高級(jí)索引系統(tǒng),它對(duì)某些類(lèi)型的分析也效率頗低。有的索引架構(gòu)較好,程序就可以鑒定數(shù)據(jù)的特定片段,這對(duì)于特定的查詢是很有必要的。 而有的系統(tǒng)沒(méi)有索引,就必須去搜尋整個(gè)數(shù)據(jù)集,往往花費(fèi)的時(shí)間更長(zhǎng)。
Dittrich 和他的同事最近開(kāi)始著手處理這兩個(gè)問(wèn)題。這個(gè)團(tuán)隊(duì)新研發(fā)的 Hadoop 侵入式索引系統(tǒng)能在數(shù)據(jù)上傳到云時(shí)就創(chuàng)建出多個(gè)數(shù)據(jù)集的索引,通常被浪費(fèi)掉的計(jì)算時(shí)間可以用來(lái)建立一套優(yōu)化后續(xù)分析的有效工具。這些索引可以加速處理過(guò) 程,有的研究問(wèn)題甚至可以加速上百倍。“坦白地說(shuō),這并不是最終的答案,是取決于分析任務(wù)的……但對(duì)于大部分任務(wù)來(lái)說(shuō),我們已經(jīng)做得非常好了。” Dittrich 說(shuō)。
即使新技術(shù)讓 Hadoop 如虎添翼,這一領(lǐng)域的專(zhuān)家仍然強(qiáng)調(diào)它永遠(yuǎn)也不會(huì)成為通用的解決方案。 Dittrich 和 Schatz 都表明,以云計(jì)算為基礎(chǔ)的系統(tǒng)擅長(zhǎng)回答一些生物學(xué)問(wèn)題,但其他領(lǐng)域則不然。比對(duì)測(cè)序讀取、鑒定基因變異和通過(guò)RNA表達(dá)模式進(jìn)行歸類(lèi)都是云計(jì)算解決方案的 合格目標(biāo),因?yàn)樗鼈兌夹枰獜拇髷?shù)據(jù)集中搜尋個(gè)體片段的信息。另一方面,代謝途徑建模則要在小數(shù)據(jù)集上進(jìn)行復(fù)雜的計(jì)算,因此本地計(jì)算系統(tǒng)反而會(huì)更加適合。
其他人的大數(shù)據(jù)
對(duì)于不習(xí)慣自己編寫(xiě)計(jì)算機(jī)程序的生物學(xué)家來(lái)說(shuō), Hadoop 就不怎么有用了。有些公司已經(jīng)面向這些科學(xué)家,開(kāi)始提供云計(jì)算數(shù)據(jù)分析用戶友好界面。
“云有各種不同的類(lèi)型。”Eagle 公司的 Holland 說(shuō)。從最基礎(chǔ)的服務(wù)器租賃協(xié)議(也可稱為“基礎(chǔ)設(shè)施即服務(wù)”),到全面架構(gòu)的應(yīng)用服務(wù)或者“軟件即服務(wù)”(software as a service, SaaS ),一應(yīng)俱全。 SaaS 中,服務(wù)公司提供云基礎(chǔ)設(shè)施、數(shù)據(jù)存儲(chǔ)和生物信息軟件。很多情況下,研究者可以將他們的測(cè)序結(jié)果直接送至公司,然后在指向-點(diǎn)擊式網(wǎng)絡(luò)環(huán)境中進(jìn)行普通類(lèi)型 的分析?,F(xiàn)在,加州圣地亞哥的Illumina等測(cè)序公司開(kāi)始提供自己的 SaaS 系統(tǒng),大量新興公司也開(kāi)始探索這一新市場(chǎng)。
每個(gè)服務(wù)公司都有自己的方式。例如,EagleGenomics 公司將各個(gè)預(yù)建的程序連接起來(lái),為每個(gè)用戶量身定做軟件。“人們通常找到我們說(shuō),‘我們需要建立一個(gè)SNP預(yù)測(cè)或變異定位的分析流程’,” Holland 說(shuō),接下來(lái),公司會(huì)利用已經(jīng)發(fā)表的算法并“將它們整合在一起,形成一個(gè)……能夠回答這些問(wèn)題的工作流程。”研究者然后就可以利用這一定制的流程在云服務(wù)器 上分析他們的數(shù)據(jù)。更有經(jīng)驗(yàn)的用戶也可以自己探究這些計(jì)算機(jī)代碼,或者進(jìn)行修改。
如果有些研究人員想要找到更便捷的云入口,那么有些公司現(xiàn)在就提供通用軟件,解決常規(guī)的問(wèn)題。“生物學(xué)家在我們服務(wù)器中可以使用很多功能,只需他們?cè)诰W(wǎng)絡(luò) 瀏覽器中登錄并點(diǎn)擊按鈕。”加州山景城 SaaS 提供商, DNAnexus 公司的首席執(zhí)行官和共同創(chuàng)始人Andreas Sundquist 說(shuō)。
盡管 SaaS 公司經(jīng)常研發(fā)出自己的專(zhuān)利代碼和用戶界面,科學(xué)家在購(gòu)買(mǎi)云服務(wù)時(shí)仍應(yīng)該咨詢底層的算法。“研究人員實(shí)際上是一伙保守派,他們喜歡那些已經(jīng)發(fā)表、測(cè)試同行評(píng)議過(guò)和人們廣泛理解的算法,不傾向于在重要的數(shù)據(jù)上試驗(yàn)新的技術(shù)。” Holland 說(shuō)。
幸運(yùn)的是,大多數(shù)生物信息新公司都愿意去討論他們的系統(tǒng)。“目前所有整合到Spiral的算法都是經(jīng)過(guò)同行評(píng)議的,我們非常理解,人們想用開(kāi)源。”華盛頓 州西雅圖Spiral Genetics公司首席執(zhí)行官Adina Mangubat說(shuō)。為了便于使用,Spiral將自己的用戶界面和數(shù)據(jù)處理層放在發(fā)表的算法中。其他該領(lǐng)域的公司隨即附和,大多數(shù) SaaS 租用方允許研究者直接接觸底層的軟件代碼。
云覆蓋
云計(jì)算仍然是個(gè)相對(duì)新穎的事物,有些領(lǐng)域的研究者仍然對(duì)它持懷疑態(tài)度,尤其是藥物學(xué)和生物醫(yī)學(xué)的科學(xué)家。他們掌握著敏感的專(zhuān)利數(shù)據(jù)和病人信息。“人們肯定都會(huì)覺(jué)得,相比在云環(huán)境中,本地集群更容易控制。”Mangubat說(shuō)。
這個(gè)顧慮其實(shí)是沒(méi)什么道理的。研究表明,近期美國(guó)發(fā)生的醫(yī)學(xué)安全事件中,四分之三是由于臨床醫(yī)生丟失了筆記本電腦或便攜式存儲(chǔ)設(shè)備。“如果他們使用的是 云……偷一個(gè)筆記本電腦就不是大問(wèn)題了,因?yàn)槟愀静豢赡芤婚_(kāi)始就把病人的數(shù)據(jù)放在筆記本里。” Sundquist 說(shuō)。
事實(shí)上,隨著銀行、政府和電子商務(wù)公司都已經(jīng)把自己的數(shù)據(jù)導(dǎo)入云存儲(chǔ),服務(wù)器設(shè)備的安全體系已經(jīng)變得非常完備。有些以醫(yī)學(xué)研究市場(chǎng)為目標(biāo)的公司也非常關(guān)注 數(shù)據(jù)安全法律。“我們的一大基本原則就是確保我們擁有臨床和診斷操作中所必需的企業(yè)級(jí)安全控制及各個(gè)特性。” Sundquist 說(shuō)。
就算科學(xué)家租用的是裸云基礎(chǔ)設(shè)施,而且自己寫(xiě)算法,他們也會(huì)希望安全性的保障。Mangubat指出,流行的亞馬遜公司EC2云租賃服務(wù)就遵守醫(yī)學(xué)數(shù)據(jù)的物理安全性,因此只有研究者自己的軟件是唯一的潛在弱點(diǎn)。
模糊的存儲(chǔ)
另一個(gè)對(duì)云計(jì)算的共同擔(dān)憂是數(shù)據(jù)歸檔,這也是研究人員在簽署服務(wù)器租約前應(yīng)該問(wèn)的。如果 SaaS 公司倒閉,或者研究人員決定換成不同的系統(tǒng),那么租約上應(yīng)該明確給出提取數(shù)據(jù)的路徑。“我們提供的服務(wù)允許將所有的東西都刻在光盤(pán)上并且把一大摞硬盤(pán)寄給 他們,你不是‘嫁給’云一輩子。”Mangubat說(shuō)。
然而對(duì)于通用的存儲(chǔ)來(lái)說(shuō),云可以提供意外事故和本地災(zāi)害的保護(hù),因?yàn)樵品?wù)一般會(huì)在多個(gè)地點(diǎn)復(fù)制數(shù)據(jù)。“可能其中一個(gè)數(shù)據(jù)中心被流星擊中,另一個(gè)中心又有火山爆發(fā),但是你還是能夠得到另一個(gè)數(shù)據(jù)備份。” Sundquist 解釋說(shuō)。
云存儲(chǔ)也能幫助解決數(shù)字信息歸檔中的問(wèn)題。例如,幾十年前存儲(chǔ)在標(biāo)準(zhǔn)計(jì)算機(jī)軟盤(pán)上的數(shù)據(jù)往往不能讀取,因?yàn)檫@種磁盤(pán)驅(qū)動(dòng)器和操作系統(tǒng)已經(jīng)淘汰了。在云計(jì)算 存儲(chǔ)中,工作人員不斷將數(shù)據(jù)轉(zhuǎn)移到新媒介中,而版本控制系統(tǒng)能夠保留舊版本的軟件。以后,研究者應(yīng)該能夠恢復(fù)這些數(shù)據(jù)及用于分析的工具。
然而不是所有人都滿意這樣的解決方案。“只要能夠覆蓋就不是檔案。” Dittrich 說(shuō)。為了防止珍貴的序列數(shù)據(jù)被計(jì)算機(jī)程序和人為錯(cuò)誤給毀了,他建議在另外一種媒介上存儲(chǔ)額外的備份。“做備份的一個(gè)好辦法就是使用只能寫(xiě)入一次的媒介,不 可刪改的DVD就是很好的辦法,你只能刻錄一次,永遠(yuǎn)不能再覆蓋。”他說(shuō)。
然而隨著幾十億兆的數(shù)據(jù)繼續(xù)堆積,一些專(zhuān)家建言,基因組數(shù)據(jù)的最終存儲(chǔ)系統(tǒng)可能就是 DNA 本身,完成計(jì)算機(jī)與生物之間的連接。這一觀點(diǎn)認(rèn)為,以后重新測(cè)序一個(gè)存儲(chǔ)的生物樣本可能比從數(shù)據(jù)歸檔中獲取原始序列數(shù)據(jù)更便宜也更快。“當(dāng)前, DNA 測(cè)序需要幾天的時(shí)間,造價(jià)也很高昂,但展望未來(lái)……如果測(cè)序或多或少只是一瞬間的事,那就可能會(huì)成為數(shù)據(jù)存儲(chǔ)媒介。” Schatz 說(shuō)。
原始出處:
Alan Dove. Biology Watches the Cloud. Science, 14 June 2013; DOI: 10.1126/science.opms.p1300077