現(xiàn)在就是做干實(shí)驗(yàn)研究的黃金時(shí)期。生物學(xué)正在發(fā)生一場大變革。圖片來源:ANDREW J LENARDS
大多數(shù)生命科學(xué)家正專注于自己的職業(yè),一個(gè)特殊的有機(jī)體或一種疾病,甚至只是一個(gè)特定的分子路徑。要學(xué)會(huì)培養(yǎng)特殊細(xì)胞類型或一種新實(shí)驗(yàn)室技術(shù),需要數(shù)月時(shí)間。但是,Atul Butte卻并非如此。盡管只有44歲,他已經(jīng)擁有美國斯坦福大學(xué)醫(yī)學(xué)院的終身職位,為肺癌和其他疾病發(fā)明了諸多新藥。
Butte的實(shí)驗(yàn)室也與眾不同。這里并非到處都是培養(yǎng)皿和試劑。他的工具看上去更像屬于一位工程師或軟件開發(fā)者:很多時(shí)候,他的工具只是一臺(tái)索尼筆記本,盡管當(dāng)需要巨大的計(jì)算處理能力時(shí),他也會(huì)使用斯坦福大學(xué)的大型計(jì)算機(jī)和其他地方的超級(jí)計(jì)算機(jī)。
與培養(yǎng)細(xì)胞和測序DNA不同,Butte及其學(xué)生和博士后會(huì)對(duì)裝滿可自由獲取信息的數(shù)據(jù)庫進(jìn)行篩選,例如,人類基因組、腫瘤基因組序列數(shù)據(jù)庫、腦成像資料庫以及糖尿病等疾病的生物標(biāo)示資料等。
許多人稱這樣的研究為“干實(shí)驗(yàn)”,與目前更多親自動(dòng)手的傳統(tǒng)“濕實(shí)驗(yàn)”形成對(duì)比。雖然統(tǒng)計(jì)這樣的干實(shí)驗(yàn)科學(xué)家究竟有多少非常困難,但可以肯定他們是人數(shù)不斷增長的少數(shù)派。Butte則是其中的佼佼者。
兩年前,Butte及其同事使用公開數(shù)據(jù),利用患有100種不同疾病的人群體內(nèi)的基因集,分析了市面上164種藥物處理過的培養(yǎng)細(xì)胞基因活性。然后他們發(fā)現(xiàn)了一些新的、存在于這些基因之間的相互聯(lián)絡(luò)方式。Butte研究小組通過比較患病或用藥情況下基因表達(dá)的開啟情況,發(fā)現(xiàn)了在這些基因之間有意想不到的聯(lián)系。“現(xiàn)在就是做干實(shí)驗(yàn)研究的黃金時(shí)期。”Butte總結(jié)道。
“生物學(xué)正在發(fā)生一場大變革。” 美國加州大學(xué)洛杉磯分校神經(jīng)遺傳學(xué)家Daniel Geschwind說。洛杉磯微軟研究院計(jì)算機(jī)專家David Heckerman也指出,現(xiàn)在生物學(xué)研究真的可以不需要傳統(tǒng)的“濕”實(shí)驗(yàn)室了。
數(shù)據(jù)至上
對(duì)于科學(xué)而言,大數(shù)據(jù)并不是一個(gè)新概念。歐洲核子研究中心(CERN)的大型強(qiáng)子對(duì)撞機(jī)(LHC)每年都能夠產(chǎn)生15帕(1015)字節(jié)的數(shù)據(jù),天文學(xué)的斯隆數(shù)字巡天項(xiàng)目每年也要產(chǎn)生數(shù)太(1012)字節(jié)的數(shù)據(jù)。
實(shí)際上,這不是計(jì)算科學(xué)與生物學(xué)的第一次結(jié)合。研究人員多年以來一直在收集大規(guī)模的生物學(xué)數(shù)據(jù),例如人們熟知的基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等。生物學(xué)家對(duì)這些數(shù)據(jù)進(jìn)行整理和梳理,以便從中找到一些新的復(fù)雜生物學(xué)路徑或與疾病相關(guān)的信號(hào)通路等。
不過此類早期努力是由大批科研人員共同參與完成的,而且他們有權(quán)在數(shù)據(jù)公布之前就展開分析工作。但現(xiàn)在這些數(shù)據(jù)已經(jīng)公諸于眾,之前沒有參加這些項(xiàng)目的科研人員也能自由地獲取這些數(shù)據(jù)。美國康奈爾大學(xué)遺傳學(xué)家、為農(nóng)業(yè)部下屬的農(nóng)業(yè)調(diào)查研究項(xiàng)目工作的Ed Buckler評(píng)價(jià)道:“現(xiàn)在我們這些人也能利用公開數(shù)據(jù)提出大數(shù)據(jù)問題了。”
然而要提出這些問題就需要能夠處理大量數(shù)據(jù)的算法和軟件,而且這些軟件還必須隨著數(shù)據(jù)的增長不斷加以改進(jìn)。Heckerman和同事最近制作了一款軟件,能方便地在遺傳數(shù)據(jù)庫里進(jìn)行大規(guī)模搜索,例如進(jìn)行全基因組關(guān)聯(lián)研究(GWAS)這樣的全基因組比對(duì)工作。
糖尿病、前列腺癌等疾病背后的遺傳基礎(chǔ)非常復(fù)雜,多個(gè)基因可能也只會(huì)帶來很小的影響。“如果要發(fā)現(xiàn)這種微弱的信號(hào),那就必須利用大數(shù)據(jù)。需要對(duì)上萬,甚至是數(shù)十萬人進(jìn)行比較,才有可能發(fā)現(xiàn)一點(diǎn)有價(jià)值的線索。不過這里也有一個(gè)小竅門。當(dāng)對(duì)大量數(shù)據(jù)進(jìn)行分析時(shí)會(huì)有一些發(fā)現(xiàn),比如發(fā)現(xiàn)每個(gè)人都會(huì)有一些遺傳相似點(diǎn)。但是在很多情況下,這些相似點(diǎn)其實(shí)只是代表了這兩個(gè)人更接近,而不是因?yàn)樗麄兌紨y帶了某種疾病相關(guān)基因。這會(huì)給數(shù)據(jù)分析帶來麻煩,我們會(huì)發(fā)現(xiàn)大量可疑信號(hào),可是再仔細(xì)分析一番之后就會(huì)發(fā)現(xiàn),這些其實(shí)只是假陽性信號(hào)。” Heckerman說。
超越生物學(xué)
隨著經(jīng)過全基因組測序的植物數(shù)量快速增長,以及相關(guān)數(shù)據(jù)的不斷公布,植物學(xué)家也可以開展自己的干實(shí)驗(yàn)工作了。Buckler及同事就在多個(gè)玉米品種間尋找抗病基因。該研究小組近日發(fā)表的一篇論文,介紹了他們對(duì)103種不同玉米進(jìn)行全基因組比對(duì)的工作,他們共分析了1000多個(gè)不同的DNA區(qū)域,這些區(qū)域有的位于基因內(nèi)部,有的位于基因編碼區(qū)外。
然后研究人員將玉米的某些性狀,例如抗病性和開花時(shí)間等,與某些特殊的非編碼DNA聯(lián)系起來?,F(xiàn)在Buckler表示,他們正在利用這些研究成果輔助育種工作,希望提高玉米抗病性,或添加一些其他性狀。“大數(shù)據(jù)已經(jīng)對(duì)育種工作帶來了切實(shí)可見的改變。”Buckler說。
類似工作還有助于回答一些與植物相關(guān)的更神秘的問題。加拿大渥太華大學(xué)數(shù)學(xué)家David Sankoff已經(jīng)對(duì)30多種開花植物的全基因組進(jìn)行了分析,試圖重建出1.2億年前所有開花植物共同祖先的基因組結(jié)構(gòu),即找出所有開花植物的共有基因組結(jié)構(gòu),而非簡單的共有DNA序列。
該工作最近取得了重大突破。他們對(duì)現(xiàn)代真雙子葉植物里是否存在基因的雙拷貝或三拷貝情況進(jìn)行了分析和比較,最終推斷出開花植物的祖先共有7條染色體,大約含有2萬至3萬個(gè)基因,并且比現(xiàn)在很多植物的基因組小得多。雖然這一發(fā)現(xiàn)可能不會(huì)對(duì)植物育種工作帶來太大影響,也不具有很大的商業(yè)利益,但是美國亞利桑那大學(xué)植物遺傳學(xué)家Eric Lyons認(rèn)為:“這是一項(xiàng)非常有意思的遺傳學(xué)研究工作。”Sankoff研究小組使用的基因組數(shù)據(jù)庫和分析軟件都是由Lyons開發(fā)的。
通力合作
干實(shí)驗(yàn)生物學(xué)研究也面臨很多問題和困難。其中最大的挑戰(zhàn)是如何獲得其他人的數(shù)據(jù)。很多時(shí)候,收集數(shù)據(jù)的科研人員不愿意與其他人分享數(shù)據(jù)。他們希望在別人利用自己的數(shù)據(jù)有所收獲之前進(jìn)行自己的數(shù)據(jù)發(fā)掘工作。另外這些數(shù)據(jù)也可能非常粗糙,需要進(jìn)一步分析或注釋。“這些真是很麻煩的問題。我們需要更好的方法促進(jìn)大家共享數(shù)據(jù)。”Butte這樣說道。
缺乏統(tǒng)一的標(biāo)準(zhǔn)也是一個(gè)問題。每個(gè)科研團(tuán)體用來儲(chǔ)存數(shù)據(jù)的軟件可能不同,而且數(shù)據(jù)格式也千差萬別,很多時(shí)候連實(shí)驗(yàn)設(shè)計(jì)都不一樣,所以結(jié)果也有所差異。Butte等人認(rèn)為處理這些不同格式的數(shù)據(jù)十分麻煩,但這并非不能解決。更大的困難在于,如何對(duì)設(shè)計(jì)不同實(shí)驗(yàn)得到的數(shù)據(jù)進(jìn)行比較和分析。
Butte表示,經(jīng)過多年的標(biāo)準(zhǔn)化工作,實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析,以及各種標(biāo)準(zhǔn)化工作終于帶來了回報(bào)。Heckerman也表示贊同,他認(rèn)為生物學(xué)數(shù)據(jù)正在走向標(biāo)準(zhǔn)化。
干實(shí)驗(yàn)生物學(xué)研究未來還會(huì)迎來一次大發(fā)展,美國已經(jīng)要求所有的數(shù)據(jù)庫都向科研界公開。
2013年2月22日,美國科技政策局(OSTP)局長John Holdren提交了一份備忘錄,要求美國聯(lián)邦政府各執(zhí)行部門盡快拿出方案,鼓勵(lì)并幫助大家使用由美國政府資助開展的科研工作所取得的成果和數(shù)據(jù)。該備忘錄推出之后因?yàn)橹攸c(diǎn)強(qiáng)調(diào)要免費(fèi)獲取科研論文而備受關(guān)注。但是大家都沒有注意到,這份備忘錄也同時(shí)提出,要促進(jìn)由美國政府資助開展的科研工作所取得數(shù)據(jù)早日進(jìn)入公共數(shù)據(jù)庫。OSTP官員表示,他們已經(jīng)拿出了初步的方案,并正在進(jìn)行修改。(張章)