針對宏基因組序列的研究,研究人員開發(fā)了一系列宏基因組預(yù)測算法(見表3)。宏基因組預(yù)測算法借鑒了傳統(tǒng)的基于單基因組的基因預(yù)測方法,只是對原始數(shù)據(jù)增加了預(yù)處理的步驟。例如,MetaGUN算法基于序列組成的統(tǒng)計(jì)特征對輸入序列進(jìn)行分類,對同一類中的序列使用相同的統(tǒng)計(jì)模型刻畫,然后分別獨(dú)立地進(jìn)行基因預(yù)測,在模擬宏基因序列測試集和在兩個(gè)人體腸道微生物的真實(shí)數(shù)據(jù)上的測試表明,MetaGUN在發(fā)現(xiàn)新基因方面更具潛力。MetaGeneMark同時(shí)使用細(xì)菌—古細(xì)菌和嗜溫細(xì)菌—嗜熱細(xì)菌兩套模型進(jìn)行預(yù)測。FragGeneScan適用于有測序錯(cuò)誤的宏基因組序列。
表 3 宏基因組基因預(yù)測算法
近年來,專門針對宏基因組序列的基因預(yù)測方法目前面臨著新的挑戰(zhàn),基于序列相似性比較的方法,使用BLAST系統(tǒng)工具對已知數(shù)據(jù)庫進(jìn)行相似性搜索,依賴性強(qiáng),無法發(fā)現(xiàn)新基因?;诮y(tǒng)計(jì)建模的預(yù)測算法運(yùn)行速度快,在保證高特異性的條件下能獲得更高的敏感性。宏基因組序列來源于繁雜且大多為未知的物種,微生物中已知的細(xì)菌和古細(xì)菌只占全世界存在量的10%;同時(shí)高通量測序的宏基因組DNA序列很短,存在大量不完整基因,無法在單個(gè)序列片斷上完成自學(xué)習(xí),為統(tǒng)計(jì)建模所能提供的信息有限;另外,如何把分析結(jié)果和已知的數(shù)據(jù)庫(Greengenes[55]、SILVA[56]等)結(jié)合起來、如何進(jìn)一步研究生物體之間以及生物體和環(huán)境之間的相互作用等,都成為亟待解決的問題。
4 結(jié)束語
高通量測序技術(shù)奠定了生物信息學(xué)的“大數(shù)據(jù)”基礎(chǔ),面對如潮水般的基因序列數(shù)據(jù),給后續(xù)基因組分析方法的研究和工具的發(fā)展帶來了巨大挑戰(zhàn)。本文總結(jié)討論了高通量測序數(shù)據(jù)的基因組分析及生物信息學(xué)方法。目前,基因組生物信息學(xué)研究正面臨從傳統(tǒng)的全基因組序列分析到當(dāng)前基于短讀的序列片段(含contigs)分析;從傳統(tǒng)的單個(gè)物種的全基因組序列分析到當(dāng)前多個(gè)物種混雜的序列片段數(shù)據(jù)集的分析;從本地計(jì)算機(jī)運(yùn)算分析到未來適應(yīng)“云計(jì)算”模式的遠(yuǎn)程、快速運(yùn)算分析這幾方面發(fā)展。面對如此快速的發(fā)展,現(xiàn)有的生物信息學(xué)方法和工具已經(jīng)不能滿足如此大量的數(shù)據(jù)資料的需求,只有進(jìn)一步發(fā)展出優(yōu)秀的生物信息學(xué)方法和工具,才能更好地利用高通量測序技術(shù)的優(yōu)勢和應(yīng)用價(jià)值。
作者簡介:
詹曉娟(1978-),女,黑龍江工程學(xué)院講師,主要研究方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、生物信息。
姚登舉(1980-),男,哈爾濱理工大學(xué)副教授,主要研究方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、生物信息。
朱懷球(1970-),男,北京大學(xué)教授,主要研究方向?yàn)樯镝t(yī)學(xué)信息學(xué)和計(jì)算系統(tǒng)生物學(xué)。
參考文獻(xiàn):
[1] SCHUSTER S C. Next-generation sequencing transforms today’ s biology[J]. Nature Methods, 2008, 5(1): 16-18.
[2] SANGER F, NICKLEN S, COULSON A R. DNA sequencing with chain-terminating inhibitors[J]. Proceeding of the National Academy of Sciences, 1977, B7(12): 5463-5467.
[3] SHENDURE J, JI H. Next-generation DNA sequencing[J]. Nature Biotechnology, 2008, 26(10): 1135-1145.
[4] HIGGINS G. Human Genomes and Big Data Challenges[R]. Mason: AssureRx Health Inc, 2013.
[5] WARD R M, SCHMIEDER R, HIGHNAM G, et al. Big data challenges and opportunities in highthrough-put sequencing[J]. Systems Biomedicine, 2013, 1(1): 29-34.
[6] DUNHAM I, BIRNEY E, LAJOIE B R, et al. An integrated encyclopedia of DNA elements in the human genome[J]. Nature, 2012, 489(7414): 57-74.
[7] COLLINS F S, BARKER A D. Mapping the cancer genome[J]. Scientific American, 2007, 296(3): 50-57.
[8] HAYDEN E C. International genome project launched[J]. Nature, 2008, 451(7177): 378-389.
[9] GEVERS D, KNIGHT R, PETROSINO J F, et al. The human microbiome project: a community resource for the healthy human microbiome[J]. PLoS Biology, 2012, 10(8): e1001377.
[10] HAUSSLER D, O’BRIEN S J, RYDER O A, et al. Genome 10K: a proposal to obtain whole-genome sequence for 10 000 vertebrate species[J]. The Journal of Heredity, 2008, 100(6): 659-674.
[11] O’ ROAK B J, VIVES L, GIRIRAJAN S, et al. Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations[J]. Nature, 2012, 485(7397): 246-250.
[12] EHRLICH S D. MetaHIT: the European union project on metagenomics of the human intestinal tract[M]// Metagenomics of the Human Body. New York: Springer, 2011: 307-316.