測(cè)序錯(cuò)誤也給重復(fù)片段問題的解決增加了難度。因?yàn)槠唇铀惴ū仨氁驗(yàn)闇y(cè)序錯(cuò)誤而接受不完全一致的重疊,以免錯(cuò)漏了真實(shí)的重疊。然而對(duì)測(cè)序錯(cuò)誤的容忍又增加了拼接的假陽(yáng)性。更多不完全一致的重復(fù)片段會(huì)對(duì)算法造成麻煩。另外,序列拼接需要考慮的一個(gè)問題是計(jì)算時(shí)間上的復(fù)雜度問題,尤其對(duì)于reads數(shù)量越來越多的大規(guī)模測(cè)序數(shù)據(jù)。例如,為了提高拼接效率,所有的拼接軟件都在不同程度地以不同方式使用k-mer的概念。很直觀的一個(gè)結(jié)論是,reads之間的重疊區(qū)域必然共同享有k-mer。而對(duì)共享k-mer的搜索顯然要比計(jì)算序列比對(duì)簡(jiǎn)單得多。因此,幾乎所有的拼接算法都涉及對(duì)k-mer的計(jì)算。
理論上,序列拼接屬于一個(gè)NP難的問題,尚無一個(gè)蓋棺定論的解答方法?,F(xiàn)有的拼接算法只能通過一系列復(fù)雜的推斷性質(zhì)的步驟來獲得近似的“解答”。這些算法仍有局限性,例如拼接結(jié)果錯(cuò)誤、拼接序列連續(xù)性差、計(jì)算時(shí)間長(zhǎng)、內(nèi)存消耗量大等。因此,序列拼接算法仍有很大的改進(jìn)空間。另外,測(cè)序技術(shù)的不斷變化和改進(jìn),使得新數(shù)據(jù)對(duì)序列拼接不斷提出新的要求,以更好地適應(yīng)新數(shù)據(jù)的特點(diǎn)。
3.3 高通量測(cè)序下宏基因組的基因預(yù)測(cè)方法
基于高通量測(cè)序的宏基因組學(xué)研究給環(huán)境相關(guān)微生物的研究帶來了新的機(jī)遇。隨著越來越多的各種生態(tài)環(huán)境中宏基因組序列被測(cè)定并公開,有效的宏基因組數(shù)據(jù)分析和功能預(yù)測(cè)軟件被開發(fā)與應(yīng)用,這些都大大推動(dòng)了宏基因組學(xué)的發(fā)展。目前研究基因預(yù)測(cè)的方法主要有兩類:一類是基于序列相似性的預(yù)測(cè)方法,基于已知的基因序列通過搜索相似度較高的序列進(jìn)行預(yù)測(cè);另一類是基于統(tǒng)計(jì)學(xué)模型的預(yù)測(cè)方法,即利用數(shù)學(xué)統(tǒng)計(jì)模型進(jìn)行基因預(yù)測(cè),從已知的DNA序列中訓(xùn)練出統(tǒng)計(jì)學(xué)模型,應(yīng)用到宏基因組的測(cè)序結(jié)果上進(jìn)行預(yù)測(cè)。
(1)基于序列相似性比較的方法
序列比對(duì)是生物信息學(xué)的基礎(chǔ),其基本問題是比較兩個(gè)或兩個(gè)以上序列之間的相似性。兩個(gè)序列比對(duì)已有發(fā)展成熟的動(dòng)態(tài)規(guī)劃(dynamic programming)算法和在此基礎(chǔ)上發(fā)展起來的工具包BLAST[34]和FASTA[35]。事實(shí)上,在基于比對(duì)的方法中,高通量測(cè)序所得的序列較短,而這種短序列直接進(jìn)行比對(duì)的效果往往不理想,并且大量的原始數(shù)據(jù)進(jìn)行比對(duì)會(huì)耗費(fèi)很多時(shí)間,因此需要在比對(duì)前進(jìn)行序列拼接,將其拼接成較長(zhǎng)的序列,提高分析效率和分析效果[36]。由于必須與已知基因序列進(jìn)行相似性比較,故這種方法很難發(fā)現(xiàn)新基因。
基于序列相似性比較的高通量測(cè)序的宏基因組數(shù)據(jù)的應(yīng)用非常多。2010年,華大基因在Nature發(fā)表文章,對(duì)人體腸道微生物基因組研究計(jì)劃(MetaHIT)進(jìn)行了總結(jié)[37]。該計(jì)劃為研究人體腸道微生物群落與人類健康之間的關(guān)系,采集了124個(gè)歐洲人的糞便樣本,其中包括25個(gè)炎癥性腸病(inflammatory bowel disease,IBD)患者和99個(gè)健康志愿者的樣本,并用Illumina測(cè)序平臺(tái)進(jìn)行測(cè)序,產(chǎn)生了567.7GB的測(cè)序數(shù)據(jù),并對(duì)序列拼接、注釋、功能基因的分類、多態(tài)性分析等進(jìn)行了研究。2012年,華大基因在Nature發(fā)表了一篇研究人體腸道微生物與Ⅱ型糖尿病之間關(guān)系的文章[38]。該研究收集了345個(gè)中國(guó)人的腸道微生物樣本,用Illumina測(cè)序平臺(tái)對(duì)其進(jìn)行了深度測(cè)序,并在基因組關(guān)聯(lián)研究(genome wide association studies,GWAS)的基礎(chǔ)上開發(fā)了一種全基因組相關(guān)聯(lián)研究(meta genome wide association studies,MGWAS)的方法,對(duì)Ⅱ型糖尿病與腸道微生物失調(diào)之間的關(guān)系進(jìn)行了深入研究。人體腸道中絕大多數(shù)種類的微生物是難以培養(yǎng)的,只有運(yùn)用宏基因組學(xué)技術(shù)才能研究人類腸道中的所有微生物群落,進(jìn)而了解人類腸道中細(xì)菌的物種分布。
(2)基于序列內(nèi)容統(tǒng)計(jì)特征的方法
基于序列內(nèi)容統(tǒng)計(jì)特征的基因預(yù)測(cè)方法一般是建立在密碼子的編碼區(qū)和非編碼區(qū)有不同相對(duì)出現(xiàn)頻率的基礎(chǔ)上的。除了一個(gè)區(qū)域堿基組成的特征外,基因長(zhǎng)度分布、CG含量、基因重疊區(qū)域的特征等因素也常被用于基因預(yù)測(cè)中。根據(jù)DNA序列中編碼蛋白質(zhì)區(qū)域和非編碼區(qū)域內(nèi)容統(tǒng)計(jì)特征的差別,建立其學(xué)習(xí)模型,可以有效地進(jìn)行基因預(yù)測(cè)。在單個(gè)基因組上具有代表性的方法包括采用馬爾科夫模型的GeneMark[39-41]系列、Glimmer[42,43]系列、FGENESB[44]和MED[45,46]系列。GeneMark對(duì)原核生物、真核生物和病毒均能進(jìn)行基因預(yù)測(cè)。Glimmer被廣泛應(yīng)用于微生物的基因預(yù)測(cè)。FGENESB主要用于細(xì)菌基因組的基因自動(dòng)預(yù)測(cè)和注釋。MED是筆者所在課題組開發(fā)的一款基于多元熵距離法的原核生物基因預(yù)測(cè)算法,該算法的基礎(chǔ)為開放閱讀框(ORF)和翻譯起始位點(diǎn)(TIS)的綜合統(tǒng)計(jì)模型。MED2.0在對(duì)DNA的GC核苷酸含量高的細(xì)菌基因組和古細(xì)菌基因組的基因預(yù)測(cè)上具有明顯優(yōu)勢(shì),之后又推出了MED2.1,提高了預(yù)測(cè)精度,達(dá)到了國(guó)際水平。