詹曉娟1,姚登舉2,朱懷球3
1. 黑龍江工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150050;
2. 哈爾濱理工大學(xué)軟件學(xué)院,黑龍江 哈爾濱 150040; 3. 北京大學(xué)生物醫(yī)學(xué)工程系,北京 100871
摘要:高通量測(cè)序技術(shù)產(chǎn)生的DNA序列數(shù)據(jù)長度較短,而且數(shù)據(jù)量非常巨大。分析了高通量測(cè)序環(huán)境下大數(shù)據(jù)的挑戰(zhàn)和機(jī)遇,總結(jié)并討論了數(shù)據(jù)壓縮、宏基因組數(shù)據(jù)序列拼接、宏基因組數(shù)據(jù)序列分析方面的算法和工具等研究成果。最后,展望了高通量測(cè)序下DNA短讀序列數(shù)據(jù)研究的發(fā)展趨勢(shì)。
關(guān)鍵詞:高通量DNA測(cè)序;生物信息學(xué);短讀序列數(shù)據(jù)壓縮;短讀序列數(shù)據(jù)拼接;短讀序列數(shù)據(jù)分析
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A
doi: 10.11959/j.issn.2096-0271.2016021
Bioinformatics methods for high-throughput DNA sequencing data
ZHAN Xiaojuan 1 , YAO Dengju 2 , ZHU Huaiqiu 3
1. College of Computer Science and Technology, Heilongjiang Institute of Technology, Harbin 150050, China
2. School of Software, Harbin University of Science and Technology, Harbin 150040, China
3. Department of Biomedical Engineering, Peking University, Beijing 100871, China
Abstract: DNA sequence data generated by high-throughput sequencing technology is short in length, and the amount of data is enormous. The challenges and opportunities of the big data in high-throughput sequencing environment were analyzed. The data compression, the assembly of metagenomic sequence data, and algorithms and tools of metagenomic sequence data analysis also were summarized and discussed. Finally, the future of the study>
1 引言
高通量測(cè)序技術(shù)又稱“下一代”測(cè)序(next-generation sequencing, NGS)技術(shù)[1],可以一次性測(cè)定幾十萬甚至幾百萬條序列,是現(xiàn)今應(yīng)用最廣泛的測(cè)序技術(shù)。相對(duì)于傳統(tǒng)的Sanger測(cè)序技術(shù)[2],NGS具有高速、高通量、低價(jià)格等優(yōu)點(diǎn)[3]。高通量測(cè)序數(shù)據(jù)廣泛應(yīng)用于生物學(xué)、醫(yī)學(xué)、遺傳科學(xué)等諸多領(lǐng)域,具有重要研究價(jià)值。許多大型的科學(xué)研究項(xiàng)目,如千人基因組計(jì)劃(1000genomeproject)、DNA元件百科全書(encyclopedia of DNA elements)計(jì)劃、國際癌癥基因組計(jì)劃(international Cancer genome project)等,正以前所未有的速度產(chǎn)生海量DNA序列。截至2014年2月,僅登錄在美國GenBank數(shù)據(jù)庫中的DNA序列數(shù)據(jù)就有十萬億堿基對(duì),所有高通量測(cè)序下的DNA短讀序列數(shù)據(jù)大小達(dá)到上千PB。隨著測(cè)序技術(shù)的不斷改善和測(cè)序成本的持續(xù)降低,每天都會(huì)有海量的DNA序列產(chǎn)生,使得生物數(shù)據(jù)量呈指數(shù)規(guī)模增長,平均約每14個(gè)月增加一倍。圖1對(duì)高通量測(cè)序平臺(tái)下的短讀(short reads,以下簡(jiǎn)稱reads)序列數(shù)據(jù)和其他大數(shù)據(jù)領(lǐng)域的原始數(shù)據(jù)增長方式進(jìn)行了比較,陰影區(qū)預(yù)報(bào)了未來的增長趨勢(shì),從圖1可以看出,高通量測(cè)序下的基因組序列數(shù)據(jù)即短讀序列數(shù)據(jù)的增長遠(yuǎn)大于摩爾定律的增長速度。計(jì)算機(jī)是存儲(chǔ)和處理DNA數(shù)據(jù)的主要工具,其微處理器性能和存儲(chǔ)設(shè)備容量平均18~24個(gè)月翻一番,而DNA測(cè)序數(shù)據(jù)平均4~5個(gè)月就翻一番,DNA測(cè)序數(shù)據(jù)的增長速度已經(jīng)遠(yuǎn)遠(yuǎn)超過了計(jì)算機(jī)微處理器和存儲(chǔ)設(shè)備的增長速度。面對(duì)如此迅速增長的龐大的短讀序列數(shù)據(jù)集,如何有效管理、分析、充分利用這些信息,已成為生物信息學(xué)發(fā)展亟需解決的問題[4]。
圖 1 不同種類數(shù)據(jù)的近似增長趨勢(shì)
2 生物大數(shù)據(jù)帶來的新挑戰(zhàn)
隨著高通量測(cè)序技術(shù)的發(fā)展,各種生物學(xué)數(shù)據(jù)呈現(xiàn)爆炸式增長,并且這一趨勢(shì)將隨著生物測(cè)序技術(shù)的發(fā)展而進(jìn)一步增強(qiáng)。面對(duì)生命科學(xué)領(lǐng)域的大數(shù)據(jù)分析任務(wù),多種不同維度的數(shù)據(jù)整合、多學(xué)科交叉的數(shù)據(jù)分析以及經(jīng)典的數(shù)據(jù)挖掘算法都面臨新的挑戰(zhàn)。
2.1 多學(xué)科交叉的挑戰(zhàn)
自從1990年人類基因組計(jì)劃正式啟動(dòng)以來,20余年間,各種基因組、蛋白質(zhì)組、轉(zhuǎn)錄組、宏基因組等國際生物學(xué)研究合作計(jì)劃開始啟動(dòng)或已完成,目前國際上已經(jīng)成立了多個(gè)大的跨國科研合作機(jī)構(gòu),生物信息領(lǐng)域的國際合作與交流也不斷加強(qiáng)(見表1)。各種組學(xué)和生物信息學(xué)領(lǐng)域的國際化和跨學(xué)科間的專家合作使得團(tuán)隊(duì)成員在該領(lǐng)域取得了突出的成果,不僅發(fā)表了很多有影響力的文章,而且開發(fā)出許多新的數(shù)據(jù)集成和分析工具,以便資源和信息共享[5]。然而,面對(duì)飛速增長的生物學(xué)大數(shù)據(jù)和日漸增多的生物信息學(xué)研究任務(wù),跨學(xué)科的國際合作仍面臨巨大的挑戰(zhàn),例如不同的實(shí)驗(yàn)室和平臺(tái)產(chǎn)生的大數(shù)據(jù)如何實(shí)現(xiàn)無障礙的共享和協(xié)作分析,不同組學(xué)產(chǎn)生的數(shù)據(jù)如何有效地進(jìn)行集成、管理、維護(hù)和更新,如何開發(fā)新型的面向生物學(xué)大數(shù)據(jù)分析的算法和工具等。