表 1 生物大數(shù)據(jù)項(xiàng)目合作計(jì)劃
2.2 數(shù)據(jù)和工具的整合問(wèn)題
目前主流的高通量測(cè)序平臺(tái)主要有Roche/454焦磷酸測(cè)序、Solexa/Illumina邊合成邊測(cè)序和ABISOLiD連接測(cè)序。高通量測(cè)序技術(shù)的讀長(zhǎng)較短,但測(cè)序深度可以在一定程度上彌補(bǔ)讀長(zhǎng)較短帶來(lái)的問(wèn)題。其中,454測(cè)序平臺(tái)讀長(zhǎng)最長(zhǎng)有450~800bp,適合對(duì)未知基因組從頭測(cè)序;Solexa/Illumina測(cè)序讀長(zhǎng)比454測(cè)序平臺(tái)短,但測(cè)序通量高、價(jià)位低,適合基因組重測(cè)序;SOLiD讀長(zhǎng)也較短,但測(cè)序精度高,特別適合SNP檢測(cè)等。目前應(yīng)用較普遍的是Illumina測(cè)序平臺(tái),約占現(xiàn)有測(cè)序工具數(shù)量的一半。
不同的測(cè)序平臺(tái)產(chǎn)生的數(shù)據(jù)格式各不相同,常用的文件格式有.bam、.csfasta、.fasta、.fastq、.gvf、.sam、.tar、.tiff、.var、.vcf等。現(xiàn)有的數(shù)據(jù)分析工具大多只能分析特定格式的數(shù)據(jù),在實(shí)際的數(shù)據(jù)分析過(guò)程中往往需要把不同格式的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化并重新整合,因此會(huì)浪費(fèi)很多時(shí)間進(jìn)行數(shù)據(jù)的預(yù)處理。例如,不同測(cè)序平臺(tái)會(huì)產(chǎn)生不同品質(zhì)和長(zhǎng)度的高通量短讀數(shù)據(jù),由于沒(méi)有統(tǒng)一的行業(yè)標(biāo)準(zhǔn)來(lái)描述高通量測(cè)序下的核苷酸序列和質(zhì)量分?jǐn)?shù)值,導(dǎo)致需要跨平臺(tái)進(jìn)行序列分析。因此,開發(fā)一組可以運(yùn)行在不同計(jì)算平臺(tái)下的互操作數(shù)據(jù)分析工具是一個(gè)具有挑戰(zhàn)性的課題。
表2列出了目前高通量測(cè)序下各種組學(xué)所使用的工具和方法。隨著這些多樣的組學(xué)數(shù)據(jù)的整合,數(shù)據(jù)分析和解釋的規(guī)模大大增加,這樣就對(duì)基因組學(xué)和生命科學(xué)領(lǐng)域的大數(shù)據(jù)工具和基礎(chǔ)設(shè)施提出更高的要求。對(duì)不同來(lái)源、不同形式的數(shù)據(jù)進(jìn)行挖掘、評(píng)估、整合和應(yīng)用還亟待加強(qiáng)。未來(lái),多種組學(xué)數(shù)據(jù)的整合分析將會(huì)挑戰(zhàn)傳統(tǒng)的思維模式,發(fā)揮其至關(guān)重要的作用。
表 2 高通量測(cè)序下各種組學(xué)所使用的技術(shù)
2.3 構(gòu)建新型學(xué)術(shù)交流平臺(tái)日益迫切
隨著高通量測(cè)序成本的降低,生物大數(shù)據(jù)對(duì)于傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、分析和解釋提出了新的挑戰(zhàn),而將這些數(shù)據(jù)和成果進(jìn)行系統(tǒng)整合并應(yīng)用于醫(yī)療實(shí)踐才剛剛開始。當(dāng)前,一些小的實(shí)驗(yàn)室顯然不具備存儲(chǔ)和處理大數(shù)據(jù)的基礎(chǔ)設(shè)施和能力。隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,眾多的科學(xué)合作網(wǎng)絡(luò)平臺(tái)提供了實(shí)時(shí)的數(shù)據(jù)交換,使得人們可以通過(guò)互聯(lián)網(wǎng)方便地進(jìn)行數(shù)據(jù)分享和成果交流。例如,Illumina公司的新一代測(cè)序云計(jì)算平臺(tái)BaseSpace(www.basepace.com)、開放科學(xué)框架平臺(tái)(http://openscienceframework.org)和Figshare(http://epic.org/privacy/medical)等。全球三大IT公司Amazon、Rackspace和Google都提供了云存儲(chǔ)和計(jì)算解決方案,通過(guò)云計(jì)算平臺(tái)可以實(shí)現(xiàn)大型數(shù)據(jù)中心的資源共享。然而,云計(jì)算基因組學(xué)也面臨著數(shù)據(jù)隱私和病人數(shù)據(jù)的合法性問(wèn)題,拓展新型的學(xué)術(shù)交流平臺(tái)成為生物大數(shù)據(jù)研究的一個(gè)重要任務(wù)。
2.4 數(shù)據(jù)挖掘技術(shù)在生物大數(shù)據(jù)處理中的挑戰(zhàn)
面對(duì)高通量測(cè)序數(shù)據(jù)的爆發(fā)式增長(zhǎng),傳統(tǒng)的數(shù)據(jù)挖掘算法和工具遭遇巨大的挑戰(zhàn):如何建立智能學(xué)習(xí)數(shù)據(jù)庫(kù)系統(tǒng);如何對(duì)生物大數(shù)據(jù)存儲(chǔ)訪問(wèn)和計(jì)算;如何進(jìn)行隱私保護(hù);如何結(jié)合領(lǐng)域知識(shí)設(shè)計(jì)新的適用于生物大數(shù)據(jù)挖掘分析的算法和工具。具體來(lái)說(shuō),面向生物學(xué)數(shù)據(jù)挖掘的數(shù)據(jù)挖掘技術(shù)主要有3個(gè)層次的挑戰(zhàn)。第一個(gè)挑戰(zhàn)是數(shù)據(jù)的訪問(wèn)和程序的運(yùn)算。因?yàn)榇髷?shù)據(jù)都是分布式存儲(chǔ)的,隨著數(shù)據(jù)量的增長(zhǎng),如何建立一個(gè)有效的平臺(tái),使分散存儲(chǔ)的數(shù)據(jù)能夠擺脫計(jì)算機(jī)內(nèi)存的限制和大數(shù)據(jù)處理的障礙,進(jìn)行分布式計(jì)算。第二個(gè)挑戰(zhàn)是不同的大數(shù)據(jù)有不同的語(yǔ)義和領(lǐng)域知識(shí),如何能夠更好地挖掘語(yǔ)義和領(lǐng)域知識(shí),為數(shù)據(jù)所有者和消費(fèi)者服務(wù)。第三個(gè)挑戰(zhàn)集中在算法設(shè)計(jì)方面,生物大數(shù)據(jù)稀疏且具有各種各樣的混合數(shù)據(jù),數(shù)據(jù)有不確定性、不完整性和多源性等特點(diǎn),如何用數(shù)據(jù)融合技術(shù)進(jìn)行處理,并且挖掘出蘊(yùn)含其中的復(fù)雜和動(dòng)態(tài)信息;如何通過(guò)局部學(xué)習(xí),得到一個(gè)反映全局問(wèn)題的融合模型[17]。
3 高通量DNA測(cè)序數(shù)據(jù)的生物信息學(xué)方法
隨著生物信息技術(shù)突飛猛進(jìn)地發(fā)展,越來(lái)越多的計(jì)算機(jī)和數(shù)學(xué)領(lǐng)域的專家加入生物信息學(xué)研究的隊(duì)伍,開發(fā)出許多好用的生物信息學(xué)工具,使得生物學(xué)、醫(yī)學(xué)領(lǐng)域的專家可以利用這些先進(jìn)工具對(duì)生物大數(shù)據(jù)進(jìn)行分析,更準(zhǔn)確地揭示生物進(jìn)化的內(nèi)部規(guī)律,更好地解釋遺傳變異,為基礎(chǔ)醫(yī)學(xué)研究向醫(yī)學(xué)臨床應(yīng)用轉(zhuǎn)化提供新思路和新方法,取得了非常有意義的成果。但是NGS測(cè)序的樣本制備過(guò)程非常復(fù)雜,并且生成的序列難以處理,這給生物信息學(xué)專家?guī)?lái)了很大的挑戰(zhàn)。