查理·奎因?qū)褜?shí)驗(yàn)數(shù)據(jù)與公有數(shù)據(jù)結(jié)合,以推進(jìn)基因發(fā)掘工作。
Alex Howard 2011.6.24 O’Reilly Radar
世界正在經(jīng)歷一場前所未有的數(shù)據(jù)大爆炸,我的一個同事Edd·Dumbill將其稱為另一場“工業(yè)革命”。眾多行業(yè)都開始意識到數(shù)據(jù)的重要性,并將數(shù)據(jù)作為傳媒、醫(yī)療或交通領(lǐng)域戰(zhàn)略資源。由于聯(lián)邦和州政府為開放政府?dāng)?shù)據(jù)創(chuàng)建新的在線平臺的工作不斷推進(jìn),開源數(shù)據(jù)已經(jīng)成為Gov 2.0的主要焦點(diǎn)。
數(shù)據(jù)大爆炸要求新的工具和管理策略。這些新工具和管理策略不僅僅是技術(shù)變革,正如Benaroya研究所的數(shù)據(jù)集成科技主任Charlie ·Quinn在最近的一次講話中透露:“這些新的方法設(shè)計(jì)文化變革,企業(yè)之間共享數(shù)據(jù)可以創(chuàng)造巨大的價值。”在Quinn的基因組學(xué)領(lǐng)域里,達(dá)到TB級別的大數(shù)據(jù)量已不是新鮮的話題。
在以下的采訪中,Quinn分享了對將開放源碼應(yīng)用到數(shù)據(jù)管理和將公共數(shù)據(jù)與實(shí)驗(yàn)數(shù)據(jù)相結(jié)合的看法。Quinn也會在即將召開全球開源大會的講話,到時候你會聽到更多的關(guān)于先進(jìn)的個性化醫(yī)療領(lǐng)域的開放數(shù)據(jù)和開放源碼的信息。
Q:您是如何涉足數(shù)據(jù)科學(xué)領(lǐng)域的?
CHARLIE•QUINN:我進(jìn)入這個領(lǐng)域源于我的一個朋友。之前我一直從事針對信用卡欺詐事件的數(shù)據(jù)挖掘工作?,F(xiàn)在與我一起工作的主要研究員將要去德克薩斯工作。我們突然有個新鮮的想法,即為研究人員創(chuàng)建工具,我們應(yīng)該雇傭軟件工程師。以前大家用bioinformaticians編寫腳本,但他們發(fā)現(xiàn)這個程序只能滿足他們80%的需求,曾很長一段時間剩余的20%需求都無法滿足。因此我們想了一個折中的方法:“如果真的需要合適的軟件工具,那么應(yīng)該雇傭軟件工程師來開發(fā)新的工具。”因此他向我的老板打電話進(jìn)一步洽談此事,并了解了我所做的工作,接下來的故事你們就都知道了。
Q:您之前說過,在基因組研究領(lǐng)域里有一個數(shù)據(jù)大爆炸。這是什么意思呢?這對您所在領(lǐng)域意味著什么?
CHARLIE•QUINN:這就像模擬技術(shù)和數(shù)字技術(shù)的區(qū)別。以前,你用模擬技術(shù)獲得的數(shù)據(jù)量是信息的主要組成部分;但是當(dāng)我們進(jìn)入到數(shù)字時代,數(shù)據(jù)量以指數(shù)方式增長。如果我們以基因表達(dá)的價值(這也是我們在基因組學(xué)關(guān)注的)角度看待科技,每次掃描會產(chǎn)生十億字節(jié)的大數(shù)據(jù)量。由于我們正轉(zhuǎn)向特定的RNA序列或高頻序列,如果你拿到結(jié)果的原始輸出文件,那么你所看到的就是每次掃描產(chǎn)生的TB級別的大規(guī)模數(shù)據(jù)。這是極大規(guī)模的數(shù)量級!
從實(shí)踐角度看,這意味著比你所需要的更多的大量數(shù)據(jù)出現(xiàn)了。數(shù)據(jù)爆炸的有趣之處在于研究人員如何提取數(shù)據(jù)并分他人分享,從而實(shí)現(xiàn)數(shù)據(jù)再利用,也許其他人能夠在其中發(fā)現(xiàn)一些有意思的事情。
Q:您正在使用什么工具分析和挖掘如此大量的數(shù)據(jù)?
CHARLIE•QUINN:目前,我們使用的很多工具都是國產(chǎn)的。由于每個組織使用的工具大部分都是自己國產(chǎn)的,因此我們在與其他組織整合數(shù)據(jù)時會出現(xiàn)一定的問題。西雅圖有個名為Lab Key的開源集團(tuán),許多人都已經(jīng)開始使用了。我們也在考慮是否使用他們的一些技術(shù)來推動組織后臺的進(jìn)程。但是我們的很多后臺都更新很快,他們很難跟上我們的步伐,我們反而經(jīng)常走在他們前面。國產(chǎn)化和與其他應(yīng)用相結(jié)合還是個問題。
Q:開放源碼與上述有何關(guān)聯(lián)呢?
CHARLIE•QUINN:我們嘗試盡可能多的使用開放源碼,同時希望再盡我們所能回饋社會,但是我們暫時還沒有做到回饋社會,但我們會繼續(xù)努力。
我們并不僅僅是開源的支持者,還是大數(shù)據(jù)的支持者。我們一直在做的就是試圖說服別人我們理解他們不得不對數(shù)據(jù)在一定程度上保密,但是我們還是應(yīng)該盡早的盡可能多的嘗試放棄或共享數(shù)據(jù)。
現(xiàn)在我們回到數(shù)據(jù)爆炸問題。如果我們正在觀察基因X,意外獲得基因Y或Z上的某些有趣的發(fā)現(xiàn),那么我們可以快速公布或者進(jìn)行一個簡短宣傳。因此,我們努力發(fā)現(xiàn)新思想,然后從中挖掘數(shù)據(jù),并對外公布。這就是我認(rèn)為我們吸引人的魅力所在:試圖更早的分享數(shù)據(jù)。
Q:在全球開源大會上,您將會談到如何將實(shí)驗(yàn)數(shù)據(jù)與公共數(shù)據(jù)結(jié)合。您是從何時研究將二者結(jié)合在一起的?
CHARLIE•QUINN:我們關(guān)注該領(lǐng)域已經(jīng)有一段時間了。既然得到了行業(yè)內(nèi)的支持,我們現(xiàn)在要做的就是讓它更多公諸于眾。幾年前,我們?yōu)镻ubnet的基因做了索引,因此當(dāng)你需要文本引擎時,你可以輸入查詢條件,就會得到基因列表,而不是文章列表,這將有助于研究人員找到他們所尋找的,而這僅僅是利用公開提供的數(shù)據(jù)就能達(dá)到的?,F(xiàn)在,美國國立衛(wèi)生研究院要求更多的人將結(jié)果存入公共數(shù)據(jù)庫,我們可以下載其中的數(shù)據(jù),然后與我們內(nèi)部的數(shù)據(jù)結(jié)合起來進(jìn)行研究。目前,我們正在進(jìn)行一個關(guān)于某種疾病的項(xiàng)目,這個項(xiàng)目試圖找到一個基因是如何活動或一種蛋白質(zhì)是如何表現(xiàn)的,公共數(shù)據(jù)庫和我們內(nèi)部數(shù)據(jù)庫的結(jié)合給了我們一個有利的研究條件。
Q:您在工作中遇到過哪些挑戰(zhàn)?
CHARLIE•QUINN:我們遇到的問題是公有數(shù)據(jù)庫數(shù)據(jù)的數(shù)據(jù)質(zhì)量問題。我們必須雇傭一個監(jiān)管人員去核實(shí)某個數(shù)據(jù)是否能用,確保這些數(shù)據(jù)能與我們想要使用的數(shù)據(jù)相匹配。
Q:開放數(shù)據(jù)在研究領(lǐng)域和個性化醫(yī)療領(lǐng)域的前景是怎么樣的?
CHARLIE•QUINN:我們將會看到數(shù)據(jù)分享多層次化。從長期來看,公共數(shù)據(jù)庫會變得越來越規(guī)范。但事實(shí)上,我們離此目標(biāo)還很遠(yuǎn),因?yàn)檠芯咳后w中仍然有很多反對者。實(shí)現(xiàn)此目標(biāo),我們首先需要在內(nèi)部共享數(shù)據(jù),當(dāng)人們習(xí)慣了這種共享的模式,我們才能將它對更多的用戶開放。
【中云網(wǎng)獨(dú)家編譯,如需轉(zhuǎn)載,請注明文章出處“中云網(wǎng)”及網(wǎng)址鏈接。】