再就是宏基因組,我們有1TB細菌在我們體內(nèi),這些細菌大概有兩公斤,這些細菌對我們生活起到非常大的影響或者決定性作用。
這是兩只老鼠,這是中科院上海生命科學(xué)研究院趙力群教授的研究成果,他養(yǎng)的兩只老鼠,一只養(yǎng)的特別胖,一只特別瘦,他做了一個實驗,把特別胖的老鼠的糞便做成培養(yǎng)液喂給瘦的老鼠,結(jié)果瘦的老鼠變得非常胖,反過來也是。表明人的腸道里的細菌跟人的飲食習(xí)慣有特別大的關(guān)系。
一個人喜歡吃什么,其實不是你喜歡吃什么,是你腸道里面的細菌喜歡吃什么。這是一個很好的產(chǎn)業(yè),能夠把這個問題真正解決清楚,這是一個非常大的產(chǎn)業(yè)。
前段時間華大基因剛發(fā)現(xiàn)了糖尿病跟宏基因組之間的關(guān)系,還跟人的血壓,甚至跟癌癥還有關(guān)系,能產(chǎn)生抗癌的基因,細菌能產(chǎn)生抗癌的因素幫助人類抵抗癌癥。
大家到醫(yī)院檢查的時候都會查血常規(guī),但是大家很少接觸到比較專的一些,比如說氨基酸、維他命和激素,氨基酸、維他命和激素和人的情緒、健康狀況有很大關(guān)系,你還是要時不時看一下人體里的小分子,就是分子量在1000以下的這些分子在你體內(nèi)分布的情況。
以前我們很樂觀的認為人的基因組里人有25000個基因組,后來隨著研究發(fā)現(xiàn)沒有那么多,只有19000個,這是很悲催的,水稻的基因有3000個,其實高等的生物有另外一種基因的產(chǎn)生或者進入了另外一個形態(tài)。如果我們要測一個人的基因組一般會測上三十遍,才能大概把一個人的基因組的情況摸清楚,三十遍這就需要100GB的數(shù)據(jù),如果要測一百萬人的話光數(shù)據(jù)就需要100TB。
這是轉(zhuǎn)錄組,在19000個基因里80%的基因可能有多種形態(tài),一段基因組轉(zhuǎn)錄出來以后有很多的酶切成不同的片段再連接起來,基因組有不同的方式,把這個形式算上去的話人大概有60000個基因,對于一個高等生物來說還算可以。
從轉(zhuǎn)錄組到真正行使功能的時候要放大成蛋白,從6000個轉(zhuǎn)錄組RNA里提取多少蛋白,大概是二十到兩百萬之間,可見蛋白的形態(tài)比RNA更復(fù)雜,因為有很多不同的折疊形式,不同的折疊形式空間是不一樣的,蛋白的數(shù)量就會顯得特別多。
6788是中國人在蛋白基因組里承擔的肝臟蛋白的項目情況,發(fā)現(xiàn)人的肝臟里面大概有6788個蛋白種類,而且這里面大概有一千種是新的。
剛才說到了這么多小分子,他們是怎么相互作用的,我們有這樣一個小分子基因網(wǎng)絡(luò)的數(shù)據(jù)庫,記錄了三千個物種基因相互作用的情況。這三千個物種里面基因的數(shù)量大概是1.2千萬個基因,1.2千萬個基因形成了相互作用的這種大概是28萬。
這就記錄了我們?nèi)粘I钏械牧?xí)慣,比如說你吃米飯,米飯在你身體里怎么消化、怎么吸收,怎么轉(zhuǎn)化成糖源,所有這個過程都是通過基因網(wǎng)絡(luò)來描述的,我們現(xiàn)在也只有28萬個網(wǎng)絡(luò),要比我們想象的少很多,當然這個數(shù)據(jù)庫還是要不斷地積累才能說清楚身體是怎么樣的行使功能的。
基因造成的人群差異
我們再說一下人之間的差異,任何兩個人之間如果沒有基礎(chǔ)關(guān)系的話,它的差異只有0.5,也就是說兩個人之間大概有150兆左右的基因組序列是不一樣的,但是如果我們只看上下兩代之間的差異,這個差異就是60-100DNA序列多肽性的不一樣,這也能解釋說為什么相似度更高一點。
這些差異從日常相貌和行動行為就能看出來,日常生活中經(jīng)??吹絾窝燮?、雙眼皮,有些人的舌頭是可以卷的,有些不能卷,還有禿頂,男士的禿頂很大程度上跟基因是有關(guān)系的,另外還有喝酒臉不臉紅,這跟基因有很大關(guān)系,有些人喝一點點就臉紅,有些人喝很多都不臉紅。
我們再看一下人和其它物種,我們跟植物只有17%左右的基因組相似,跟我們很近的猩猩只有96%相似。
現(xiàn)在研究表明最大的基因,一個細胞里面有670Gb組堿基對,就是人的兩百多倍了,這個基因組還是很大。為什么我們很關(guān)心基因組的大小?
大家對這個基因組稍微了解的話知道我們從做基因組測序來說,要把一個基因組測完整其實是很不容易的,像人的基因組是把人的基因組切成大概一個KB這樣的片段,一段段測完之后拼起來,我們現(xiàn)在看到人的基因組其實是1K左右的序列拼起來的。現(xiàn)在拼的人的基因組是3G,人的內(nèi)存大概是500G,一臺機器要有500G的內(nèi)存才能把3個G的基因組拼起來,那要拼600多G的基因組需要什么計算機器呢?