這是一個很大的挑戰(zhàn),我們還是比較關(guān)心基因組的大小的。同時基因組里還有很多有趣的東西,AP+ALE 以后也很有趣,有時候測出來你不知道在哪里,沒有證據(jù)表明一定要放在一個地方。
舉個例子,如果要把世界上所有的DNA收集起來有多重,它大概有500億噸的重量,如果要把它裝在集裝箱里其實需要十億個集裝箱,把500億噸的DNA處理一遍的話需要10的21次方超級計算機,這其實是一個天文數(shù)字,大家很難想象,如果我們要建這么大的模型應(yīng)該怎么處理。
我們再來看看醫(yī)學(xué)方面,我們到醫(yī)院拍一張3D核磁共振體大概需要150兆的空間,如果是3D的CT,一個結(jié)果就是一個G,當(dāng)然胸透的數(shù)據(jù)和X光透視的數(shù)據(jù)相對小一點。
我們做一個統(tǒng)計,如果把三甲院士抽選,在美國相對還行的醫(yī)院做一個統(tǒng)計一年大概有3600萬個病人到醫(yī)院看病,這些病人每年在醫(yī)院里產(chǎn)生的數(shù)據(jù)大概是600個TB,而且這些數(shù)據(jù)還特別復(fù)雜。
有照片的數(shù)據(jù)、有病例的數(shù)據(jù),甚至有時間緯度的數(shù)據(jù),這些數(shù)據(jù)還是挺復(fù)雜,80%的數(shù)據(jù)其實是非結(jié)構(gòu)化的,每個醫(yī)院里面的數(shù)據(jù)在每年以20%-40%的增長率增長,這個數(shù)據(jù)一點都不比基因組數(shù)據(jù)小,如果有剛才說的精準(zhǔn)模型的話,它表明了你基因和外界環(huán)境相互作用的結(jié)果是什么,所以你一定要把這個參數(shù)考慮進(jìn)去,這些數(shù)據(jù)也是整合到這個模型里做計算的。
我們大概能知道我們現(xiàn)在通過傳感器,記錄也好、監(jiān)控也好身體上的這部分?jǐn)?shù)據(jù),比如身體的坐姿、消化情況、呼吸的情況,還有心臟監(jiān)護(hù),這些數(shù)據(jù)目前都有很好的監(jiān)護(hù),這些數(shù)據(jù)也是需要整合到精準(zhǔn)醫(yī)學(xué)的系統(tǒng)里面。
最后一個是社交/婚姻基因,美國的一個測試,找了一堆很好的朋友測他們的基因,發(fā)現(xiàn)好朋友之間1%之間的基因相像,但是古代有酒肉朋友和異性相吸這樣的成語,有跟喝酒有關(guān)的基因,這個基因越強你可能越喜歡酗酒,酒肉朋友這個詞就可以通過這個基因來體現(xiàn),還有跟荷爾蒙、情感有關(guān)的。甚至有科學(xué)家發(fā)現(xiàn)婚姻也與基因有關(guān)系,這個基因越向下這兩個人越傾向于在一起。
如果把所有數(shù)據(jù)整合起來,如果把一個人一生健康相關(guān)的數(shù)據(jù)整合一起需要多大,基因需要一個DB,轉(zhuǎn)錄組是0.7TB,表觀組是2TB,宏觀基因組是3TB。如果要做一百萬人的數(shù)據(jù)大概需要10EB,像阿里,百度數(shù)據(jù)量級也差不多是這個級別了。但是做這樣一個項目需要這么大的存儲空間。
為什么要做精準(zhǔn)醫(yī)學(xué)
就是希望自己活的更長,理論上講每個人如果生活的條件非常平穩(wěn)、非常好的話,本身基因沒有什么缺陷,每個人大概能活150歲,這是在理想條件下面。但實際情況并不是這樣,有15%的家庭是有不孕不育的問題,在出生的嬰兒里大概5.6%有出生缺陷,有出生缺陷的嬰兒其實是活不了太長的,大概活到二十歲左右。
對于青年們來說還有很重要的疾病會影響他的健康狀況,比如說代謝病、癌癥、傳染病,對于二十歲到五十歲之間的青年人這些疾病是他們主要疾病的威脅。對于中年人,他們的代謝病大概有30%的患病率,心血管疾病和癌癥是中年人主要的生命殺手。老年人,心血管疾病的危害是特別大的,反而是癌癥和老年病還好。
從這個曲線上看,1就代表了你出生的時候如果有很大缺陷的話肯定活不了太久,但是2和3恩都代表了現(xiàn)在大部分人的生活情況,你剛開始的時候很健康,到中老年的時候會發(fā)生各種各樣的疾病的問題,有一些疾病可以治,有一些疾病治不了的立刻掛掉,如果能治一般也是茍延殘喘維持一段時間,維持不了太久,到一定程度以后也就不行了。
比較理想的情況,我們能做到的可能是4,你出生的時候還是很健康的,一旦發(fā)現(xiàn)你的健康到不健康轉(zhuǎn)移的過程的時候,如果我們有很好的預(yù)測的模型,我們其實是完全可以通過一系列的干預(yù)手段把自己的健康狀況從不健康和轉(zhuǎn)化的狀態(tài)拉回來重新再往下走,就有一個很好的監(jiān)控預(yù)防的體系。
在5.6%的出生缺陷了跟遺傳有關(guān)的只占30%,但這30%也是很可觀的,這些數(shù)字是我們中國大概一年有缺陷的人口的情況?,F(xiàn)在大家經(jīng)常聽到猝死和癌癥的增長,增長率都是很可怕的,癌癥一年的增長率在30%到40%,在中國這個是特別嚴(yán)重的,五十幾萬猝死的人群里面大概有15%-25%跟你的DNA是有關(guān)的。