編者按:本文作者陳遵秋,美國(guó)俄勒岡州,健康科技大學(xué),公共衛(wèi)生預(yù)防系,美國(guó)統(tǒng)計(jì)協(xié)會(huì)認(rèn)證統(tǒng)計(jì)分析師;陳漪伊,美國(guó)俄勒岡州,健康科技大學(xué),公共衛(wèi)生預(yù)防系,生物統(tǒng)計(jì)助理教授(交流微信號(hào):2823095726)。
陳遵秋和陳漪伊夫婦是美籍華人,現(xiàn)在美國(guó)定居。其二人是目前研究醫(yī)療大數(shù)據(jù)及生物樣本大數(shù)據(jù)真正的專家?,F(xiàn)將兩位的文章進(jìn)行公開發(fā)表,與大家一起探討。
現(xiàn)在無(wú)論國(guó)內(nèi)外均出現(xiàn)了移動(dòng)醫(yī)療熱,所有的創(chuàng)業(yè)團(tuán)隊(duì)和投資公司均把商業(yè)模式指向了最后的醫(yī)療大數(shù)據(jù)分析。但是可以很負(fù)責(zé)任的說(shuō),90% 以上的人都不知道醫(yī)療大數(shù)據(jù)分析是什么東西,因此這是一篇掃盲貼,但是僅供專業(yè)人士。文中分析了醫(yī)療大數(shù)據(jù)、它的維度、方法和成本,以及需要的專業(yè)人才。本文無(wú)論是對(duì)創(chuàng)業(yè)團(tuán)隊(duì)還是投資機(jī)構(gòu)都是非常有指導(dǎo)意義的。
大數(shù)據(jù)定義及其特征
大數(shù)據(jù)顧名思義就是數(shù)量極其龐大的數(shù)據(jù)資料。從上世紀(jì) 80 年代開始,每隔 40 個(gè)月世界上儲(chǔ)存的人均科技信息量就會(huì)翻倍 (Hibert & Lopez, 2011)。2012 年,每天會(huì)有 2.5EB 量的數(shù)據(jù)產(chǎn)生 (Andrew & Erik, 2012)。現(xiàn)在,2014 年,每天會(huì)有 2.3ZB 量的數(shù)據(jù)產(chǎn)生 (IBM, 2015)。這是一個(gè)什么概念? 現(xiàn)在一般我們電腦的硬盤大小都以 GB,或者 TB 為單位了。1GB 的容量可以儲(chǔ)存約 5.4 億的漢字,或者 170 張普通數(shù)碼相機(jī)拍攝的高精度照片,或者 300-350 首長(zhǎng)度為 5-6 分鐘的 MP3 歌曲。 那 GB 和 TB, EB,ZB 的關(guān)系又是怎樣?
1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一臺(tái) 1TB 硬盤容量的電腦,那 1ZB 就是大致等于 10 億臺(tái)電腦的容量, 遠(yuǎn)遠(yuǎn)超出了我們一般的想象。
早期,IBM 定義了大數(shù)據(jù)的特性有 3 個(gè):大量性( Volume), 多樣性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后來(lái)又有學(xué)者把價(jià)值(Value)加到大數(shù)據(jù)的特性里。隨著時(shí)間的推移和人們思考的進(jìn)一步完善,又有三個(gè)大數(shù)據(jù)的特性被提出: 易變性(Variability),準(zhǔn)確性 (Veracity) 和復(fù)雜性 (Complexity)。
作者認(rèn)為價(jià)值本質(zhì)上是數(shù)據(jù)被分析后體現(xiàn)出來(lái)的有用信息知識(shí)的程度,和其他幾個(gè)特性有根本區(qū)別。其他幾個(gè)特性可以說(shuō)是數(shù)據(jù)工作者具體實(shí)踐中面臨的挑戰(zhàn),而價(jià)值則是征服這些挑戰(zhàn)后獲得的回報(bào)。
大數(shù)據(jù)的6個(gè)特性描述如下:
大量性:一般在大數(shù)據(jù)里,單個(gè)文件大量性的級(jí)別至少為幾十,幾百 GB 以上,一調(diào)查 (Russom, 2013) 顯示相當(dāng)多的機(jī)構(gòu)擁有的數(shù)據(jù)總量在 10 到 99TB 之間。用我們傳統(tǒng)的數(shù)據(jù)庫(kù)軟件,1GB 已經(jīng)可以儲(chǔ)存千萬(wàn)條有著幾百個(gè)變量的數(shù)據(jù)記錄了。
多樣性:泛指數(shù)據(jù)類型及其來(lái)源的多樣化 (Troester, 2012),進(jìn)一步可以把數(shù)據(jù)結(jié)構(gòu)歸納為結(jié)構(gòu)化 (structured),半結(jié)構(gòu)化 (semi-structured),和非結(jié)構(gòu)化 (unstructured) (SAS, 2014) 。
快速性:反映在數(shù)據(jù)的快速產(chǎn)生及數(shù)據(jù)變更的頻率上。比如一份哈佛商學(xué)院的研究報(bào)告稱在 2012 年時(shí),谷歌每天就需要要處理 20PB 的數(shù)據(jù) (Harvard Business Review, 2012)。
易變性:伴隨數(shù)據(jù)快速性的特征,數(shù)據(jù)流還呈現(xiàn)一種波動(dòng)的特征。不穩(wěn)定的數(shù)據(jù)流會(huì)隨著日,季節(jié),特定事件的觸發(fā)出現(xiàn)周期性峰值 (Troester, 2012)。
準(zhǔn)確性:又稱為數(shù)據(jù)保證 (data assurance)。不同方式,渠道收集到的數(shù)據(jù)在質(zhì)量上會(huì)有很大差異。數(shù)據(jù)分析和輸出結(jié)果的錯(cuò)誤程度和可信度在很大程度上取決于收集到的數(shù)據(jù)質(zhì)量的高低 (W.Raghupathi & Raghupathi, 2014)。所謂“垃圾進(jìn),垃圾出”。沒有數(shù)據(jù)保證,大數(shù)據(jù)分析就毫無(wú)意義。
復(fù)雜性:復(fù)雜性體現(xiàn)在數(shù)據(jù)的管理和操作上。IT 時(shí)代,隨著數(shù)據(jù)來(lái)源及數(shù)據(jù)量的爆發(fā),各種不同渠道數(shù)據(jù)的大量涌現(xiàn),數(shù)據(jù)的管理和操作已經(jīng)變得原來(lái)越復(fù)雜。如何抽取,轉(zhuǎn)換,加載,連接,關(guān)聯(lián)以把握數(shù)據(jù)內(nèi)蘊(yùn)的有用信息已經(jīng)變得越來(lái)越有挑戰(zhàn)性。
醫(yī)療大數(shù)據(jù)的爆發(fā)
早期,大部分醫(yī)療相關(guān)數(shù)據(jù)是紙張化的形式存在,而非電子數(shù)據(jù)化存儲(chǔ), 比如官方的醫(yī)藥記錄,收費(fèi)記錄,護(hù)士醫(yī)生手寫的病例記錄,處方藥記錄,X 光片記錄,磁共振成像(MRI)記錄,CT 影像記錄等等。
隨著強(qiáng)大的數(shù)據(jù)存儲(chǔ),計(jì)算平臺(tái),及移動(dòng)互聯(lián)網(wǎng)的發(fā)展,現(xiàn)在的趨勢(shì)是醫(yī)療數(shù)據(jù)的大量爆發(fā)及快速的電子數(shù)字化。以上提到的醫(yī)療數(shù)據(jù)都在不同程度上向數(shù)字化轉(zhuǎn)化。