然而,根據(jù)一份針對美國和加拿大 333 家醫(yī)療機構(gòu)及 10 家其他機構(gòu)的調(diào)查 (IHTT, 2013),2013 年,醫(yī)療機構(gòu)累積的數(shù)據(jù)量比 2011 年多出了 85%, 但 77% 的醫(yī)療健康行政人員對自己機構(gòu)在數(shù)據(jù)管理方面的能力評價為“C”。此外,僅有 34% 報告他們能從電子健康記錄(EHR)中獲取數(shù)據(jù)用來幫助病人,而有 43% 報告他們不能收集到足夠多的數(shù)據(jù)來幫助病人。由此可見,在北美的醫(yī)療系統(tǒng)中,醫(yī)療大數(shù)據(jù)的管理使用準(zhǔn)備工作還有一大段路要走。中國也是處在起步階段。
數(shù)據(jù)分析框架(傳統(tǒng)數(shù)據(jù)分析框架,大數(shù)據(jù)分析框架)
醫(yī)療大數(shù)據(jù)有著前面第一節(jié)提到的所有特征。在醫(yī)療大數(shù)據(jù)帶來各種優(yōu)勢的同時,大數(shù)據(jù)隨之帶來的各種特性使得傳統(tǒng)的數(shù)據(jù)處理和數(shù)據(jù)分析方法及軟件捉襟見肘,問題多多。在大數(shù)據(jù)時代出現(xiàn)之前,受限于數(shù)據(jù)量的可獲得性和計算能力的有限性,傳統(tǒng)的數(shù)據(jù)管理和分析采用著不同的思路和流程。傳統(tǒng)上,對于問題的研究建立在假設(shè)的基礎(chǔ)上進行驗證,進而研究事物的相關(guān)因果性,希望能回答“為什么”。
而在大數(shù)據(jù)時代,海量數(shù)據(jù)的涌現(xiàn)提供了從不同角度更細致更全面觀察研究數(shù)據(jù)的可能,從而打開了人們的好奇心,探索欲望,人們想知道到數(shù)據(jù)告訴了我什么,而不僅僅是我的猜想是否被數(shù)據(jù)驗證了。人們越來越多地用大數(shù)據(jù)挖掘各種感興趣的關(guān)聯(lián),非關(guān)聯(lián)等相關(guān)性,然后再進一步比較,分析,歸納,研究(“為什么”變成一個選項而不是唯一終極目標(biāo))。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)思路上的不同導(dǎo)致了分析流程的不同,如圖一所示:
圖一
面對海量的數(shù)據(jù)和不同的分析思路,大數(shù)據(jù)的管理和分析與傳統(tǒng)數(shù)據(jù)分析的差異日益加大。回答特定問題的單一預(yù)設(shè)結(jié)構(gòu)化數(shù)據(jù)庫明顯不能完全勝任處理大數(shù)據(jù)的海量及混雜等問題。數(shù)據(jù)的混雜多樣性具體可以從一些調(diào)查數(shù)據(jù)中表現(xiàn)出來。SAS 的一份調(diào)查報告顯示機構(gòu)內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)最多可以占到總數(shù)據(jù)量的 85%,而這些非數(shù)字,非結(jié)構(gòu)化的數(shù)據(jù)卻必須被量化分析和用到?jīng)Q策分析中 (Troester, 2012)。
另一份 2013 年進行的 SAS 調(diào)查報告顯示在 461 個提供完整反饋信息的機構(gòu)中只有 26% 的機構(gòu)表示他們所擁有的大數(shù)據(jù)是結(jié)構(gòu)化的 (Russom, 2013)。 此外,在機構(gòu)中,分析的數(shù)據(jù)一般不會只有一個單一的來源。Alteryx 的調(diào)查報告顯示在 200 家被調(diào)查的機構(gòu)中只有 6% 的機構(gòu)表示他們的數(shù)據(jù)是只有一個來源,最為普遍的情況是 5-10 個來源, 具體分布如圖二 (Alteryx, 2014)。
調(diào)查中還顯示 90% 的被調(diào)查樣本表示有數(shù)據(jù)整合問題,37% 表示需要等其他小組提供數(shù)據(jù),30% 表示不能得到他們想要的數(shù)據(jù),一般估計是一個數(shù)據(jù)分析師的 60% 到 80% 的時間是花在數(shù)據(jù)處理準(zhǔn)備階段上的 (Alteryx, 2014)。
圖二
由此可見有效的數(shù)據(jù)管理,數(shù)據(jù)庫建立及數(shù)據(jù)分析流程的重要性。傳統(tǒng)的數(shù)據(jù)管理的過程包括抽?。‥xtraction),轉(zhuǎn)換(Transformation)和載入(load)。通過 ETL,可以賦予數(shù)據(jù)一種合適恰當(dāng)?shù)慕Y(jié)構(gòu)用于特定的分析發(fā)現(xiàn)。具體數(shù)據(jù)準(zhǔn)備分析流程如圖三所示:1)抽取單個或多個來源的數(shù)據(jù) 。2)凈化,格式化,標(biāo)準(zhǔn)化,聚合,添加,或遵循其他特定的數(shù)據(jù)處理規(guī)則。3)載入處理完的數(shù)據(jù)到特定的數(shù)據(jù)庫或儲存為特定的文件格式。4)采用各種方法進行數(shù)據(jù)分析。
圖三
ETL 的中心內(nèi)容仍舊適用于大數(shù)據(jù),但由于大數(shù)據(jù)的大量性和多樣性對數(shù)據(jù)庫和數(shù)據(jù)管理及處理方法的要求越來越高,也越來越復(fù)雜,這樣線性處理整個數(shù)據(jù)變得相當(dāng)耗費人力,物力,和時間。
此外,大數(shù)據(jù)的快速性,易變性也使得把數(shù)據(jù)儲存在單一的中央數(shù)據(jù)庫變的不太可行。 在這種情況下,最流行的思路是把數(shù)據(jù)分割處理,也就是把數(shù)據(jù)儲存到多個儲存節(jié)點(比如網(wǎng)絡(luò)數(shù)據(jù)庫),在每個節(jié)點單獨處理數(shù)據(jù)(甚至處理完就接著進行初步分析, 但處理的程度依客戶具體問題而調(diào)整),然后再匯總整合到一起,提供給單個或多個數(shù)據(jù)庫,接著根據(jù)需要選擇合適的分析方法獲取有用結(jié)果。ETL 貫穿于整個大數(shù)據(jù)管理分析的流程中。圖四演示了大致的大數(shù)據(jù)管理分析流程及一些大數(shù)據(jù)處理分析平臺工具的名字。