并不是說IBM沃森沒有問題,事實上,它的問題比任何其它的項目都要大。
到底是什么使得研究受挫?首先你要深入理解機器學習系統(tǒng)(比如沃森)的訓練方式。沃森持續(xù)對內部處理流程進行微調,從中學習經驗,這樣一來解決某些問題時獲得正確答案的概率就會提高。正確答案必須是已知的,這樣系統(tǒng)才會知道什么時候對了,什么時候錯了。系統(tǒng)處理的訓練問題越多,結果就會越好。
要訓練系統(tǒng)在X線中識別惡性腫瘤還是比較簡單的。如果解決的謎題大大超出人類的已知范疇,比如了解基因變異與疾病的關系,沃森就會顯得無能為力,它會碰到“雞與蛋”的問題:數(shù)據沒有經過專家的篩選,沒有有效組織過,如何用這樣的數(shù)據訓練系統(tǒng)呢?紐約斯隆-凱特琳癌癥中心計算病理學家Thomas Fuchs解釋說:“如果你正在訓練自動駕駛汽車,任何人都可以給樹、標志貼標簽,這樣系統(tǒng)就可以學習如何識別它。但是醫(yī)學是一個特殊的領域,需要專家訓練幾十年,給信息貼上正確的標簽,輸入計算機。”
IBM希望沃森能夠在一些領域做出貢獻,其它企業(yè)的機器學習解決方案也是樣打算的,在所有這些領域都有障礙存在。要訓練沃森處理海量數(shù)據,從中挑選出少數(shù)與單個病人有關的重要信息,首先需要人親自訓練,用成千上萬個案例訓練。
例如,為了讓沃森識別與疾病有關的基因,它需要成千上萬的病歷,這些病人患有特殊疾病,他們的DNA已經分析過。然而,要獲得“基因-病歷”結合的數(shù)據相當難。許多時候,數(shù)據并沒有以正確的格式記錄,或者根本不存在,又或者數(shù)據來自于幾十個不同的系統(tǒng),很難處理。
如果將更好的數(shù)據交給臨床醫(yī)生,就可以提高初級治療水平。在日常的初級治療過程中,當問題不太嚴重時醫(yī)生如果錯過了治療機會,等到病情變得嚴重起來,病人進了急診室或者讓專家治療,此時承受的痛苦會更大,成本也會大幅增加。IBM沃森健康首席醫(yī)療官Anil Jain說:“在健康方面花的錢有三分之一是不需要的。”人們認為,機器學習有機會解決這個問題。
診斷病人時,為了讓醫(yī)生得出更好的結論,沃森需要找到彼此的關聯(lián),也就是健康記錄和健康社會決定因素的關系。這些因素包括:病人是否吸毒、飲食是否健康、呼吸的空氣是否清新等等。唐認為,今天,幾乎沒有醫(yī)院或者醫(yī)療實踐從大量病人身上獲得可靠的數(shù)據。部分是因為醫(yī)生接受現(xiàn)代數(shù)據驅動型醫(yī)療實踐方法的速度有點慢??死m夫診所(Cleveland Clinic)的內科醫(yī)生、衛(wèi)生保健信息專家Manish Kohli認為:“衛(wèi)生保健行業(yè)接受技術的速度很慢,真是讓人尷尬。”
如果存在這樣的數(shù)據,IBM一般會花錢購買。IBM收購了一些企業(yè),比如Truven Health Analytics、Explorys和Phytel,它們都是處理大數(shù)據的企業(yè),這些數(shù)據來自醫(yī)院和病人群體。雖然與安德森癌癥中心的合作終止了,IBM還是與其它機構達成了重要合作,進一步獲得更多的病人數(shù)據。
與IBM合作的就有Atrius Health,它是一個網絡,里面有將近900位內科醫(yī)生,主要是初級護理內科醫(yī)生,他們來自波士頓地區(qū)。合作的目標是為開發(fā)、測試以沃森作為基礎的系統(tǒng)功能,從筆記、記錄、文章中提取面向獨立個體的關鍵信息。Atrius Health首席醫(yī)療官Joe Kimura說:“對于初級護理內科醫(yī)生而言,提取所有相關信息是一項繁重的任務。”他還說,每一次訪問數(shù)據都會增加,有了這樣的系統(tǒng)數(shù)據會大幅增加,不需要按標準格式提交,檢索很方便。
還有,病人病歷中許多重要的筆記是以句子的形式存在的,傳統(tǒng)IT系統(tǒng)無法識別。沃森使用了自然語言處理技術,這種技術當時是為參加 Jeopardy! 開發(fā)的,它可以從句子中提取意義。在理想的情況下,系統(tǒng)可以給內科醫(yī)生提建議,給病人更好的幫助,省去不必要的護理。Kimura說:“病人臀部受傷,我們全心全意照看,為什么我們只關心這個?為什么不能提前預測,判斷病人有跌倒的風險,讓他們避免臀部受傷?我們要讓護理朝著上游延伸。”
沃森健康還與紐約中央醫(yī)療中心(Central New York Care Collaborative)合作,這是一個州政府提供資金成立的機構,與6個國家大約2000個衛(wèi)生保健提供商合作。合作的目標很明確:將急診數(shù)量、再入院數(shù)量降低25%,有時病人已經獲得批準出院,結果又因為相關的問題重新回醫(yī)院治療。合作還帶來了大量的病人數(shù)據。