如果有一天,你突然發(fā)現(xiàn)身上的一顆痣變得有些奇怪,你會(huì)怎么做?雖然這可能是一個(gè)危險(xiǎn)的信號(hào),但很多人因?yàn)楣ぷ髅?、去醫(yī)院不便等種種原因,往往不會(huì)及時(shí)去檢查。現(xiàn)在,人工智能為這個(gè)問(wèn)題提供了更好的解決方案:在未來(lái),我們或許可以在手機(jī)上下載一個(gè)APP,開(kāi)個(gè)攝像頭讓機(jī)器醫(yī)生幫我們看一看,這是不是皮膚癌的早期癥狀。
斯坦福大學(xué)一個(gè)聯(lián)合研究團(tuán)隊(duì)開(kāi)發(fā)出了一個(gè)皮膚癌診斷準(zhǔn)確率媲美人類(lèi)醫(yī)生的人工智能,相關(guān)成果刊發(fā)為了1月底《自然》雜志的封面論文,題為《達(dá)到皮膚科醫(yī)生水平的皮膚癌篩查深度神經(jīng)網(wǎng)絡(luò)》(Dermatologist-level classification of skin cancer with deep neural networks)。他們通過(guò)深度學(xué)習(xí)的方法,用近13萬(wàn)張痣、皮疹和其他皮膚病變的圖像訓(xùn)練機(jī)器識(shí)別其中的皮膚癌癥狀,在與21位皮膚科醫(yī)生的診斷結(jié)果進(jìn)行對(duì)比后,他們發(fā)現(xiàn)這個(gè)深度神經(jīng)網(wǎng)絡(luò)的診斷準(zhǔn)確率與人類(lèi)醫(yī)生不相上下,在91%以上。
深度學(xué)習(xí)為醫(yī)學(xué)添磚加瓦
在中國(guó),皮膚癌并不是癌癥家族中特別矚目的成員,這是因?yàn)辄S種人的皮膚癌發(fā)病率要低于白種人。但在美國(guó),皮膚癌卻是最常見(jiàn)的癌癥之一。每年約有540萬(wàn)美國(guó)人罹患皮膚癌。以黑色素瘤為例,如果在五年之內(nèi)的早期階段檢測(cè)并接受治療,生存率在97%左右;但在晚期階段,存活率會(huì)劇降到14%。因而,早期篩查對(duì)皮膚癌患者來(lái)說(shuō)生死攸關(guān)。
一般情況下,來(lái)到醫(yī)院或診所后,醫(yī)生會(huì)基于視覺(jué)診斷進(jìn)行臨床篩查,再對(duì)疑似病變部位依次進(jìn)行皮膚鏡檢查、活體組織切片檢查和病理學(xué)診斷。
醫(yī)生使用皮膚鏡進(jìn)行檢查。
但由于各種各樣的原因,很多人并不會(huì)及時(shí)為皮膚上出現(xiàn)的一些細(xì)小癥狀而跑一趟醫(yī)院。因而,基于人工智能的家用便攜式皮膚癌診斷設(shè)備將大大提高早期皮膚癌的篩查覆蓋率,挽救更多人的生命。但是,癌癥診斷,差之毫厘,謬以千里,人工智能能夠勝任將黑色素瘤從普通的痣中篩選出來(lái)的任務(wù)?斯坦福大學(xué)這個(gè)聯(lián)合研究團(tuán)隊(duì)的結(jié)論是:基于深度學(xué)習(xí)的機(jī)器醫(yī)生診斷準(zhǔn)確率十分驚人。
“我們意識(shí)到這是可行的,機(jī)器不僅能做,而且能做得和人類(lèi)一樣好”,斯坦福人工智能實(shí)驗(yàn)室助理教授Sebastian Thrun說(shuō)道,“這時(shí)候我們的想法完全變了。我們說(shuō),‘瞧吧,這不僅僅是個(gè)學(xué)生作業(yè),這可能有益于全人類(lèi)’。”
這種視覺(jué)處理算法基于時(shí)下大熱的深度學(xué)習(xí),即通過(guò)大量的數(shù)據(jù)作為示例來(lái)訓(xùn)練機(jī)器完成某些特定任務(wù)。近來(lái)深度學(xué)習(xí)不僅在視覺(jué)處理方面大放異彩,也在其他不同的領(lǐng)域碩果累累,譬如谷歌的圍棋AI阿爾法狗,就是在學(xué)習(xí)完3000萬(wàn)張人類(lèi)棋譜后擊敗世界圍棋冠軍李世石的。在機(jī)器學(xué)習(xí)過(guò)程中,開(kāi)發(fā)者不再需要對(duì)解題方法進(jìn)行編碼,而是任由計(jì)算機(jī)通過(guò)學(xué)習(xí)示例數(shù)據(jù)自己“摸索”出解法。具體到皮膚癌診斷這個(gè)案例中,就是研究者不再需要自己總結(jié)中皮膚癌在外觀上的一些規(guī)律性特征來(lái)教會(huì)計(jì)算機(jī),而是由它自己總結(jié)其中的模式。
以谷歌一個(gè)區(qū)別貓狗的算法為藍(lán)本
研發(fā)者們沒(méi)有自己另起爐灶,而是以谷歌的一個(gè)能在128萬(wàn)張圖像中識(shí)別1000種物體的算法為藍(lán)本進(jìn)行加工。谷歌的這個(gè)算法原本是用來(lái)區(qū)分喵星人和汪星人的,現(xiàn)在,研究者們需要訓(xùn)練它區(qū)別良性脂溢性角化病(benign seborrheic keratosis)和角化細(xì)胞癌(keratinocyte carcinomas)、普通的痣和惡性黑色素瘤(malignant melanomas)。
但是,在數(shù)據(jù)方面,研究團(tuán)隊(duì)面臨的第一個(gè)問(wèn)題就是并不存在一個(gè)現(xiàn)成可用的龐大皮膚癌數(shù)據(jù)庫(kù)。所以,斯坦福人工智能實(shí)驗(yàn)室從互聯(lián)網(wǎng)上收集數(shù)據(jù),與斯坦福醫(yī)學(xué)院進(jìn)行合作,給這一大堆混亂的照片分類(lèi)貼標(biāo)簽。這工作并不容易,畢竟,原始數(shù)據(jù)里的語(yǔ)言就有好幾種,光把這些翻譯統(tǒng)一就很耗時(shí)。
接著,聯(lián)合研究團(tuán)隊(duì)再一起對(duì)這鍋大雜燴進(jìn)行篩眩專(zhuān)業(yè)的皮膚科醫(yī)生會(huì)使用皮膚鏡,一種手持的顯微鏡,對(duì)相關(guān)部位的皮膚進(jìn)行放大觀察,形成的醫(yī)學(xué)影像具有一些固定標(biāo)準(zhǔn)。但這里的大多數(shù)照片不是專(zhuān)業(yè)的醫(yī)學(xué)影像,角度、尺寸和亮度五花八門(mén)。最后,他們選出了129450張皮膚病變圖片,其中包含2032種不同的疾玻每張照片是作為一個(gè)帶有相關(guān)疾病標(biāo)簽的像素輸入進(jìn)算法的。這樣,研發(fā)者省去了許多前期的圖像分組工作,大大提高了數(shù)據(jù)量。