Thrun 找了斯坦福的兩名學(xué)生幫他搞研究。學(xué)生們的首個(gè)任務(wù)就是創(chuàng)建一個(gè)“教學(xué)集”:這是一個(gè)龐大的圖片庫(kù),機(jī)器可以通過(guò)對(duì)圖片庫(kù)的學(xué)習(xí)識(shí)別出惡性腫瘤。在網(wǎng)上搜索一番后,Esteva 和 Kuprel 找到了 18 個(gè)已經(jīng)成型的皮膚損傷圖片庫(kù),其中包含了近 13 萬(wàn)張有關(guān)痤瘡、皮疹、蟲(chóng)咬、過(guò)敏反應(yīng)和皮膚癌等疾病的圖片,皮膚病專家將它們分為近 2000 種疾玻值得注意的是,這些圖片庫(kù)中有一個(gè)包含 2000 個(gè)病變的集合已經(jīng)由病理學(xué)家切片檢查過(guò)了,因而它們幾乎可以算是已經(jīng)確診的了。
隨后,Esteva 和 Kuprel 開(kāi)始了對(duì)系統(tǒng)的訓(xùn)練,他們并沒(méi)有依據(jù)規(guī)則對(duì)其進(jìn)行編程,也沒(méi)有教系統(tǒng)“ABCD”的順口溜。相反,這套系統(tǒng)只是不斷將圖像和醫(yī)生做出的診斷分類加入神經(jīng)網(wǎng)絡(luò)中。
Thrun 將這個(gè)神經(jīng)網(wǎng)絡(luò)的工作內(nèi)容描述為:“如果用一個(gè)老舊的程序去識(shí)別狗狗,軟件工程師可能會(huì)寫(xiě)一千行下定義的語(yǔ)句,比如如果它有耳朵,一個(gè)鼻子,并有頭發(fā),且不是一只老鼠等。事實(shí)上,這并不是孩子學(xué)會(huì)辨識(shí)狗狗的方法。孩子會(huì)先通過(guò)觀察狗狗和大人的描述來(lái)學(xué)習(xí)相關(guān)的識(shí)別知識(shí)。如果她把狼當(dāng)成了狗,家人會(huì)及時(shí)進(jìn)行糾正,這時(shí)孩子就會(huì)改變最初的認(rèn)識(shí)。機(jī)器學(xué)習(xí)算法就像小孩子,它能從已經(jīng)標(biāo)注好準(zhǔn)確信息的訓(xùn)練集中汲取信息,隨后再?gòu)闹屑橙」返奶卣鳎又鼤?huì)自行用成千上萬(wàn)的圖片進(jìn)行對(duì)比測(cè)試并最終學(xué)會(huì)識(shí)別狗狗的方法,整個(gè)過(guò)程與孩子識(shí)別狗狗完全一樣。”通過(guò)這個(gè)過(guò)程,系統(tǒng)學(xué)會(huì)了“實(shí)踐知識(shí)”。
2015 年 6 月,Thrun 的團(tuán)隊(duì)開(kāi)始通過(guò)“驗(yàn)證集”來(lái)測(cè)試機(jī)器從圖像中都學(xué)到了什么。這次測(cè)試中共包含了 1.4 萬(wàn)張經(jīng)過(guò)皮膚病專家診斷的圖片(并不一定經(jīng)過(guò)活檢),機(jī)器的任務(wù)就是將這些圖像分成 3 組:良性病變、惡性病變和非癌生長(zhǎng)。結(jié)果顯示,該系統(tǒng)的準(zhǔn)確率達(dá)到了 72%。兩位得到認(rèn)證的皮膚病醫(yī)生也一同做了測(cè)試,但他們的準(zhǔn)確率卻只有 66%。
隨后,Thrun 師徒三人將研究擴(kuò)展到了 25 位皮膚病學(xué)家,而這一次他們使用了一個(gè)黃金標(biāo)準(zhǔn)——約 2000 張經(jīng)由活檢證實(shí)的圖像“測(cè)試集”,結(jié)果顯示,醫(yī)生們完全不是機(jī)器的對(duì)手,機(jī)器沒(méi)有錯(cuò)過(guò)任何一個(gè)黑色素瘤。此外它還更加精確,不會(huì)將某個(gè)腫瘤錯(cuò)診斷為黑色素瘤。
“在論文中,其實(shí)還有個(gè)關(guān)于網(wǎng)絡(luò)的關(guān)鍵問(wèn)題沒(méi)有重點(diǎn)強(qiáng)調(diào)。”Thrun 說(shuō)道。在第一次涉足該領(lǐng)域時(shí),Thrun 的團(tuán)隊(duì)用的還是個(gè)“很傻很天真”的神經(jīng)網(wǎng)絡(luò),不過(guò)他們發(fā)現(xiàn)如果用的神經(jīng)網(wǎng)絡(luò)已經(jīng)會(huì)識(shí)別一些不相關(guān)特征(比如狗和貓),它就會(huì)學(xué)的更快也更好,也許我們的大腦也遵循類似的原理?;叵敫咧心切┝钊藷o(wú)語(yǔ)的枯燥訓(xùn)練,如多項(xiàng)式因式分解、動(dòng)詞變化和元素周期表,反而讓人記憶更加敏捷。
在訓(xùn)練機(jī)器時(shí),Thrun 的團(tuán)隊(duì)需要對(duì)圖片進(jìn)行處理。Thrun 希望有一天人們能通過(guò)智能機(jī)圖片上傳獲得精確的診斷,不過(guò)這就意味著該系統(tǒng)必須適用于多種角度和照明條件。Thrun 也有擔(dān)心,因?yàn)?ldquo;在一些圖片中,黑色素瘤的部位被用黃色記號(hào)筆標(biāo)注了,因此他們必須將這些部位裁剪掉,否則 Thrun 的團(tuán)隊(duì)可能就是在教計(jì)算機(jī)如何識(shí)別圖中的黃色標(biāo)記。”
其實(shí)這難題古已有之:一個(gè)世紀(jì)前,德國(guó)公眾就被聰明的 Hans 深深吸引了,這匹馬靠的不是日行千里,而是可以做加減運(yùn)算并用敲蹄子的方法給出答案。進(jìn)行一番研究后人們發(fā)現(xiàn),Hans 并不是什么聰明馬,它只是能感受自家主人的表情和動(dòng)作。當(dāng) Hans 回答正確,主人的表情和動(dòng)作都會(huì)放松下來(lái)。因此,Hans 的神經(jīng)網(wǎng)絡(luò)并沒(méi)有學(xué)會(huì)計(jì)算方法,它只是學(xué)會(huì)了閱讀人類的肢體語(yǔ)言。“這就是神經(jīng)網(wǎng)絡(luò)的奇怪之處。”Thrun 說(shuō)道。“你根本不知道它們用了什么數(shù)據(jù),它們自己搞了個(gè)黑箱,內(nèi)部的工作非常神秘。”
“黑箱”問(wèn)題是深度學(xué)習(xí)的專屬,這套系統(tǒng)并不是由醫(yī)學(xué)知識(shí)和診療規(guī)定引導(dǎo)的,相反它會(huì)有效的進(jìn)行自我教育,通過(guò)大量?jī)?nèi)部調(diào)整(類似于加強(qiáng)和減弱大腦中的突觸連接),學(xué)會(huì)區(qū)分普通的痣和黑色素瘤。那么它到底如何確定某個(gè)病變部位是黑色素瘤呢?我們也沒(méi)有答案,深度學(xué)習(xí)也無(wú)法解釋原因,一切的內(nèi)部調(diào)整和處理方式都在我們的監(jiān)視之外秘密發(fā)生著。當(dāng)然,這樣類似的“黑箱”在我們大腦中也存在。當(dāng)你控制自行車慢慢轉(zhuǎn)向時(shí),身體會(huì)自動(dòng)向相反方向傾斜,筆者的女兒也知道這個(gè)技巧,但她做出這些動(dòng)作時(shí)自己根本就不知道。黑色素瘤診斷機(jī)器必須從圖片中看出所以然來(lái),不過(guò)如果它不能將技巧告訴人類,會(huì)有什么影響嗎?它就像微笑的知識(shí)之神,遇見(jiàn)這樣的機(jī)器,你就能得以一窺動(dòng)物感知人類心靈的某種方式:無(wú)所不知但卻無(wú)法理解。