“想啥來啥”和“吃啥補啥”這兩派一直是人工智能領(lǐng)域里兩個階級、兩條路線的斗爭,這斗爭有時還你死我活。套一句庸俗的哲學詞,前者偏唯心,后者偏唯物。
計算機領(lǐng)域現(xiàn)在最火的詞是“深度學習”
語言學家斯蒂夫·平克對神經(jīng)網(wǎng)絡(luò)的理論提出了挑戰(zhàn)
圖靈測試開啟了人工智能領(lǐng)域兩條路線的斗爭
人工智能領(lǐng)域的大牛邁克爾_阿比卜,創(chuàng)建了麻省大學的計算機系。
自圖靈提出“機器與智能”,一直就有兩派觀點,一派認為實現(xiàn)人工智能必須用邏輯和符號系統(tǒng),這一派看問題是自頂向下的;還有一派認為通過仿造大腦可以達到人工智能,這一派是自底向上的,他們認定如果能造一臺機器,模擬大腦中的神經(jīng)網(wǎng)絡(luò),這臺機器就有智能了。前一派,我想用“想啥來啥”來形容;后一派就稱之為“吃啥補啥”,估計他們的思想來源于中國古代的原始思維,套一句庸俗的哲學詞,前者偏唯心,后者偏唯物。這兩派一直是人工智能領(lǐng)域里兩個階級、兩條路線的斗爭,這斗爭有時還你死我活。
模擬神經(jīng)網(wǎng)絡(luò)的原創(chuàng)文章發(fā)表于1943年,兩位作者都是傳奇人物,麥卡洛可(McCulloch)和皮茨(Pitts)。話分兩頭。皮茨打小就喜歡數(shù)學和哲學,初中時還讀過羅素的《數(shù)學原理》,還和羅素通信,羅素愛才,邀請他到英國跟隨自己學習邏輯。但皮茨家里是苦出身,連高中都讀不起,英國留學自然未果。他十五歲時,他爸強行要他退學上班,就像所有愛讀書的窮孩子,皮茨一怒就離家出走了。他打聽到偶像羅素那時要到芝加哥大學任教,就只身來到芝加哥,還真見到了羅素,老羅遂把他推薦給那時也在芝加哥任教的卡爾納普??柤{普想看看這孩子到底有多聰明,就把自己的《語言的邏輯句法》一書送給皮茨,沒過一個月,皮茨就看完了,把寫滿筆記的原書還給卡爾納普。老卡驚為天人,于是給他在芝加哥大學安排了份打掃衛(wèi)生的工作。別看不起打掃衛(wèi)生,電影《心靈捕手》(Good Will Hunting)里馬特·達蒙飾演的角色也是在知名大學打掃衛(wèi)生時,不小心解了道數(shù)學難題,引起老師的注意。掃馬路至少可避免流浪街頭。皮茨后來結(jié)識了也在芝加哥的麥卡洛可。沃倫-麥卡洛可比皮茨大一輩,他本科在耶魯學哲學和心理學,后在哥倫比亞得了心理學碩士和醫(yī)學博士(MD),其實醫(yī)學博士和哲學博士不是一回事,MD不是學術(shù)學位,屬終極職業(yè)學位,和MBA、MFA差不多。MD的那個D是指“醫(yī)生”,PhD的D才是博士。麥卡洛可畢業(yè)后做了幾年實習醫(yī)生,先去了耶魯研究神經(jīng)生理學,后又去了伊利諾伊大學芝加哥分校,做精神病學系的教授。麥卡洛可的強項是神經(jīng)科學,但不懂數(shù)學,他和十七歲的流浪漢數(shù)學票友皮茨是絕配。他們合作的成果就是神經(jīng)網(wǎng)絡(luò)的第一篇文章:“A Logical Calculus of Ideas Immanent in Nervous Activity”, 發(fā)表在《數(shù)學生物物理期刊》上。這篇文章也成了控制論的思想源泉之一。
控制論的始作俑者諾伯特·維納早年自稱神童,他爸是哈佛教授,曾經(jīng)帶著他到英國見過羅素,但羅素特不喜歡這孩子和他爹。自打進入二十世紀后,甭管哪門哪派的學問,最后都能扯到羅素那兒,不想得諾貝爾文學獎的科學家都不是好情人。維納后來也在哈佛任教,但不被主流數(shù)學家喜歡,沒拿到終身教職。最后到了隔壁的麻省理工落腳,在二戰(zhàn)時搞了點武器研究。那時最好的數(shù)學家和物理學家都參與了造原子彈的“曼哈頓”計劃,維納卻沒沾邊。這也許同他的個性有關(guān)系,他的同事和家人都覺得他對數(shù)學之外的事情反應(yīng)遲鈍。維納提出“控制論”后出了大名,在麻省理工搞了一大筆錢,麥卡洛可就帶著皮茨等一票人馬投奔維納,有錢才能當老大,哪都一樣。維納的老婆瑪格麗特是納粹,在二戰(zhàn)時,家里還偷藏了本英文版的希特勒的《我的奮斗》。那時他們的女兒芭芭拉正在讀小學,有意無意也看過那書,寫作文時居然引用書里的“警句”,差點被學校開除。麥卡洛可的老婆是猶太人,與瑪格麗特形同水火。其實維納祖上是波蘭猶太人,瑪格麗特早干啥去了?維納娶瑪格麗特是為了自嘲嗎?就像很多中國男人討洋老婆或老外娶中國剩女,圖的不是相貌,是稀罕。反正最后維納被中和為“不可知論者”(agnostic)?,敻覃愄赜写螌S納說麥卡洛可小組有人(可能暗指皮茨)勾引寶貝女兒芭芭拉,維納大怒,隨即斷絕和麥克洛克及其學生的所有往來?,F(xiàn)在看瑪格麗特是有意造謠。但維納的舉動對皮茨造成巨大創(chuàng)傷,皮茨本來是維納的特招學生(special student),但估計他年幼時受過挫折,秉性怪異。和維納鬧翻后,他拒絕麻省理工給他的研究生學位,對學問也心灰意冷。皮茨1969年比他的長輩麥卡洛可早幾個月離世,只有四十六歲。
得維納真?zhèn)鞯娜瞬欢?,不能不說一下邁克爾·阿比卜(Michael Arbib)。他二十三歲就在維納手下得了PhD,他出名是那本科普書《大腦、機器和數(shù)學》。阿比卜后來創(chuàng)辦了麻省大學的計算機系,并延攬一幫人工智能人馬,其中有后來以“強化學習”出名的巴托(Andy Barto),使麻省大學的人工智能一直處領(lǐng)先地位。阿比卜后來轉(zhuǎn)往南加州大學,擔任一堆系的教授,包括計算機、生物、生物醫(yī)學工程、電氣工程、神經(jīng)科學、還有心理;他那名片要是印出來,估計很像中國的農(nóng)民企業(yè)家,就差“政協(xié)委員”或“人大代表”了。阿比卜到南加州后,沒出過什么有影響力的原創(chuàng)成果。在神經(jīng)網(wǎng)絡(luò)不景氣時,巴托的“可適應(yīng)學習實驗室”曾經(jīng)短期收容了很多人,其中就有后來的大佬級人物,如喬丹(Michael Jordan),喬丹在伯克利時又培養(yǎng)了Andrew Ng等一干人馬,那是后話。
1949年,神經(jīng)心理學家Hebb出版《行為組織學》(Organization of Behavior),在該書中,Hebb提出了被后人稱為“Hebb規(guī)則”的學習機制。這個規(guī)則認為如果兩個細胞總是同時激活的話,它們之間就有某種關(guān)聯(lián),同時激活的概率越高,關(guān)聯(lián)度也越高。換句話說,就是“吃啥補啥”。2000年諾貝爾醫(yī)學獎得主肯德爾(Eric Kandel)的動物實驗也證實了Hebb規(guī)則。后來的各種無監(jiān)督機器學習算法或多或少都是Hebb規(guī)則的變種。
神經(jīng)網(wǎng)絡(luò)研究的后一個大突破是1957年??的螤柎髮W的實驗心理學家弗蘭克·羅森布拉特在一臺IBM-704計算機上模擬實現(xiàn)了一種他發(fā)明的叫作“感知機”(Perceptron)的神經(jīng)網(wǎng)絡(luò)模型。這個模型可以完成一些簡單的視覺處理任務(wù)。這引起了轟動。羅森布拉特在理論上證明了單層神經(jīng)網(wǎng)絡(luò)在處理線性可分的模式識別問題時,可以收斂,并以此為基礎(chǔ),做了若干“感知機”有學習能力的實驗。羅森布拉特1962年出了本書:《神經(jīng)動力學原理:感知機和大腦機制的理論》(Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms),這書總結(jié)了他的所有研究成果,一時成為“吃啥補啥”派的圣經(jīng)。羅森布拉特的名聲越來越大,得到的研究經(jīng)費也越來越多。國防部和海軍都資助了他的研究工作。媒體對羅森布拉特也表現(xiàn)出了過度的關(guān)注。畢竟,能夠構(gòu)建一臺可以模擬大腦的機器,當然是一個頭版頭條的搶眼消息。此時的羅森布拉特也一改往日的害羞,經(jīng)常在媒體出鏡,他開跑車、彈鋼琴,到處顯擺。這使得另一派的人相當不爽。
明斯基是人工智能的奠基人之一,是達特茅斯會議的組織者。明斯基在一次會議上和羅森布拉特大吵,他認為神經(jīng)網(wǎng)絡(luò)不能解決人工智能的問題。隨后,明斯基和麻省理工學院的另一位教授佩普特合作,企圖從理論上證明他們的觀點。他們合作的成果就是那本影響巨大、“是也非也”的書:《感知機:計算幾何學》(Perceptrons: An Introduction to Computational Geometry)。在書中,明斯基和佩普特證明單層神經(jīng)網(wǎng)絡(luò)不能解決XOR(異或)問題。異或是一個基本邏輯問題,如果這個問題都解決不了,那神經(jīng)網(wǎng)絡(luò)的計算能力實在有限。其實羅森布拉特也已猜到“感知機”可能存在限制,特別是在“符號處理”方面,并以他神經(jīng)心理學家的經(jīng)驗指出,某些大腦受到傷害的人也不能處理符號。但“感知機”的缺陷被明斯基以一種敵意的方式呈現(xiàn),當時對羅森布拉特是致命打擊。所有原來的政府資助機構(gòu)也逐漸停止對神經(jīng)網(wǎng)絡(luò)的研究。1971年,羅森布拉特四十三歲生日那天,在劃船時淹死。很多人認為他是自殺。王國維沉湖時遺言“經(jīng)此世變,義無再辱”,在羅森布拉特,我猜“辱”是明斯基的書,“世變”是隨后“神經(jīng)網(wǎng)絡(luò)”學科的消沉。不同的是,王靜安謂之“世變”是歷史潮流,但神經(jīng)網(wǎng)絡(luò)學科十年后會逆襲。
表面是科學,但有證據(jù)表明明斯基和羅森布拉特以前就有瓜葛。他們是中學同學。布朗克斯(Bronx)科學高中大概是全世界最好的高中,畢業(yè)生里出過八個諾貝爾獎、六個普利策獎。遠的不說,明斯基是1944年畢業(yè)生,喬姆斯基是1945年畢業(yè)生,而羅森布拉特是1946年畢業(yè)生。美國高中學制四年,明斯基和羅森布拉特至少有兩年重疊,而且彼此認識,互相嫉妒。1956年的達特茅斯會議定義了“人工智能”這個詞,會議的組織者包括明斯基、麥卡錫和香農(nóng)等,參會者還有司馬賀,紐威爾等。這個會議在定義“人工智能”領(lǐng)域時只是提到了神經(jīng)網(wǎng)絡(luò)。那時明斯基是神經(jīng)網(wǎng)絡(luò)的支持者。他1954年在普林斯頓的博士論文題目是“神經(jīng)-模擬強化系統(tǒng)的理論,及其在大腦模型問題上的應(yīng)用”(Theory of Neural-Analog Reinforcement Systems and its Application to the Brain-Model Problem),實際是一篇關(guān)于神經(jīng)網(wǎng)絡(luò)的論文。他晚年接受采訪時開玩笑說,那篇三百多頁的博士論文從來沒正式發(fā)表過,大概只印了三本,他自己也記不清內(nèi)容了。貌似他想極力開脫自己和神經(jīng)網(wǎng)絡(luò)學科的千絲萬縷的關(guān)系。達特茅斯會議的主題并不是神經(jīng)網(wǎng)絡(luò),而是后來被紐維爾和司馬賀稱為“物理符號系統(tǒng)”的東西,也就是說達特茅斯會議,“想啥來啥”派是主要基調(diào)。
羅森布拉特被比他大一歲的明斯基妒忌是自然的。工作上,明斯基所負責的麻省理工學院的人工智能實驗室也在向國防部和海軍申請經(jīng)費。大多數(shù)的圈內(nèi)科學家,對羅森布拉特突然被塑造的明星范兒很反感。明斯基早期也是“吃啥補啥”派出身,但此時已經(jīng)改為“想啥來啥”派了。由于他和佩普特對感知機的批判,倆人后來被“吃啥補啥”派稱為“魔鬼搭檔”。其實明斯基認識佩普特結(jié)識還是通過麥卡洛克的介紹,歷史真是糾結(jié)。被稱“魔鬼”是因為《感知機》第一版有言:“羅森布拉特的論文大多沒有科學價值。”這話跳步確實有點大,但羅森布拉特人緣不好,沒有得到同行的支持。
比羅森布拉特小一歲的維德羅(Widrow)是斯坦福大學教授,在羅森布拉特剛提出“感知機”時,就提出了Adaline可適應(yīng)性算法。Adaline和感知機很相似,也是機器學習的鼻祖模型之一。羅森布拉特享受盛譽時,維德羅也沾了光,但在羅森布拉特死后,他卻并沒有被非難。維德羅在幾十年后回憶說,那是因為他后來主要在電機系(EE)做集成電路的工作,而不是在計算機系里從事派系繁雜的人工智能研究,圈子不同,老死不相往來。
感知機的失敗導致神經(jīng)網(wǎng)絡(luò)研究的式微,用加州理工學院的集成電路大佬米德(Carver Mead)的話說是“二十年大饑荒”。明斯基在《感知機》一書再版時,刪除了原版中對羅森布拉特的個人攻擊的句子,并手寫了“紀念羅森布拉特”(In memory of Frank Rosenblatt)。但其他在“大饑荒”時期受到壓迫的科學家認為明斯基不可原諒,后來神經(jīng)網(wǎng)絡(luò)得勢后,這些人紛紛對明斯基口誅筆伐。美國電氣電子工程師協(xié)會(IEEE)于2004年設(shè)立了羅森布拉特獎,以獎勵在神經(jīng)網(wǎng)絡(luò)領(lǐng)域的杰出研究。
在信息科學和神經(jīng)科學的結(jié)合部的失敗,并沒有影響到神經(jīng)生物學內(nèi)部。哈佛神經(jīng)生物學家胡貝爾(Hubel)和威瑟爾(Wiesel)對視網(wǎng)膜和視皮層(visual cortex)中神經(jīng)細胞的信息處理模式做了深入研究,他們?yōu)榇双@得1981年的諾貝爾醫(yī)學獎。隨后,麻省理工學院英年早逝的大衛(wèi)·馬爾(Marr)為視覺信息處理建立數(shù)學模型,影響了后來連接主義的運動。威瑟爾后來離開哈佛去了洛克菲勒大學。1991年洛克菲勒大學時任校長大衛(wèi)·巴爾的摩出了學術(shù)丑聞被迫辭職后,威瑟爾出任洛克菲勒校長,為把那所學校建成生物學的重鎮(zhèn)做出貢獻。
1974年,哈佛的一篇博士論文證明了在神經(jīng)網(wǎng)絡(luò)多加一層,并且利用“后向傳播”(Back-propagation)學習方法,可以解決XOR問題。這篇論文的作者是沃波斯(Werbos),他后來得到了IEEE神經(jīng)網(wǎng)絡(luò)學會的先驅(qū)獎。沃波斯這篇文章剛發(fā)表時并沒引起多少重視,那時正是神經(jīng)網(wǎng)絡(luò)研究的低谷,文章不合時宜。
神經(jīng)網(wǎng)絡(luò)在1980年代的復興歸功于物理學家霍普菲爾德(Hopfield)。1982年,那時在加州理工擔任生物物理教授的霍普菲爾德,提出了一種新的神經(jīng)網(wǎng)絡(luò),可以解決一大類模式識別問題,還可以給出一類組合優(yōu)化問題的近似解。這種神經(jīng)網(wǎng)絡(luò)模型后被稱為霍普菲爾德網(wǎng)絡(luò)。1984年,霍普菲爾德用模擬集成電路實現(xiàn)了自己提出的模型?;衾弦才囵B(yǎng)了一批后起之秀,包括現(xiàn)在在生物學重鎮(zhèn)Salk研究所擔任計算神經(jīng)生物學實驗室主任的Terry Sejnowski?;衾虾筠D(zhuǎn)往普林斯頓擔任分子生物學教授,現(xiàn)已退休?;羝辗茽柕履P偷奶岢稣駣^了神經(jīng)網(wǎng)絡(luò)領(lǐng)域。一幫早期神經(jīng)網(wǎng)絡(luò)研究的幸存者,在生物學家克里克(Crick,對,就是發(fā)明DNA雙螺旋的那位諾貝爾獎得主)和認知科學大佬唐·諾曼(Don Norman)的鼓勵下,以加州大學圣地亞哥分校為基地,開始了“連接主義”(Connectionism)運動,這個運動的領(lǐng)導者是兩位心理學家魯梅爾哈特(Rumelhart)和麥克利蘭德(McLelland),外加一位計算機科學家辛頓(Geoffrey Hinton)。
連接主義運動的成果之一就是那本著名的被稱為PDP(Parallel and Distributed Processing)的文集。此書的出版給認知科學和計算機科學吹了股大風,被后起的神經(jīng)網(wǎng)絡(luò)新秀們成為圣經(jīng)。“神經(jīng)網(wǎng)絡(luò)”在八十年代就像九十年代的互聯(lián)網(wǎng),后來的Web2.0,和眼下的“大數(shù)據(jù)”。誰都想套套近乎。一些做理論的大佬也不能免俗,發(fā)明RSA算法的R(Rivest)也帶了幾個學生轉(zhuǎn)做神經(jīng)網(wǎng)絡(luò)學習問題的復雜性。一時間紅旗不倒,彩旗飄飄,好不熱鬧。1993年,美國電氣電子工程師學會IEEE開始出版《神經(jīng)網(wǎng)絡(luò)會刊》,為該領(lǐng)域的高質(zhì)量文章提供出版渠道。美國國防部和海軍、能源部等也加大資助力度。神經(jīng)網(wǎng)絡(luò)一下子成了顯學。
連接主義運動也培養(yǎng)了一堆新人,并使得加州大學的認知科學系成為同類系科的佼佼者。魯梅爾哈特后轉(zhuǎn)往斯坦福大學任教,前年不幸死于已掙扎多年的神經(jīng)退化疾病。喬丹就是他的學生,而Andrew Ng又是喬丹的學生,魯梅爾哈特人雖離世,但香火沒滅。他的另一名學生Robert Glushko后來遠離本行,跟隨硅谷互聯(lián)網(wǎng)早期英雄塔南鮑姆,創(chuàng)立了一家XML公司,那家公司后來賣給Commerce>