1956年,AI這個詞匯誕生,當(dāng)時科技領(lǐng)域的先賢者召開了AI會議,提出了非常有遠(yuǎn)見的思考:怎么讓機(jī)器仿真,實現(xiàn)智能?當(dāng)然,他們的思想不是最早的,更早可以追溯到萊布尼茨,他最早提出通過數(shù)據(jù)演算出智能能力。
這些先賢者不僅有遠(yuǎn)見,而且還過分樂觀,他們認(rèn)為智能的基本問題可以在一個夏天解決,但是這個問題解決了嗎?沒有。維基百科詞條“AI winter”列出了很多失敗案例,為什么在長達(dá)的五六十年里面煽起大家那么多的熱情,卻沒有產(chǎn)生我們期待的路徑呢?
過去絕大部分的AI系統(tǒng),更多以科學(xué)演繹的方式,演繹的概念就是類似“一生二,二生三,三生萬物”,從一個基本法則出發(fā),推導(dǎo)出一個紛繁復(fù)雜的系統(tǒng)(歸納是從紛繁復(fù)雜的世界提煉出簡單的規(guī)律。以前受自然科學(xué)的研究影響,都是以不言自明的公理出發(fā)研究,比如認(rèn)定上帝造人,但是以這樣的思維出發(fā)會導(dǎo)致人工智能過于簡單)。傳統(tǒng)基于規(guī)則的AI系統(tǒng)沒有成果,形成了很多的教訓(xùn):
教訓(xùn)1:這個世界是紛繁的,存在著很多因素和要素,彼此之間有復(fù)雜的影響,形成復(fù)雜的網(wǎng)絡(luò)和系統(tǒng),這難以用一個公式來描述;
教訓(xùn)2:有很多因素和參量,你觀測不到,所以系統(tǒng)具備不確定性。現(xiàn)實以概率運行,如果你用確定性的規(guī)則,沒辦法掌握這樣的復(fù)雜系統(tǒng),我們要采用基于統(tǒng)計的概念;
教訓(xùn)3:現(xiàn)實世界紛繁復(fù)雜,你很難完整描述,從數(shù)據(jù)中不斷學(xué)習(xí)、對問題的理解,從而隨著數(shù)據(jù)演化和進(jìn)化是關(guān)鍵,這也就是我們今天講的大數(shù)據(jù)時代的意義所在,本質(zhì)上數(shù)據(jù)提供了我們了解世界的可能。隨著數(shù)據(jù)演化,學(xué)習(xí)能力是一個關(guān)鍵。
我認(rèn)為過去60年AI的一個總結(jié)是:基于規(guī)則的系統(tǒng),統(tǒng)治了過去的AI時代?,F(xiàn)在需要進(jìn)入數(shù)據(jù)驅(qū)動的系統(tǒng),把數(shù)據(jù)導(dǎo)到機(jī)器里面,機(jī)器通過消化和吸收生成對世界認(rèn)知的模型。
我們再探討些本質(zhì)性的AI問題,歸結(jié)出最簡單的形式:通過觀測到的現(xiàn)象、數(shù)據(jù)、知識,映射成預(yù)測、判斷。比如,你輸入一個圖像,然后輸出“物體”的名字,這樣的映射就是圖像識別;你輸入一個語音訊號,然后輸出“文本序列”,這是語音識別;你輸入一段話,然后輸出“解析的樹狀結(jié)構(gòu)”,這是自然云儲;你輸入車輛行使周邊路況的情況,然后輸出“控制決策”,這是自動駕駛。
我們面臨的很多問題是:如何從數(shù)據(jù)中學(xué)習(xí)映射函數(shù),形成訓(xùn)練樣本?比如把多個圖片定義為“長頸鹿”的標(biāo)簽,系統(tǒng)通過訓(xùn)練學(xué)習(xí),然后再給出類似的新圖片的時候,該圖片也能自動打上這個標(biāo)簽。
從有限推導(dǎo)無限,是不可能的,除非你提出假設(shè),沒有假設(shè),就沒辦法做出判斷。在古代,古人的智慧說“近朱者赤,近墨者黑”,就蘊涵了一個樸素的智慧,就是判斷的時候一定隱含了假設(shè):兩個在某些方面相似的人,在其它方面具有相似的特征和特性。
這就反映到人工智能大數(shù)據(jù)學(xué)習(xí)的本質(zhì)問題:假設(shè)的合理性。我們希望從數(shù)據(jù)得出的結(jié)論是簡單的、光滑的,而不是復(fù)雜的,所以哲學(xué)上有一個詞匯:剃刀原理,也就是能夠同時解釋某個現(xiàn)象的幾條規(guī)律里面,我們喜歡選擇其中最簡單的規(guī)律??偠灾?,我們希望能夠找到一個規(guī)律,既能找到觀測的樣本,又得出簡單的結(jié)果。
如何從紛繁復(fù)雜的樣本中去抽取規(guī)律?做得最好的就是人類的大腦,能夠舉一反三、不斷學(xué)習(xí)。這個學(xué)習(xí)中最簡單的單元就是神經(jīng)元,它有很多神經(jīng)簇,和其它神經(jīng)元相連,神經(jīng)元接收到外部的信息輸入后,把對信息信號的反應(yīng)通過神經(jīng)末梢傳到其它神經(jīng)元。