無論結(jié)局怎樣,革命已經(jīng)開始。去年夏天,伯克利的團(tuán)隊(duì)把一套短期記憶系統(tǒng)植入了一個(gè)仿真機(jī)器人里面。參與該項(xiàng)目的計(jì)算機(jī)科學(xué)家 Sergey Levine 說他們注意到了 “一件奇怪的事情”。為了測(cè)試機(jī)器人的記憶程序,他們向機(jī)器人發(fā)出一項(xiàng)指令,要求它把一顆釘放到一左一右兩個(gè)洞的其中之一。出于控制的考慮,他們?cè)俣仍谝瞥洃洺绦虻那闆r下又試驗(yàn)了一次—令他們感到驚訝的是,機(jī)器人仍然知道把釘放進(jìn)正確的洞口。在沒有存儲(chǔ)的情況下它是如何記得釘子應(yīng)該放到哪里的呢?“最終我們意識(shí)到,只要機(jī)器人接收了指令,它就會(huì)旋轉(zhuǎn)機(jī)械臂到正確的洞口。” 然后,在命令消失之后,它會(huì)看自己的身體扭向什么位置才確定釘子應(yīng)該放在哪個(gè)洞里面。也就是說,機(jī)器人自己實(shí)際上已經(jīng)找到了正確執(zhí)行命令的辦法。“這非常令人吃驚,” Levine 說:“也讓人不安。”
Abbeel 帶我去到他的辦公室,這是一間沒有窗戶的小隔間。在辦公室里,他跟我談到了 DeepMind(2014年 被 Google 以約 4 億美元收購(gòu)的 AI 初創(chuàng)企業(yè))最近取得的一項(xiàng)突破。幾年前,因?yàn)榻虝?huì)計(jì)算機(jī)玩太空入侵者之類的雅達(dá)利視頻游戲并且玩得比人類還溜,DeepMind 已經(jīng)震驚了大家一把。不過更令人震驚的是,DeepMind 是在沒有在程序中告訴計(jì)算機(jī)游戲規(guī)則的情況下做到的。。這不像深藍(lán)在國(guó)際象棋比賽中擊敗人類那樣,游戲規(guī)則是在程序里面寫好的。計(jì)算機(jī)只知道一點(diǎn):目標(biāo)是拿高分。計(jì)算機(jī)采用的是強(qiáng)化學(xué)習(xí)法來做到這一點(diǎn),這就好比訓(xùn)練狗,不管它用什么辦法,只要它做到了你就表?yè)P(yáng)一聲 “好狗” 一樣,計(jì)算機(jī)就可以通過這種機(jī)制來探索游戲,在反饋中自己學(xué)會(huì)規(guī)則。在幾個(gè)小時(shí)之內(nèi),計(jì)算機(jī)就掌握了超人的技巧。這是 AI 的一項(xiàng)重大突破—計(jì)算機(jī)第一次自己 “學(xué)會(huì)” 了一項(xiàng)復(fù)雜技能。
Abbeel 的實(shí)驗(yàn)室的研究人員對(duì)這項(xiàng)突破感到著迷,他們決定用自己寫的類似強(qiáng)化學(xué)習(xí)算法來做實(shí)驗(yàn),試圖幫助機(jī)器人學(xué)習(xí)游泳、學(xué)習(xí)單腳跳以及走路。或者玩視頻游戲怎樣?令他們驚訝的是,這個(gè)所謂的 TRPO(Trust Region Policy Optimization,信任區(qū)域策略優(yōu)化)算法實(shí)現(xiàn)的結(jié)果幾乎跟 DeepMind 的算法一樣好。換句話說,TRPO 展現(xiàn)出了用一般方法學(xué)習(xí)的能力。“我們發(fā)現(xiàn) TRPO 不僅可以教機(jī)器人走路,” Abbeel 說:“還可以在視頻游戲中擊敗人類。”
Abbeel 調(diào)出了一個(gè)有關(guān)一個(gè)機(jī)器人模擬器的視頻。視頻開頭可以看到一個(gè)機(jī)器人摔倒在黑白相間的地板上。“記住,這個(gè)算法跟學(xué)視頻游戲的是一樣的,” 他說。機(jī)器人被布置了 3 個(gè)目標(biāo):有多遠(yuǎn)走多遠(yuǎn),不要踩到自己的腳,以及軀干要高于一定高度。“它不知道走路是什么意思,” Abbeel 說:“也不知道自己有手有腳。它只知道自己的目標(biāo)。然后想辦法實(shí)現(xiàn)目標(biāo)。”
Abbeel 按下一個(gè)按鈕,模擬開始工作。機(jī)器人笨重地摔到地上,不知道自己在干什么。“原則上,它應(yīng)該能確定自己要走還是跳,” Abbeel 說。但是算法是通過實(shí)時(shí) “了解” 到只要把自己的腿抬起來,它就能推動(dòng)自己向前走來確定的。這讓機(jī)器人可以分析自己上一次的表現(xiàn),解碼出哪一種動(dòng)作的表現(xiàn)更好,然后在未來相應(yīng)改變行為。很快機(jī)器人就開始蹣跚而行,東倒西歪像喝醉酒一樣。它會(huì)突然往前撲倒,爬起來,走了幾步,然后又倒了。但是慢慢地它的表現(xiàn)開始提高,學(xué)會(huì)了跌跌撞撞地朝著目標(biāo)跑過去了。你幾乎能感覺到它的信心在增加,抬腿的速度快得就像一名跑鋒(running back)一樣。機(jī)器人不知道自己在跑,因?yàn)槌绦驔]有進(jìn)行設(shè)置。但現(xiàn)在它已經(jīng)在跑了。它自己自己學(xué)會(huì)了復(fù)雜的平衡和肢體控制這些物理學(xué)的知識(shí)。這已經(jīng)不僅僅是令人吃驚了,簡(jiǎn)直就是魔術(shù)。就好像是在短短 40 秒的時(shí)間內(nèi)目睹一條魚變成了人一樣。
“機(jī)器人移動(dòng)和開始走路的方式讓它看起來就像是活的一樣,” 我說。
Abbeel 笑了:“差不多吧。”
盡管書本和電影里面有人工智能的各種渲染,但這個(gè)東西可不是懸浮在某處藍(lán)色液體箱的一個(gè)合成大腦。人工智能是算法—一個(gè)數(shù)學(xué)方程式,它告訴計(jì)算機(jī)執(zhí)行什么功能(通俗點(diǎn)你可以把它理解為機(jī)器的食譜;更深入的話題可參見尋找生命的基礎(chǔ)算法 )。21 世紀(jì)的算法就像是 19 世紀(jì)的煤礦:是我們的經(jīng)濟(jì)引擎,是現(xiàn)代生活的燃料。沒有算法,你的電話無法工作,也不會(huì)有 Facebook、Google、Amazon。算法規(guī)劃航班然后引導(dǎo)飛機(jī)飛行,算法幫醫(yī)生診斷疾玻“如果每個(gè)算法突然停止工作,我們所熟知的世界就要終結(jié),” 機(jī)器學(xué)習(xí)的流行讀物《主算法》的作者 Pedro Domingos(參見有沒有主宰世界的主算法 )寫道。在 AI 的世界里,圣杯就是發(fā)現(xiàn)能夠讓機(jī)器理解世界的那個(gè)算法,這就好比是能夠讓物理學(xué)家解釋宇宙運(yùn)作機(jī)制的標(biāo)準(zhǔn)模型,只不過前者是數(shù)字世界的。