via MIT Technology Review
逸炫
打敗了世界圍棋冠軍,這只是萬(wàn)里長(zhǎng)征的第一步。
加了墊子的墻,昏黃的燈光,花樣墻紙的天花板。這里一點(diǎn)也不像能做出改變世界的尖端發(fā)現(xiàn)。但在這些讓人快要幽閉恐懼癥的模擬走廊里,Demis Hassabis認(rèn)為,他在為創(chuàng)造足以解決人性最大難題的軟件鋪設(shè)道路。
“我們的目標(biāo)很大,”Hassabis說,他冷靜穩(wěn)健的風(fēng)格讓人無法想象他概念的大膽。他在谷歌DeepMind領(lǐng)導(dǎo)一只有200名計(jì)算機(jī)科學(xué)家和神經(jīng)學(xué)家的團(tuán)隊(duì),DeepMind就是在3月初打敗了人類圍棋大師的AlphaGo背后的位于倫敦的團(tuán)隊(duì),創(chuàng)造了計(jì)算機(jī)歷史上的里程碑。
但是,Hassabis說這只是萬(wàn)里長(zhǎng)征的第一步,作為人工智能領(lǐng)域的阿波羅計(jì)劃,目標(biāo)“解決智能問題,然后用它解決其他所有問題。”如今判斷智能軟件的標(biāo)準(zhǔn)具體到了一個(gè)特定的任務(wù)——面部識(shí)別。Hassabis希望創(chuàng)造他所稱的“綜合智能”——像人類一樣可以學(xué)會(huì)完成任何任務(wù)。他展望未來人工智能可以做各種事情,通過形成和測(cè)試科學(xué)假說推進(jìn)醫(yī)學(xué)發(fā)展,或者用輕巧靈活的機(jī)器人身體跳來跳去。
要實(shí)現(xiàn)這個(gè)目標(biāo),DeepMind的軟件必須超越黑白分明、秩序井然的圍棋世界。它需要掌握亂糟糟的真實(shí)世界——或者從一個(gè)昏暗的、像素化的模擬世界開始。DeepMind的模擬世界叫做Labyrinth,公司在用它讓軟件嘗試非常復(fù)雜的任務(wù),例如在迷宮中導(dǎo)航。這會(huì)推動(dòng)DeepMind研究員鉆研如何制造更智能的軟件,推動(dòng)軟件學(xué)會(huì)面對(duì)更難的決策和問題。他們利用了之前AlphaGo以及DeepMind更早炫耀過的技能,DeepMind學(xué)會(huì)玩二十世紀(jì)八十年代的太空入侵者等復(fù)古Atari游戲,玩得比人類都好。但要成功,Hassabis必須想出辦法,解決人工智能領(lǐng)域中一些年代已久的問題。
自我改善
39歲的Hassabis此生很多時(shí)間都在研究如何創(chuàng)造智能。當(dāng)年象棋神童提早從高中畢業(yè),開始了視頻游戲職業(yè)生涯。后來他獲得了神經(jīng)科學(xué)的博士學(xué)位,發(fā)布了關(guān)于記憶與想象的影響廣泛的論文。
Hassabis在2011年聯(lián)合創(chuàng)建了DeepMind,將他所學(xué)的生物智能轉(zhuǎn)化到機(jī)器。公司在2013年12月發(fā)布了學(xué)會(huì)Atari游戲的軟件,在2014年初被谷歌收購(gòu),據(jù)報(bào)道金額達(dá)4億英鎊,當(dāng)時(shí)超過六億美元。DeepMind快速擴(kuò)張,新增雇傭幾十名研究人員,在頂尖機(jī)器學(xué)習(xí)和人工智能會(huì)議發(fā)表大量論文。今年一月,它宣布了AlphaGo的存在,以及AlphaGo在2015年12月打敗了歐洲最強(qiáng)圍棋玩家的消息。本月初,AlphaGo打敗了世界圍棋冠軍李世石。
增強(qiáng)學(xué)習(xí)方法,是讓機(jī)器學(xué)習(xí)軟件學(xué)會(huì)更復(fù)雜任務(wù)的關(guān)鍵。
Atari游戲和圍棋非常不同,但是DeepMind用同樣的方法解決了他們,從動(dòng)物的訓(xùn)練方式中獲得靈感:馴獸師可以用獎(jiǎng)勵(lì)與懲罰教會(huì)動(dòng)物新的招數(shù)。通過被稱為“加強(qiáng)學(xué)習(xí)”的方法,軟件被設(shè)計(jì)為可以探索新的環(huán)境,調(diào)整自己的行為,以獲得某種虛擬獎(jiǎng)勵(lì)。
舉個(gè)例子,DeepMind的Atari軟件被設(shè)計(jì)為只能控制和看見游戲屏幕,具有增加分?jǐn)?shù)的動(dòng)機(jī)。幾個(gè)小時(shí)的訓(xùn)練就可以讓軟件提著鞋帶起身,打到人類專家。
AlphaGo結(jié)合了增強(qiáng)學(xué)習(xí)和其他元素,例如一個(gè)分析幾千萬(wàn)個(gè)專業(yè)圍棋玩家棋譜從而學(xué)會(huì)評(píng)估不同走法的系統(tǒng),還有一個(gè)搜索機(jī)制來選擇最佳走法。但是,讓AlphaGo能夠打敗世界冠軍的,是與自己練習(xí)幾百萬(wàn)次的增強(qiáng)學(xué)習(xí)。
via MIT Technology Review
Hassabis認(rèn)為,增強(qiáng)學(xué)習(xí)方法是讓機(jī)器學(xué)習(xí)軟件學(xué)會(huì)更復(fù)雜任務(wù)的關(guān)鍵,比軟件現(xiàn)在能玩的要復(fù)雜得多,例如記錄我們的話語(yǔ)、理解圖片的內(nèi)容。“我們不認(rèn)為僅僅觀察就足夠智能,你還必須行動(dòng)。”他說,“最終,這是唯一你可以理解世界的方法。”
DeepMind的三維環(huán)境Labyrinth,基于一個(gè)開源的第一人稱射擊游戲Quake,專門為驗(yàn)證該想法而設(shè)計(jì)。公司已經(jīng)用它來讓機(jī)器參與游戲,60秒內(nèi)探索隨機(jī)生成的迷宮,收集蘋果或找到出口(可通往另一個(gè)隨機(jī)生成的迷宮)可獲得分?jǐn)?shù)。未來的挑戰(zhàn)可能要去更復(fù)雜的計(jì)劃性——例如,懂得要是可以打開門。公司還會(huì)以其他方式測(cè)試軟件,并在考慮挑戰(zhàn)星際爭(zhēng)霸和撲克牌。但是一段時(shí)期內(nèi),在Labyrinth里設(shè)置越來也難的挑戰(zhàn)將會(huì)是主要的研究方式,Hassabis說,“接下來幾年都?jí)蛴昧恕?rdquo;