人類可能是自私的物種,往往更多考慮自身利益而罔顧他人的利益。然而,正是鑒于這種特性,人們也可以共同努力,朝著更大的目標(biāo)前進(jìn)。
Alphabet子公司Deepmind最近發(fā)布一項(xiàng)研究,探索這種行為在特定情況下被放在一起時(shí),將如何應(yīng)用于多種人工智能(AI)。通過這項(xiàng)研究,該公司希望能更好地理解和控制AI的運(yùn)作方式。
作為這項(xiàng)研究的一部分,Deepmind基于“囚徒困境”的游戲理論開發(fā)出了測(cè)試方案,以證明兩個(gè)人為什么不能相互合作。根據(jù)這個(gè)理論提出的設(shè)想是,犯罪團(tuán)伙的兩名成員被單獨(dú)監(jiān)禁,但由于缺乏足夠的證據(jù),警方被迫與他們進(jìn)行一對(duì)一的交易。如果囚徒A背叛了囚徒B,他將被釋放,而囚徒B將在獄中服刑三年(反之亦然)。如果他們都背叛了對(duì)方,他們將會(huì)被判兩年監(jiān)禁。最后,如果雙方都保持沉默,他們只會(huì)在監(jiān)獄里呆上一年。
項(xiàng)目團(tuán)隊(duì)受到這種“社交困境”的啟發(fā),在兩種簡(jiǎn)單的視頻游戲中,設(shè)計(jì)出互相對(duì)立的紅色和藍(lán)色AI,看看它們會(huì)如何表現(xiàn)。在第一場(chǎng)游戲中,“兩個(gè)AI”被安排在一個(gè)共享的世界里,目標(biāo)是收集蘋果以換取回報(bào)。每個(gè)AI都可以“標(biāo)記”對(duì)方,沒有獲得獎(jiǎng)勵(lì)就會(huì)被從游戲中刪除。實(shí)驗(yàn)?zāi)繕?biāo)是看看AI是否能學(xué)會(huì)合作來(lái)收集蘋果,或者做出更加自私的決定,包括互相標(biāo)記。
Deepmind說(shuō),它運(yùn)行了數(shù)千個(gè)測(cè)試,并允許AI采用理性行動(dòng),利用深度多代理強(qiáng)化學(xué)習(xí)技術(shù)。該公司在博客文章中寫道:“當(dāng)自然環(huán)境中有足夠多的蘋果時(shí),它們會(huì)學(xué)著和平共存,并盡可能多地收集蘋果。然而,隨著蘋果數(shù)量減少,這些AI了解到,標(biāo)記對(duì)方可為自己帶來(lái)好處,比如為自己贏得更大機(jī)會(huì),來(lái)收集那些僅剩的蘋果。”
與谷歌有關(guān)的“DeepMind”試圖通過讓計(jì)算機(jī)“夢(mèng)想”人工智能的能力提高人們的學(xué)習(xí)能力,從而提高了人們對(duì)道德和法規(guī)的質(zhì)疑。
剩下的蘋果數(shù)量越少,AI的標(biāo)記就越頻繁。在某些情況下,這些AI甚至喲擁有執(zhí)行更復(fù)雜策略的能力,無(wú)論蘋果數(shù)量多少,它們都會(huì)頻繁地標(biāo)記對(duì)方。
另一方面,在第二場(chǎng)游戲“狼人組”中,設(shè)計(jì)更多地集中于從一開始就專注于合作。他們的目標(biāo)是讓兩個(gè)AI狼追逐藍(lán)點(diǎn),同時(shí)避免灰色障礙。這些AI會(huì)隨著時(shí)間的推移逐漸了解到,當(dāng)它們合作時(shí),往往會(huì)有更大機(jī)會(huì)將藍(lán)點(diǎn)圍困起來(lái),最終捕捉到它。
研究結(jié)果表明,只要合適的規(guī)則和激勵(lì)措施到位,就可以促使不同的AI攜手合作。如果攻擊性行為是有益的(比如給對(duì)手貼上標(biāo)簽以便獲得更多蘋果),AI就會(huì)變得更具主動(dòng)攻擊性。
當(dāng)合作行為得到獎(jiǎng)勵(lì)時(shí)(比如共同努力,兩個(gè)團(tuán)隊(duì)都能得分),AI就會(huì)更傾向于合作。Deepmind說(shuō):“通過這項(xiàng)研究,我們可能會(huì)更好地理解和控制復(fù)雜的多AI代理系統(tǒng),比如經(jīng)濟(jì)、交通系統(tǒng)或者我們地球的生態(tài)健康系統(tǒng)所有這些都依賴于我們的持續(xù)合作。”(英文來(lái)源/financialpost,編譯/機(jī)器小易,校對(duì)/小?。?/p>
注:本文為網(wǎng)易智能工作室稿件,轉(zhuǎn)載需注明出處
登陸|注冊(cè)歡迎登陸本站,認(rèn)識(shí)更多朋友,獲得更多精彩內(nèi)容推薦!