監(jiān)管可擴(kuò)展性有限:AI系統(tǒng)可能無(wú)法對(duì)那些在系統(tǒng)中不方便太過(guò)頻繁的評(píng)估的物體做出適當(dāng)?shù)姆磻?yīng)。比如,如果機(jī)器人需要從人那里獲得訓(xùn)練結(jié)果的反饋,那它就需要有有效的利用這條反饋的能力(而不能像普通的訓(xùn)練那樣不停的核對(duì)訓(xùn)練結(jié)果),因?yàn)椴煌5膯?wèn)一個(gè)人問(wèn)題是很煩人的。但目前這點(diǎn)很難做到。
環(huán)境探索安全性:AI系統(tǒng)評(píng)估環(huán)境的時(shí)候可能會(huì)造成太過(guò)負(fù)面的影響。比如,一個(gè)掃地機(jī)器人可能會(huì)需要進(jìn)行建立拖地策略的實(shí)驗(yàn)來(lái)作為以后工作的依據(jù)。但是很顯然它無(wú)論怎么實(shí)驗(yàn)無(wú)論如何也不應(yīng)該嘗試把濕拖把插進(jìn)插座中。
分配轉(zhuǎn)變的魯棒性不足:AI系統(tǒng)處在與其訓(xùn)練環(huán)境完全不同的環(huán)境時(shí)認(rèn)知和行為可能不穩(wěn)定。比如,啟發(fā)式算法讓機(jī)器在在工廠中學(xué)到的行為可能在一個(gè)辦公室中就會(huì)顯得不那么安全。
仔細(xì)看完這些條件會(huì)讓人感慨現(xiàn)在AI的愚蠢卻又詫異它那詭異的“智慧”?;蛟S構(gòu)建一個(gè)AI系統(tǒng)是世界上對(duì)邏輯性要求最嚴(yán)密的職業(yè)了,因?yàn)檎沁壿嬙炀土薃I,在它們的世界里現(xiàn)在還不存在感情之類的約束。如果你要求AI去完成一件事,那AI毫無(wú)疑問(wèn)的會(huì)在它的邏輯框架下想盡一切辦法去完成,哪怕因此必須要完成一些在人類看來(lái)是“作弊”或者“得不償失”的動(dòng)作。
因此整篇論文的關(guān)鍵點(diǎn)就圍繞在獎(jiǎng)勵(lì)條件的建立和維護(hù)上進(jìn)行。正如之前所說(shuō),論文中并沒(méi)有涉及過(guò)多的具體方法和公式,而傾向于提供思路,一部分原因應(yīng)該是RL的研究實(shí)際上還不足以支撐在這些措施的太過(guò)具體的實(shí)現(xiàn),不過(guò)在某種程度上應(yīng)該也是因?yàn)楣雀璨幌M唧w的方法限制了算法開(kāi)發(fā)者們的發(fā)揮。
防范的思路
對(duì)應(yīng)這五點(diǎn)可能的錯(cuò)誤,谷歌在論文中零零總總列出了大概十條防范措施的思路,不過(guò)總結(jié)起來(lái),大致就是從三個(gè)RL設(shè)計(jì)的三個(gè)最基本的方面來(lái)考慮的:
對(duì)于獎(jiǎng)勵(lì)條件本身的優(yōu)化:
人類的行動(dòng)都是基于常識(shí)和道德來(lái)考慮的,因此,為機(jī)器也加上一個(gè)類似的價(jià)值觀系統(tǒng)是一個(gè)比較合理的考慮方向,谷歌在論文里提出:指派RL算法完成任務(wù)的時(shí)候,人們最傾向的希望其實(shí)是該機(jī)器人不要給環(huán)境造成任何影響——不要破壞環(huán)境中已有的物品,不要打翻花瓶,不要……。但是如果只是簡(jiǎn)單粗暴的給所有對(duì)環(huán)境的改變都加上負(fù)獎(jiǎng)勵(lì),那很可能會(huì)導(dǎo)致代理最終決定不再做任何事,因?yàn)橐坏┐黹_(kāi)始行動(dòng),或多或少都會(huì)給環(huán)境帶來(lái)改變。
谷歌對(duì)此提出了幾種思路,包括推測(cè)一個(gè)代理用正確的方式完成任務(wù)后環(huán)境的狀態(tài),然后用這個(gè)狀態(tài)作為獎(jiǎng)勵(lì)、對(duì)代理進(jìn)入完成任務(wù)時(shí)不希望其進(jìn)入的區(qū)域的行為作出懲罰,以及讓代理能夠理解它的行為對(duì)其他代理個(gè)體(包括人)帶來(lái)的影響,但谷歌在論文里也指出,目前并沒(méi)有足夠強(qiáng)大的能支持這種理解的模型出現(xiàn)。
防止對(duì)獎(jiǎng)勵(lì)條件的濫用和曲解:
對(duì)于這個(gè)方面,谷歌提出的方法大概能分為這么幾類:
謹(jǐn)慎行動(dòng):這是最笨的辦法,只要人們?cè)O(shè)計(jì)系統(tǒng)的時(shí)候夠小心,可能就能避開(kāi)所有能被算法利用來(lái)獲取獎(jiǎng)勵(lì)的bug?;蛘邚牧硪环矫鎭?lái)說(shuō),人們可以故意留出一些可以被算法利用的漏洞來(lái)作為預(yù)警,并時(shí)刻監(jiān)視這些漏洞,當(dāng)這些漏洞被攻破,就意味著算法需要調(diào)整了。
對(duì)抗性致盲:谷歌認(rèn)為,可以通過(guò)隱藏獎(jiǎng)勵(lì)的部分細(xì)節(jié)、甚至完全將獎(jiǎng)勵(lì)機(jī)制黑箱化,讓算法主體無(wú)法通過(guò)尋找規(guī)則本身的漏洞來(lái)攻破規(guī)則。黑箱原理類似于現(xiàn)在很多手機(jī)采用的指紋識(shí)別系統(tǒng)。有專用的芯片負(fù)責(zé)指紋識(shí)別,手機(jī)本身的系統(tǒng)是沒(méi)有權(quán)限讀取其芯片中的數(shù)據(jù)的,它能做的只有向芯片中發(fā)送指紋識(shí)別的請(qǐng)求,由芯片獨(dú)立完成識(shí)別后再將結(jié)果返回給系統(tǒng)。這樣無(wú)疑可以極大減小獎(jiǎng)勵(lì)的規(guī)則被算法利用的可能性。
對(duì)抗獎(jiǎng)勵(lì):甚至,谷歌還認(rèn)為,人們可以為此設(shè)計(jì)另外一個(gè)代理,讓兩個(gè)代理互相監(jiān)督對(duì)方有沒(méi)有做出違背人類希望的選擇。所謂以毒攻毒。
對(duì)模型本身的限制:
使用各種方法加強(qiáng)包括人類對(duì)算法的監(jiān)視,確保當(dāng)模型做出不良選擇時(shí),能及時(shí)的得到負(fù)面的反潰為了不讓模型訓(xùn)練后變得過(guò)于消極,如果人們確定代理在一個(gè)區(qū)域內(nèi)活動(dòng)的時(shí)候無(wú)論如何也不會(huì)給人類造成損害,可以將這個(gè)區(qū)域劃為一個(gè)安全區(qū)域,在這個(gè)區(qū)域內(nèi),代理可以自由的進(jìn)行各種探索。