Batra 希望大家都閱讀一下他們的研究論文或者 FAIR 博客上的介紹文章,并閱讀各個研究團體有關(guān)多智能體語言出現(xiàn)的文獻。
業(yè)內(nèi)討論:參數(shù)沒調(diào)好,對話跑崩了
用戶“蔡曦”結(jié)合報道中提到的 Facebook 論文《Deal or No Deal?End-to-End Learning for Negotiation Dialogues》,做了比較詳細的分析。
論文的大致流程是,用人類的對話作為數(shù)據(jù)集,訓練一個端到端的模型,模仿人類進行物物交換的談判對話,例如:
論文用 5808 組人類對話作為訓練集,526 組對話作為測試集,分別用兩種不同的模型(Likelihood Model 和 Goal-based Model)和不同的訓練方法(一種是用 RNN 作簡單的監(jiān)督學習,另一種是用監(jiān)督學習先作預訓練,再用強化學習來微調(diào)模型),在 PyTorch 上跑對話模型。
結(jié)果是,直接用簡單的相似度導向(Likelihood-based)的監(jiān)督學習產(chǎn)生的對話與人類的語言(英語)最接近。
而運用目的導向策略(Goal-based)的強化學習模型情況下,當更改相關(guān)參數(shù)后就會產(chǎn)生雜亂無章的對話。注意:這并不代表產(chǎn)生了一種新的語言并且兩個 agent 相互理解,只是基于訓練時輸入的英文單詞的錯誤組合而已!
一位不愿透露姓名的業(yè)內(nèi)人士對新智元表示:這就是訓練失誤的模型。做失敗的東西也能拿出來吹,有些媒體的做法確實欠妥。當然,這一波是國外媒體先如此報道的。還是希望這個領(lǐng)域的媒體多些理性,不要看到是 Facebook 或者谷歌的研究就吹。
聚焦研究:論文并沒有關(guān)于“AI 發(fā)展出自己語言”的表述
再來仔細看 Facebook AI Research 的論文——需要指出,F(xiàn)acebook 研究人員并沒有在論文中表示其 AI 發(fā)展出了自己的語言(developed their own language)。
至于“吹不吹”,還是需要在理解的基礎(chǔ)上進行判斷。Facebook AI 這條新聞出來這么久,還沒有多少新聞在報道時真正聚焦研究本身,這或許也是炒作甚囂塵上的一個原因。
FAIR 進行研究的目的是讓智能體學習談判。
談判既是語言也是推理問題,在談判時你需要有一個意圖,然后在口頭(或文本)上實現(xiàn)。由此進行的對話同時包含了合作和對抗的要素,這就要求 AI 需要了解并制定長期規(guī)劃,并生成話語以實現(xiàn)其目標。
FAIR 研究人員在開發(fā)這種擁有長期規(guī)劃能力的對話 AI 方面進行了一種創(chuàng)新,他們稱之為“dialog rollouts”。
Dialog rollouts 能讓 AI 收到輸入后,推算出(roll out)多種模擬的對話,直到每段對話的結(jié)束,然后從中選擇結(jié)果最好(也即預期獎勵最大)的對話路線來進行。