在如今這個人工智能的黃金時代,對想要模仿人類的機器人來說,更需要對周圍所處的環(huán)境做出合理的假設(shè),同時也要弄清楚事情發(fā)生的邏輯。生活中,人們往往通過對周圍環(huán)境聲音的模仿來不斷學(xué)習(xí)。然而,對機器而言,這種方法也同樣適用嗎?
MIT的CSAIL(計算機科學(xué)與人工智能實驗室)近期就研究出一種能夠預(yù)測人們周圍環(huán)境聲音的算法:當一個無聲的視頻中出現(xiàn)物體被敲打的畫面時,這種算法能夠非常準確的模擬出與畫面相匹配的聲音,從而混淆人們的認知。
這項有關(guān)”仿真聲音的測試“不僅僅是人們認為的計算機小把戲,在未來,它很有可能會自動匹配電視和電影中各個場景和角色的聲音,同樣的道理,這種算法若是用于機器人身上,便能幫助他們對周圍環(huán)境和物體的屬性進行更高效的學(xué)習(xí)。
而MIT有關(guān)聲音預(yù)測和仿真的這套算法不管是對電視、電影,亦或是機器人對其周圍的環(huán)境和事物的學(xué)習(xí)來講,無疑都將是利好的。
當你用手指去敲打紅酒杯時,發(fā)出的聲音會很明確的告訴你,杯中還有多少酒。而通過此種算法對周圍事物的仿真模擬,人們就能清楚的了解物體的大小、形狀、材質(zhì)、類型等特性,就好像真的親身體驗過一樣。
MIT的CSAIL團隊在此領(lǐng)域上進行了深耕,包括教計算機如何通過對大數(shù)據(jù)的篩選、分析,從而找出自有的一種模式。而這種深度的學(xué)習(xí)也解決了計算機科學(xué)家親自參與對算法設(shè)計和監(jiān)測過程的問題——不必再親歷親為。
算法是如何運作的?
”聲音模仿“算法的第一步就是在所收集的大量聲音樣本的基礎(chǔ)上進行學(xué)習(xí)。在幾個月的時間里,研究員們收集到包含了接近46000種聲音的1000多個視頻,視頻中包含了各種物體被鼓槌敲打、刮蹭和刺戳等聲音(之所以都用鼓槌是為了保證在同一標準下的一致性)。
接著CSAIL研究團隊對這些視頻賦予了深度學(xué)習(xí)的算法,即對視頻進行解構(gòu):仔細分析視頻中聲音的場合、音量以及其他特性。為了能夠?qū)π乱曨l的聲音進行預(yù)測模仿,算法會對已接觸學(xué)習(xí)到的視頻特性進行詳細的拆解,在已有大數(shù)據(jù)的基礎(chǔ)上,找出與新視頻最匹配的聲音。而算法系統(tǒng)也會自動將已學(xué)習(xí)到的音頻進行最小單位的拆解,再將它們組合成合乎邏輯、天衣無縫的新聲音。
經(jīng)過如此一系列的學(xué)習(xí)運作,不管是嘎吱嘎吱的斷奏音符,還是連續(xù)撥動的常青藤的聲音,這種算法都能完全掌握其要領(lǐng),而不管是輕輕敲打還是用力碰撞,不管物體是堅硬,亦或是松軟,此種模仿聲音的算法都能輕車熟路,完全hold住。
然而,就目前而言,人們對人工智能領(lǐng)域的研究只限于五種最基本的感官,比如:視覺上依靠對圖片的學(xué)習(xí),發(fā)音上模仿音頻等。但總體來說,通過模仿人類的聲音和景象來模仿人們行為的這個大方向是對的。通過大數(shù)據(jù)的積累,人工智能便能夠做到更深層次的學(xué)習(xí)。
糊弄“人類
MIT的CSAIL研究團隊為了測試該算法下聲音的仿真度,在線上做了一個測試:讓用戶分辨兩個同樣畫面的視頻(一個是采用真人聲音,一個采用人工智能模擬聲音),哪個是真聲音,那個是仿真聲音。結(jié)果表明,算法模擬聲音被用戶選擇的次數(shù)竟然是真實聲音的兩倍。
研究團隊還發(fā)現(xiàn),該算法能夠?qū)Σ煌馁|(zhì)的不同物理屬性進行辨別。也就是說,未來讓人們看到自己的脈搏跳動或是對一段無聲的視頻進行音頻恢復(fù)都將不再是難事。
未雨綢繆
該算法的研究人員表示,就目前人工智能的進展而言,還有著非常大的提升空間。比如:在視頻中,鼓槌并沒有按照正常的方式去敲打,那此種算法模仿出的聲音就極有可能出錯。而很大的一個弊端就是,這種算法目前只局限于”視覺指示的聲音“——即按照畫面中一般的物理屬性去捕捉聲音。
不管是微風(fēng)吹過的聲音,還是PC筆記本運作時發(fā)出的嗡嗡聲,總會有一些特殊情況發(fā)生——周圍事物發(fā)出的聲音聽起來并不是如我們按照正常邏輯所想。但令人欣慰的是,這種算法下的仿真聲音與視覺的關(guān)聯(lián)性并不是很大。
人工智能未來努力的方向?qū)⑹亲寵C器人擁有更多與周圍環(huán)境事物接觸的能力。
機器人能夠在過人行道時小心翼翼,也知道水泥是硬的,青草是軟的,機器人不論是走在水泥地上還是青草地上,都能夠清楚的知道接下來會發(fā)出怎樣的聲音。而對人工智能而言,對聲音的預(yù)測是非常關(guān)鍵的一步,同時也是未來對物理接觸所產(chǎn)生的結(jié)果預(yù)測的第一步。未來,人工智能努力的方向?qū)⑹亲寵C器人擁有更多與周圍環(huán)境事物接觸的能力。