谷歌下屬Deepmind宣布在計(jì)算機(jī)合成語音上邁出了重要的一步。據(jù)FT報(bào)道,DeepMind發(fā)布的最新研究成果WaveNet使得計(jì)算機(jī)生成的語音與人類聲音間的差異縮小了一半。
Deepmind 在其博客中寫到“讓人類和機(jī)器對(duì)話是人機(jī)交互領(lǐng)域長(zhǎng)久以來的夢(mèng)想”。
谷歌DeepMind讓機(jī)器人的聲音更像人/圖 來源網(wǎng)絡(luò)
彭博報(bào)道,在英文和中文進(jìn)行的盲測(cè)中,聽者普遍認(rèn)為,相比谷歌任何現(xiàn)存的運(yùn)用不同科技手段的文字-語音轉(zhuǎn)換程序,WaveNet生成的語音都更加自然。
據(jù)公司相關(guān)人員透露,WaveNet還沒被應(yīng)用到谷歌任何產(chǎn)品中。該系統(tǒng)需要強(qiáng)大的計(jì)算能力來合成語音,所以近期之內(nèi)應(yīng)該不會(huì)被用到“現(xiàn)實(shí)場(chǎng)景”中去。
DeepMind是一家專注于人工智能的公司,于2010年成立于倫敦,并在2014年被谷歌以4億英鎊(約合5.32億美元)收購。
WaveNet所采用的技術(shù)和現(xiàn)存人工聲音合成器有根本性的不同。WaveNet通過的是實(shí)際產(chǎn)生的聲波而非語言本身,將文本轉(zhuǎn)換成聲音。該系統(tǒng)通過神經(jīng)網(wǎng)絡(luò)來模擬人腦,直接用音頻的原始波形建模。這背后來自每秒高達(dá)16000個(gè)樣本波形的強(qiáng)大數(shù)據(jù)庫的支持。此外,每一個(gè)樣本都需要基于之前的樣本來建立對(duì)于聲波樣式的預(yù)測(cè)。DeepMind的工作人員表示,“這確實(shí)是非常有挑戰(zhàn)性的任務(wù)。”
很多現(xiàn)有的人工聲音合成器多是先錄制大量的人聲語音片段,建立一個(gè)大型數(shù)據(jù)庫,并將這些語音片段重新組合成完整的話語。這樣生成的聲音接近真實(shí)人聲,但并不完全自然。而缺點(diǎn)在于如此產(chǎn)生的聲音并不能被簡(jiǎn)單地更改。據(jù)DeepMind透露,另外一些系統(tǒng)可以完全電子化地生成聲音,這樣盡管聲音可簡(jiǎn)單地被操作修改,但并不接近真實(shí)的人聲。
在人工智能里,盡管人們似乎一直以來對(duì)語音識(shí)別更有興趣,而冷淡了計(jì)算機(jī)語音合成這一冷門的領(lǐng)域。但各大科技公司都不放過應(yīng)用越來越普遍的人機(jī)交互。亞馬遜、蘋果、微軟和谷歌的母公司Alphabet都投入了個(gè)人數(shù)字化助手同客戶進(jìn)行互動(dòng)。
今年早些時(shí)候,DeepMind的人工智能AlphaGo擊敗了韓國圍棋大師李世石,引起了人們廣泛的關(guān)注。谷歌一直都對(duì)將如何運(yùn)用其人工智能技術(shù)守口如瓶,稱已經(jīng)利用這些技術(shù)降低了其數(shù)據(jù)中心40%的電量,剩下的錢足以讓谷歌收購來自倫敦的DeepMind。谷歌還表示,DeepMind使得從YouTube到谷歌廣告產(chǎn)品的一系列服務(wù)得到了明顯的改善。
登陸|注冊(cè)歡迎登陸本站,認(rèn)識(shí)更多朋友,獲得更多精彩內(nèi)容推薦!