
“文字的歷史大約只有5000多年,語音的歷史則至少有20萬年。”李彥宏在去年百度世界大會曾強(qiáng)調(diào)的語音技術(shù)發(fā)展,表面上看是回歸自然和原始。而從移動互聯(lián)網(wǎng)時代的大趨勢來看,其表現(xiàn)為——語音和圖像將逐漸取代傳統(tǒng)的電腦鍵盤輸入,成為消費(fèi)者需求表達(dá)的主要方式。近來百度已在該領(lǐng)域持續(xù)發(fā)力,最近的表現(xiàn)是其依靠語音交互 翻譯技術(shù)開發(fā)的小度機(jī)器人正矢志打破語言障礙。
“貼身翻譯”背后:無縫人機(jī)交互之難
《星球大戰(zhàn)》中話癆型機(jī)器人C-3PO令人拍案叫絕的翻譯能力如今真的成功被百度人工智能復(fù)制了!近日舉辦的第十屆中國電子信息技術(shù)年會上,曾在江蘇衛(wèi)視《芝麻開門》勇闖全關(guān)的小度機(jī)器人,此番化身“貼身翻譯”再驚艷亮相,多語種即時翻譯令來賓倍感驚訝。理所當(dāng)然的,小度機(jī)器人背后由百度牽頭研發(fā)的機(jī)器翻譯項(xiàng)目獲得了科技進(jìn)步獎一等獎。
簡單地講,機(jī)器翻譯就是用軟件將文本或語音翻譯成其它語言。全世界共有超過 6000 種語言,各國科技巨頭們不斷嘗試用機(jī)器翻譯彌合人與人之間的溝通障礙,從而實(shí)現(xiàn)旅游、外貿(mào)活動、在線電商等服務(wù)的最終使命。然而往往事與愿違,實(shí)現(xiàn)像小度機(jī)器人這樣“貼身翻譯”無縫的人機(jī)交互技術(shù)背后總是艱難重重。
最常見的例子比如,我們?nèi)粘=?jīng)常接觸到的便是在線翻譯,缺陷顯而易見。不顧語法和上下文語境地翻譯語句讓機(jī)器翻譯更多地只是扮演“詞典”而非“翻譯”的角色。事實(shí)上,機(jī)器算法和語言文學(xué)性是一對天生不可調(diào)和的矛盾,翻譯程序化是機(jī)器翻譯的本質(zhì)。機(jī)器本身側(cè)重翻譯效率,但是語言本身充滿情感,機(jī)器無法準(zhǔn)確翻譯包括人性化語法、語義等也在情理之中。除非,依靠一個龐大的數(shù)據(jù)庫,讓機(jī)器不斷學(xué)習(xí)從而更加理解人。
小度機(jī)器人的成功表現(xiàn)正是得益于此,通曉萬族語言必然離不開將個體與后臺海量的數(shù)據(jù)庫匹配,從而得出答案。作為世界人口最多國家的第一大搜索引擎,百度在發(fā)展大數(shù)據(jù)領(lǐng)域具有非常好的天然優(yōu)勢。百度翻譯API目前有近萬個開發(fā)者接入,日均訪問量近億次。與此同時,作為百度大數(shù)據(jù)引擎的精華,百度大腦融合了全球領(lǐng)先的深度學(xué)習(xí)算法、數(shù)據(jù)建模、大規(guī)模GPU并行化平臺等技術(shù),實(shí)現(xiàn)了無時無刻不在學(xué)習(xí)與成長,它擁有200億個參數(shù),構(gòu)造起世界上最大的深度神經(jīng)網(wǎng)絡(luò)。
百度智能未來:用戶步步逼近“零成本”
當(dāng)對云端尤其是移動云端模式的深度探索和完善后,爆發(fā)潛能的百度將一步步逼近智能。尤其當(dāng)百度逐一將文本、語音、語義、圖像、人臉識別等技術(shù)打通結(jié)合后,百度將迎來李彥宏強(qiáng)調(diào)的“技術(shù)奇點(diǎn)”。
而進(jìn)化中的百度,正不斷從學(xué)習(xí)、生活的方方面面幫助用戶:最初搜索讓用戶省卻翻閱書海的漫長僅靠輸入關(guān)鍵詞便可從機(jī)器上獲得答案;而后,當(dāng)百度語音輸入、圖像識別技術(shù)成熟后,用戶進(jìn)一步解放了雙手。
百度機(jī)器翻譯技術(shù)的躍進(jìn)則意味著,其將積極地清除著用戶文化交流中的語言壁壘。與百度過去大多數(shù)技術(shù)不同的是,百度自誕生起的最大價值在于力圖無縫對接人和信息,而機(jī)器翻譯則可能要更多地服務(wù)于人與人。想象一下,除了小度機(jī)器人的智能機(jī)器人表現(xiàn)形態(tài)外,倘若未來可以將翻譯云平臺與社交、聊天平臺打通的話,就可以實(shí)現(xiàn)來自不同國家的小伙伴們進(jìn)行基于文本、語音、視頻的友好溝通服務(wù),從而終結(jié)神話傳說中從巴比倫通天塔倒塌以后開始的人類語言不通的歷史。
每一次科技的進(jìn)階都在不斷滿足人類的生物本能式需求。對于百度也是如此,每一次布局的策源地都在于用戶,推動用戶在人機(jī)交互成本和時間上不斷接近“零努力”。再往后可以猜想下,百度人工智能還要更多地模仿人類的細(xì)微情感而非識別或模仿人類的行為或聲音。在筆者看來,或許,最理想的人機(jī)交互是不是還要繼續(xù)解放其它感知器官,僅通過腦電波便可以實(shí)現(xiàn)人機(jī)交互?