2016 年 7 月 16 日,極客公園“奇點(diǎn)·創(chuàng)新者峰會(huì)”在上海召開,包括特斯拉聯(lián)合創(chuàng)始人 JB Straubel 、超級(jí)高鐵 Hyperloop alt="物聯(lián)網(wǎng)" width="550" height="297" />
上午壓軸出場的搜狗公司 CEO 王小川,發(fā)表了人工智能應(yīng)用主題的精彩演講《我們應(yīng)該用 AI 創(chuàng)造什么》,更成為了唯一一位現(xiàn)場進(jìn)行 AI 技術(shù)演示的演講者。利用搜狗公司的語音識(shí)別技術(shù),王小川的演講內(nèi)容在現(xiàn)場實(shí)時(shí)生成了滾動(dòng)字幕顯示,目測準(zhǔn)確率高達(dá) 95% 以上。同步的字幕引起了現(xiàn)場觀眾極大的興趣,紛紛起立拍照。在演講結(jié)束后,現(xiàn)場語音識(shí)別成果立刻生成了完整的演講稿,觀眾通過掃描二維碼即可閱讀。
王小川現(xiàn)場邀請了一位觀眾上臺(tái)體驗(yàn)了搜狗輸入法的新功能 “ 語音修改 ” 。用戶對(duì)著手機(jī)說出一段文字后,再通過自然語言的方式將語音識(shí)別錯(cuò)誤的地方進(jìn)行修正,贏得了現(xiàn)場熱烈的掌聲。王小川介紹道;“目前搜狗手機(jī)輸入法日均語音輸入調(diào)用次數(shù)超過1.4 億次,是中國最大的語音識(shí)別引擎,語音識(shí)別準(zhǔn)確率已超過 97% 。但當(dāng)前的人工智能技術(shù)仍然無法讓語音識(shí)別達(dá)到 100% 的準(zhǔn)確率。對(duì)此搜狗開發(fā)了語音修改功能,通過自然語言交互的形式修改所輸入的文字,比‘將弓長張改為立早章’等,不僅解決了語音識(shí)別準(zhǔn)確率最后 3% 的差距,同時(shí)解放了用戶雙手,提高了用戶輸入效率。”
在王小川看來,“帶著技術(shù)找市場”與“找市場時(shí)丟了技術(shù)”都是不可取的,“ 樹根是技術(shù),樹干是產(chǎn)品,真正開花結(jié)果是最后的市場 ”,當(dāng)前人工智能企業(yè)更重要的任務(wù)是抓住市場、深挖技術(shù),創(chuàng)造連接市場和技術(shù)的優(yōu)秀產(chǎn)品,而搜索引擎本身就是這樣一種人工智能。搜狗的使命就是讓表達(dá)與獲取信息更簡單,真正成為人類生活的助手,而這也是人工智能未來最重要的發(fā)展方向。
以下為演講全文:
大家好,我本人是人工智能的鼓吹者。在大家談互聯(lián)網(wǎng)的時(shí)候,我們就開始談產(chǎn)品;大家談產(chǎn)品的時(shí)候,我們就開始談技術(shù);大家開始談技術(shù)的時(shí)候;我們已經(jīng)開始談人工智能。那今天大家都在談人工智能,我要談一些什么東西呢?
感謝李志飛,其實(shí)他的演講我非常喜歡,我很感謝他把我想講的東西都已經(jīng)講完了,很多理解是一樣的。李志飛在最后說,今天沒有給大家?guī)硪粋€(gè)演示,搜狗帶來了,請看大屏幕!我們預(yù)料到了今天網(wǎng)絡(luò)可能有故障,所以我們把服務(wù)器搬到了現(xiàn)場!
那么我們在談人工智能的時(shí)候,我會(huì)談一些反思,因?yàn)榻裉齑蠹铱赡苓^多高估了人工智能的未來。在今年上半年,我是鼓吹 AlphaGo 這樣一場跨世紀(jì)的比賽, 4 : 1 的比分。那么之后就像一場啟蒙運(yùn)動(dòng),所有的公司所有的投資把眼光都看向了人工智能,在全球范圍內(nèi)的投資異常地活躍,中國也一樣。那在這個(gè)時(shí)候我更多想談到,我們得小心什么地方是陷阱,什么地方是真的人工智能的未來?
就在前一個(gè)月,我去谷歌跟 AlphaGo 的工程師做了深度的溝通。有件事情我得告訴大家, AlphaGo 并沒有停止研發(fā),還繼續(xù)在往前進(jìn)步。但是我跟他們聊的時(shí)候,談到到今天為止,跟李世乭下棋的第四局,機(jī)器還是贏不了。我是非常驚訝的,已經(jīng)過了3 個(gè)月的時(shí)間,所以我跟他們說,有什么樣的算法可以改進(jìn)贏得第四局的比賽?谷歌的工程師跟我苦笑,他說你講的方法我們都試過了。
回到我們深度學(xué)習(xí)。今天大家知道有一個(gè)巨大的危險(xiǎn),因?yàn)閭鹘y(tǒng)做人工智能的專家就在預(yù)言,深度學(xué)習(xí)有一些缺點(diǎn),穩(wěn)定性不夠,在一些需要可靠性的場景里面,沒有完整的數(shù)學(xué)的計(jì)算和證明。所以這種情況里面即便是 99% 的正確性,也可能會(huì)帶來不確定,比如在無人駕駛,這 1% 的不確定性,就可能帶來汽車的失速,而且不知道怎么修正。所以我們今天會(huì)知道,深度學(xué)習(xí)我們認(rèn)為可以做很多的事情,但是到現(xiàn)在我們?nèi)祟惖募夹g(shù)掌握還是比較淺的。那么我也談到在語音識(shí)別這樣的一個(gè)話題,今天語音識(shí)別已經(jīng)到了比較高的準(zhǔn)確度,已經(jīng)接近實(shí)用,但是其實(shí)還是很多的限制。比如說我們需要安靜的環(huán)境,當(dāng)有噪音的時(shí)候同時(shí)有兩個(gè)人說話機(jī)器就搞不定了,我們的辦法是,比如說在汽車環(huán)境里面,預(yù)先錄制發(fā)動(dòng)機(jī)引擎的聲音,或者是噪音加到識(shí)別里面去,就把沒有見過的環(huán)境變成機(jī)器能夠見過的環(huán)境,就能夠做識(shí)別。
但是我跟工程師聊,那其它的環(huán)境,如果有兩個(gè)人說話怎么辦?總有一個(gè)人的聲音是聽不到的?我們的解決方案是用麥克風(fēng)舉證,有一種麥克風(fēng)可以定向識(shí)別,如果兩個(gè)人不同的位置不同的聲音,聲音的音源可以分離開。人是這樣嗎?人是靠兩只耳朵定聲音嗎?如果只有一只耳朵,或者兩個(gè)人在同一個(gè)方向說話會(huì)怎么樣?人是能識(shí)別的對(duì)吧?機(jī)器就做不到了。所以我在這張圖里面跟大家演示,我也問了搞神經(jīng)科學(xué)的人,他們說人跟機(jī)器有本質(zhì)的區(qū)別,如果兩個(gè)人說話的時(shí)候位置不一樣,人可以分離開,如果位置一樣,一個(gè)人聲音大,一個(gè)人聲音小也能分開。如果兩個(gè)人的聲音一樣大,一個(gè)是男聲,一個(gè)女聲也可以分開,如果都是男聲,但一個(gè)人說中文,一個(gè)人說英文也能分開。所以人是在一個(gè)環(huán)境當(dāng)中,只要能夠找到一線機(jī)會(huì),把兩個(gè)聲音的不同找到一個(gè)特征,就能動(dòng)態(tài)地去分離。但對(duì)不起,今天在全球范圍內(nèi),我們號(hào)稱在語音識(shí)別有重大的各種各樣的突破,還是解決不了這樣的問題,所以我們知道今天的計(jì)算機(jī)離人還有巨大的距離。