商業(yè)智能適用于所有的公司,不只針對制造業(yè)。它的基礎(chǔ)是組織內(nèi)部有關(guān)從戰(zhàn)略決策到日常運(yùn)作的所有決策過程的數(shù)據(jù)。這些數(shù)據(jù)大多來自公司內(nèi)部,但很多重要的信號來自于外部的消費(fèi)者、投資者、政策制定者、供應(yīng)商和承包商,以及員工們的生活領(lǐng)域。對所有這些數(shù)據(jù)的分析,有助于做出更好的決策,甚至優(yōu)化并調(diào)整決策的過程。
對于制造業(yè)來說,商業(yè)智能是工業(yè) 4.0 的一部分。今天我們所能看到的,只是商業(yè)智能與工業(yè) 4.0 的第一步。這里的數(shù)據(jù)通常是需要去主動獲取與整合的。對于數(shù)據(jù)解釋,特別是針對非結(jié)構(gòu)化的數(shù)據(jù),AI 將扮演一個重要角色,并從數(shù)據(jù)中不斷學(xué)習(xí)。物流與供應(yīng)鏈領(lǐng)域的控制、優(yōu)化以及預(yù)測管理,就是這方面 AI 應(yīng)用的具體實(shí)例。
語言技術(shù)是 AI 的核心
記者:您是語言技術(shù)頂級專家。就語言技術(shù)來說,它在 AI 中的角色是怎樣的?前景如何?對于自然語言處理,它是否也存在一個突破性的時刻,正如深度學(xué)習(xí)之于圖像識別、語音識別那樣?
Hans Uszkoreit:語言是知識的鑰匙,而知識正是 AI 的終極目標(biāo)。人類社會的知識,正是通過語言來代代相傳的。僅靠觀察他人,人類是無法獲取到廣泛的可復(fù)用知識的。對于下一代智能系統(tǒng)所需的知識,人工智能必須能同時進(jìn)行“閱讀”和“聆聽”才能獲取到。而此等程度的機(jī)器學(xué)習(xí),其關(guān)鍵技術(shù)正是 NLP。NLP 還是實(shí)現(xiàn)人與 AI 之間成功溝通的技術(shù)關(guān)鍵。所以說,語言技術(shù)是 AI 的核心部分,并將在很大程度上同知識技術(shù)相結(jié)合。
記者:您怎么看當(dāng)前的消費(fèi)級語言技術(shù)?特別是當(dāng)下大熱的智能語音助手,比如亞馬遜的 Echo、蘋果的 HomePod 等?
Hans Uszkoreit:這些智能助理正在成為我們?nèi)粘I畹囊徊糠?。我自己也每天都在使用。它們還遠(yuǎn)未完美,但能被快速改進(jìn),因?yàn)槠淝靶l(wèi)的用戶每天都在提供大量的免費(fèi)數(shù)據(jù)給它們。
漢語在語義理解上有一定潛力
記者:對于不同的語言,其語言處理技術(shù)有何差異?比如說,漢語和英語。
Hans Uszkoreit:不同的語言差異確實(shí)很大。盡管作為口語,漢語和英語都能在同樣的時間內(nèi)被小孩學(xué)會。但細(xì)節(jié)上,漢語沒有詞法,句法也相當(dāng)簡單。二者作為書面語,絕無可能在同樣的時間內(nèi)被人學(xué)會。事實(shí)上,漢語的復(fù)雜性絕無僅有。這對 NLP 來說更為棘手:漢語詞匯甚至都沒有起始標(biāo)識。除了語言本身所固有的復(fù)雜性,漢語更難于用電腦處理的原因還有另外一個:NLP 一直是被以英格蘭為中心的研究所主導(dǎo)。
但如果 NLP 未來的研究方法和算法在處理漢語和其他東亞語言時的效果能超過英語,我也不會特別意外。這有一個先決條件,即找到語義理解上的改進(jìn)辦法,畢竟句法在漢語中的重要性要遠(yuǎn)小于西方語言。
深度學(xué)習(xí)還不足以解決 NLP 的核心問題
記者:上個月,Yann LeCun 對陣 Yoav Goldberg 的那場 NLP 大爭論十分引人注目。您如何看待這場爭論,特別是深度學(xué)習(xí)和 NLP 的關(guān)系?您支持哪一邊的說法?為什么?
Hans Uszkoreit:我認(rèn)為這場爭論被誤讀了,它不是一場 NLP 領(lǐng)域的深度學(xué)習(xí)倡導(dǎo)者與懷疑論者之間爭執(zhí),它不是那樣開始的。Yoav Goldberg 不是反對深度學(xué)習(xí),他也不是反對深度學(xué)習(xí)在 NLP 領(lǐng)域的應(yīng)用。相反,Yoav 大力推動了深度學(xué)習(xí)在 NLP 領(lǐng)域的應(yīng)用。
Yoav Goldberg 只是對那篇自然語言生成(NLG)領(lǐng)域的標(biāo)題黨論文表示不滿,它只是在吹噓一些很小的成果。Yoav 的說法并沒有錯:那篇標(biāo)題黨論文對于 NLG 領(lǐng)域的研究進(jìn)展毫無意義,它未能解決 NLG 領(lǐng)域所公認(rèn)的任何問題。
而 Yann LeCun 和 Fernande Pereira 認(rèn)為他們應(yīng)該站在論文作者一邊的原因,是確實(shí)有很多的 NLP 研究者極端懷疑深度學(xué)習(xí)在語言分析和生成上的作用。LeCun 和 Pereira 把這種懷疑主義視為過時的研究范式反抗深度學(xué)習(xí)大法的無力嘗試。保守派對陣革新派,這是科學(xué)革命中的古老游戲。但這絕非是 Goldberg 此次爭論的目的。
我個人的看法是:當(dāng)前的深度學(xué)習(xí)方法還不足以解決 NLP 領(lǐng)域的核心問題。但它們已經(jīng)改善并實(shí)現(xiàn)了 NLP 技術(shù)的很多應(yīng)用。深度學(xué)習(xí)此處的不足,并不在于當(dāng)前所用的各種人工神經(jīng)網(wǎng)絡(luò)及其各自的學(xué)習(xí)算法,而在于我們還沒有正確類型與足夠數(shù)量的語言類標(biāo)注數(shù)據(jù)。人類語言和人腦共同進(jìn)化的方式,是語言能被用來表達(dá)信息和知識的同時,還能讓兒童用很短的時間就能學(xué)會。語言的這種可習(xí)得性與基本知識概念的可習(xí)得性緊密相連。沒有語言就無法學(xué)到概念,不與概念想結(jié)合也無法學(xué)到語言。如果我們可以找出一個能同時教會人工智能語言和概念的方法,問題就解決了。這里的第一步就是基于人工神經(jīng)網(wǎng)絡(luò)的可復(fù)用知識的機(jī)器學(xué)習(xí)。