這輪 AI 熱潮的很大一個特點就是底層技術方面在打通,雖然說過去對通用人工智能大家曾經(jīng)有過很高的期望,但一直沒有落地。這次,深度學習給大家?guī)砹撕芏鄼C會,使得我們在底層技術方面有了越來越多的共性。然而深度學習并不是萬能的,那么它的局限性在哪里?當遇到天花板時又該如何呢?
4月8日,在 ADL 第78期“深度學習:從算法到應用”的 Panel 環(huán)節(jié),四位頂級 AI 學術大牛同臺縱論驅動這一輪 AI 浪潮的底層技術,主題為“深度學習和大數(shù)據(jù)結合的紅利還能持續(xù)多久”。
從左到右分別是:山世光、顏水成、李航、俞凱
四位分別是:
中科院計算所研究員、博導,中科視拓創(chuàng)始人、董事長兼 CTO 山世光
360副總裁、 首席科學家顏水成
華為諾亞方舟實驗室主任李航
上海交通大學研究院、思必馳創(chuàng)始人兼首席科學家俞凱
于 2017 年 4 月 7-9 日舉辦的中國計算機學會學科前沿講習班(CCF Advanced Disciplines Lectures,簡稱 ADL)第 78 期,是由 CCF 和 KDD China 聯(lián)合主辦的高端學術及技術系列性品牌活動。
底層技術在打通,聲、圖、文領域相互借鑒
山世光:今天的三位大咖里,俞凱老師做語音識別,顏水成老師主攻視覺方向,而李航老師則在自然語言的理解處理領域非常資深,而且在更加廣泛的人工智能上問題上也有研究,包含了聲、圖、文三個領域。我們今天討論的題目就是“深度學習和大數(shù)據(jù)的紅利在 AI 領域還能持續(xù)多久”,既然不同研究領域的人都坐到一起了,那我們就先講講這個大家互相跨界的情況。為什么這么說呢?因為我個人覺得這一輪AI熱潮很大的一個特點就是底層技術方面在打通。雖然過去我們對通用的人工智能曾經(jīng)有過很高的期望,但是實際上一直沒有落地,但是如今深度學習給大家?guī)砹撕芏嗟臋C會,而且底層的技術有了越來越多的共性,比如說卷積神經(jīng)網(wǎng)絡不僅在語音里面有用,在自然語言處理里面也有應用,所以我想請三位從這個視角談一下,這一輪AI在通用技術方面有什么樣的進展?
俞凱:稍微糾正一下,大家不要以為我是做語音識別的,我一定要說這句話,為什么?我所做的事情其實是口語對話系統(tǒng),包括語音識別、語音合成等大家可以想得到的東西。更重要的是,我做的是對話,或者說是以交互為主要方式的人機口語對話系統(tǒng)。
對話實際上是認知控制,你可以認為我做的是以口語作為主要通道的感知加上認知,在這一點上我和李航老師是有重疊的,都是交互的自然語言處理。我為什么會提這個?因為聲、圖、文,如果從這個角度分的話,實際上都可以看是成感知層面的東西,但是它后面所對接的都是理解、交互的控制、人的決策和推理,這些部分是在聲圖文領域的從業(yè)者或多或少都會涉及到的,無論是顏水成老師還是李航老師。所以我想把它分成兩層,從感知上看我們做的不一樣的,但是后面的東西,大家做的很多都是類似的,比如大家會做到理解這一層,而我還會做到交互這一層。
關于這一輪的AI潮,我說一下自己的感受。我先拋一個觀點,凡是在機器學習范式上一樣的東西,聲圖文全都可以用,而且任何一個機器學習方法在這三樣里面都可以用。什么叫范式?比如說分類問題,CNN之所以在語音識別里用的多,很重要的一點就是它能夠處理高度非線性的映射,有非常好的分類能力。只要是面對這樣的問題,就一定可用,所以我們現(xiàn)在也很關注圖像方面的東西。
(山世光:這個我可能會有不同意的觀點,我個人覺得更多的是學Feature。)
只要是能夠歸結為范式性的東西,第一是分類,第二是回歸,這是最典型的兩類事,第三是序列標注。只要能歸屬這三類的,幾乎都可以通用,只是用的方法不一樣。
李航:你剛才提到深度學習和大數(shù)據(jù)的結合紅利,以及人工智能在技術層面上的打通,未來在應用層面上也會有很多的機會。
現(xiàn)在在UC Berkeley有一種研究,就是給機器人看一段“人開門”的視頻,機器人在看完視頻之后,可以學會自己用手去開門。以前這種運動和視頻的理解是完全不同的領域。大家自然可以想到相關的,比如我跟你說一段話,這個機器會不會理解,能做什么事情,這種可能性在未來應該是有的。在深度學習、大數(shù)據(jù)這些技術的延長線上,假設有很多的數(shù)據(jù),以及很強的計算能力,這種跨模態(tài)、跨領域的應用,應該是未來發(fā)展的一個增長點。