顏水成:安防其實也有個問題,其實公司都是都希望自己的技術能直接與用戶做交互,而做安防的話其實是默默的在后臺弄這個東西,普通老百姓不一定知道這個東西的存在,這可能是它的一個缺點。其實我覺得做視覺的人,還是希望能讓用戶看見,就是做2C(to customer)東西。
俞凱:我個人感覺,如果是2C的話,也只有兩種情況,一種情況就是你就是一個感知工具,這個感知工具是不可或缺的,比如輸入法,這個在自然語言處理里面是完全不可或缺的東西。還有一個方向就是必須得是個系統(tǒng),單獨語音可能不行,單獨圖像可能也不行,它可能會以其中一個為主 ,但是必須是個系統(tǒng)。
顏水成:我覺得可能要等到AR眼鏡所有的技術都成熟了,而且用戶量比較大了,才能夠讓視覺成為dominant的東西。
山世光:會不會把希望寄托在了一件不可能發(fā)生的事情上?大家可以現(xiàn)場調(diào)研一下,有多少人愿意天天戴一個AR眼鏡。
顏水成:請問現(xiàn)場有多少人體驗過HoloLens?(現(xiàn)場觀眾舉手),看起來二十分之一都不到。我們現(xiàn)在在座的根本沒有多少人知道AR當前的現(xiàn)狀是怎樣的,沒有體驗過AR眼鏡目前處于什么水平。我第一次帶HoloLens眼鏡的時候,只是在實驗室里面體驗了十分鐘,用起來特別麻煩,因為微軟一定要把它的賬號跟HoloLens綁起來,又不好輸入,我又不熟,搞的非常痛苦。但是有一次我太太恰好去外邊旅游,我一個人在家里,我就用了整整半天的時間,在家里把HoloLens設置好,把里面各種各樣的功能體驗了一遍,然后就覺得這個東西還不錯,離我想象的科幻電影里的樣子又近了一點,但是還是有問題,HoloLens太沉了,視野太窄,而且續(xù)航也不太給力。后來看到Lumus這個專門做光學鏡片的公司,它的產(chǎn)品能夠把信息從側面投影出來,通過光波導這種形式把信號反射到你的眼睛里面,能把眼鏡做的和真的眼鏡大小差不多。這樣的話,極有可能能做到一款和普通的眼鏡大小差不多的AR眼鏡。
此外還有一些人在做SLAM技術,以及一些配套的手勢控制的技術。特別是當我看到Lumus的那個眼鏡,加上一個叫Infinity公司的SLAM技術,合在一起的時候,你就會覺得這個眼鏡可以做的很小,并不是遙不可及的,我覺得AR眼鏡發(fā)展的腳步比我們想象的快了一些。所以大家有機會的話,應該去體驗一下。
深度學習加大數(shù)據(jù)的模式會面臨天花板嗎?如何解決?
山世光:我們還是回到這個話題上來,我解讀一下這個話題為什么這樣去設置。其實這里面有兩個問題。第一個問題是說深度學習加上大數(shù)據(jù)這樣一個模式的,會不會出現(xiàn)天花板的情況?昨天余凱(平線機器人創(chuàng)始人兼 CEO,前百度研究院執(zhí)行院長)的PPT里面正好有一張圖片,橫坐標是數(shù)據(jù)量,縱坐標是performance,那么這個曲線的走勢是會逐漸趨于平緩呢?還是會一直往上走?
第二個問題就是天花板出現(xiàn)了之后怎么辦,就是你有了大數(shù)據(jù),但是達到了天花板,你還沒有滿足用戶的需求,那你還有沒有其他的技術。人很多時候并不是依靠大數(shù)據(jù)來學習,我們是不是在下一波里面會更重視這種不需要大量數(shù)據(jù)的學習算法。之前也有討論,有多少人工智能,就有多少人工數(shù)據(jù)標注的工作,是不是可以避免這個問題?請三位從這兩個角度解讀一下。
俞凱:我把我剛才說的擴展一下,先倒著來說,就是第二個問題,我的一個基本觀點就是閉環(huán)的將會成為未來的一個研究主流,甚至有可能是工業(yè)界的主流,它最大的特點就是對于人工標注數(shù)據(jù)的需求大大降低,這個是我特別明確的感受。比如GAN,它是機器自己生成數(shù)據(jù),只是這個生成方法是閉環(huán)的,所以使得它生成的數(shù)據(jù)特別好,要是強化學習的話,直接和環(huán)境進行交互,它們利用都不是一個一個正常的、離線的、大規(guī)模的人工預標注。因此從第二個問題的角度上講,我會認為閉環(huán)學習是一個比較大的方向。另外一個事情就是,觀看機器學習的整體發(fā)展進程,我特別同意李老師的觀點,他說的是符號學習和深度學習,我的觀點就是數(shù)據(jù)和知識雙驅(qū)動,我覺得這個方向?qū)俏磥硖貏e特別重要的方向。
李航:關于第一個問題,其實大數(shù)據(jù)永遠解決不了長尾問題,自然語言處理的這個傾向非常明顯。比如說現(xiàn)在的輸入法、語音識別,在有專有名詞、術語、或者夾雜英語單詞的時候,肯定識別不好,不管你灌多大的數(shù)據(jù)。因為你收集的語料越多,新詞的量也在同時增加,永遠會有長尾的詞出現(xiàn),那么怎么樣去處理?至少現(xiàn)在用深度學習或者自然語言處理的方法,還不能很好的解決這個問題,其實語音識別也是一樣的,還沒有完全解決這個問題。但是人肯定不會有這個問題,一個是語言的使用能力,你可以認為是人類幾百萬年進化出來的能力,讓你在聽到一個陌生的單詞的時候,可以利用你的語言能力做推理,做聯(lián)想,做判斷,來彌補這些問題。我們現(xiàn)在的深度學習,或者整個人工智能領域都沒有這樣的技術去彌補這樣的事情。這塊的話,明顯說明大數(shù)據(jù)、深度學習不是萬能的。我們可以在未來短期的時間里面,解決一些問題,比如剛才說到這個輸入法的問題,我可以把它變成personalised(個性化),或者是context dependent(基于上下文)來處理,可能做的更好一些。模型上,我可以嫁接在sequence to sequence learning這種大的框架里面,我可以把一些事情做的很漂亮,也很有效。但是本質(zhì)上,并不是像人一樣處理長尾現(xiàn)象,因此大數(shù)據(jù)、深度學習肯定不是萬能的。