顏水成:現(xiàn)在還是有不少這種純視覺(jué)的APP的,比如美圖秀秀、FaceU,這些就是典型的視覺(jué)。我個(gè)人覺(jué)得視覺(jué)這個(gè)領(lǐng)域的話,因?yàn)樗?jīng)常可以有不同的創(chuàng)新,比如說(shuō)今年非常典型的熱點(diǎn)就是短視頻的生產(chǎn)和聚合,各大創(chuàng)業(yè)公司(以今日頭條為代表),以及傳統(tǒng)的IT公司(比如360、百度、騰訊),都在推動(dòng)短視頻,這些東西跟傳統(tǒng)的純粹圖像分析不一樣。短視頻興起后,你的計(jì)算模型的efficiency,推薦算法等,都會(huì)跟以前完全不一樣。比如圖文的時(shí)候,可以用surrounding text做一些事情,那么短視頻出現(xiàn)之后的話,可能就沒(méi)有什么太多的caption(字幕)或者title(標(biāo)題)的東西,這個(gè)時(shí)候主要依賴的是視覺(jué)的東西。無(wú)論是學(xué)術(shù)界工業(yè)界,其實(shí)對(duì)短視頻的分析的投入和研發(fā)的力度是加強(qiáng)了的。雖然聲音還在里面,但是可能對(duì)于文本的依賴性變?nèi)趿?。從視覺(jué)維度來(lái)說(shuō)的話,深度學(xué)習(xí)和大數(shù)據(jù)結(jié)合紅利又一波又要來(lái)了,而不是到了瓶頸期。
山世光:就是視頻的結(jié)構(gòu)化、符號(hào)化和后端的搜索、應(yīng)用的連接。
李航:這是個(gè)挺好的例子,其實(shí)剛才我們提到的語(yǔ)音,俞凱老師做的東西跟語(yǔ)言相關(guān),只不過(guò)是從語(yǔ)音對(duì)話的角度去看這個(gè)東西,其實(shí)語(yǔ)音和語(yǔ)言比較容易自然的結(jié)合在一起,現(xiàn)在已經(jīng)變成一個(gè)相對(duì)比較大的領(lǐng)域。我對(duì)未來(lái)的預(yù)測(cè)是,真正做語(yǔ)音識(shí)別的人會(huì)越來(lái)越少,而做語(yǔ)音對(duì)話的人會(huì)越來(lái)越多,這是一個(gè)整體的大的領(lǐng)域,而語(yǔ)音識(shí)別是其中一部分。
顏水成:對(duì)于語(yǔ)音對(duì)話這塊,我個(gè)人的觀點(diǎn)有點(diǎn)不一樣,對(duì)話非常依賴于語(yǔ)料,這樣的話,只有兩類(lèi)公司比較適合做這個(gè)事情。一類(lèi)的話就是有search engine的公司,還有一類(lèi)就是以騰訊、微軟為代表的,有instant message產(chǎn)品的公司,比如微信、Skype。這些公司有天然的優(yōu)勢(shì)。
李航:我們倆說(shuō)的其實(shí)不矛盾,這個(gè)領(lǐng)域有這樣的應(yīng)用,那么自然就需要將語(yǔ)音、語(yǔ)言的處理技術(shù)融合起來(lái)。相對(duì)來(lái)說(shuō),傳統(tǒng)的語(yǔ)音識(shí)別和語(yǔ)言處理的人會(huì)越來(lái)越少,而在更大的應(yīng)用背景下,更大的技術(shù)范圍內(nèi),人會(huì)越來(lái)越多,這是我的預(yù)測(cè)。
俞凱:其實(shí)是這樣,對(duì)話也分很多種類(lèi),剛才所說(shuō)的open domain(開(kāi)放領(lǐng)域),其實(shí)只是其中的一小類(lèi),而且是離商業(yè)化最遠(yuǎn)的一類(lèi)。
顏水成:但是老百姓最期待的可能是這個(gè)玩意。
俞凱:其實(shí)不是,從投資的角度、以及技術(shù)的角度來(lái)講的話,最集中的就是垂直領(lǐng)域的任務(wù)性對(duì)話,這個(gè)是一定的。
顏水成:對(duì),這是落地性非常好的,但是我們看到的科幻片,或者老百姓他不能區(qū)分什么是task,什么是open domain。他們想的是,可能會(huì)有一個(gè)新的機(jī)器人出現(xiàn),它可以安慰我,給我提供各種各樣的信息,但是我們現(xiàn)在真正能夠提供的,還是像Alexa Skills這樣的東西。
俞凱:從這個(gè)角度來(lái)講,其實(shí)那些比較open的語(yǔ)料,對(duì)于研究來(lái)說(shuō)是有一定價(jià)值的,對(duì)于未來(lái)暢想也很有意思,但是從實(shí)際落地和真正的研究語(yǔ)義區(qū)分角度來(lái)講,其實(shí)大公司并沒(méi)有優(yōu)勢(shì),原因非常簡(jiǎn)單,就是在機(jī)器學(xué)習(xí)的范式上,它不再是一個(gè)基于離線語(yǔ)料的學(xué)習(xí),尤其是對(duì)話決策這一類(lèi),機(jī)器學(xué)習(xí)是需要在線和環(huán)境交互,才能真正去學(xué)的,而這樣一類(lèi)事情,全世界都才開(kāi)始做。所以我覺(jué)得,細(xì)分下來(lái)的話,在對(duì)話的領(lǐng)域里面,至少有聊天、問(wèn)答、任務(wù)性對(duì)話三個(gè)比較難的課題。我把open domain看成是特殊的聊天。
這三種用的技術(shù)都不一樣,而它的商業(yè)化模式區(qū)別也比較大。所以我會(huì)有一個(gè)感覺(jué),可能細(xì)分能讓大家把這件事看的更具體一點(diǎn)?;卮饎偛派绞拦饫蠋熖岬降年P(guān)于圖像商業(yè)化這個(gè)問(wèn)題,我也再說(shuō)一個(gè)觀點(diǎn):不解決痛點(diǎn),只解決癢點(diǎn)。什么意思呢?就是我一天不上微信,我簡(jiǎn)直就不行,我昨天兩點(diǎn)鐘到了賓館,我睡覺(jué)之前一定要看微信,因?yàn)樵陲w機(jī)上沒(méi)法看,那個(gè)是痛點(diǎn),真的很痛,我如果忘了這個(gè),比如說(shuō)李老師給我發(fā)了微信,我如果不知道,這后面就麻煩了,但是如果我不打開(kāi)那個(gè)對(duì)話APP,這是沒(méi)事的,所以這是癢點(diǎn),這一點(diǎn)特別關(guān)鍵,它到底是疼的還是癢的。而從視覺(jué)的角度上講,其實(shí)我的感覺(jué)是有很多痛點(diǎn)的,而且比以前還痛,這就是為什么,雖然現(xiàn)在語(yǔ)音的發(fā)展?jié)摿Ψ浅4?,但是從現(xiàn)實(shí)的情況上來(lái)看,整體上視覺(jué)公司估值已經(jīng)比語(yǔ)音這邊高,而整個(gè)核心的應(yīng)用是一個(gè)什么東西呢?安防。安防這件事情是非常清晰的應(yīng)用。剛才提到的好幾類(lèi),包括說(shuō)這個(gè)APP的問(wèn)題,第一要區(qū)分你做這個(gè)APP的性質(zhì)是什么,到底是工具性,還是社交性的,如果連這個(gè)都不區(qū)分的話,你的方向就不清楚,你就不知道,技術(shù)在里面占多大比例,工具性的占的比例高一點(diǎn),但是社交性的、游戲性的技術(shù)比例可能很低很低。而在安防領(lǐng)域,其實(shí)圖像是完全dominant的。