萬物互聯(lián)的人工智能時(shí)代
最近這三年,我們總是被各種耀眼的技術(shù)詞匯轟炸著:大數(shù)據(jù)、機(jī)器學(xué)習(xí)、人工智能、物聯(lián)網(wǎng)、工業(yè)4.0、互聯(lián)網(wǎng)+…… 我認(rèn)為,這些五花八門的詞匯其實(shí)都在指向同一個(gè)未來:一個(gè)萬物互聯(lián)的人工智能時(shí)代。
我希望從三個(gè)維度上的趨勢來解釋這個(gè)觀點(diǎn):互聯(lián)化、數(shù)據(jù)化和智能化。
互聯(lián)化是指我們真實(shí)世界的設(shè)備與設(shè)備互聯(lián),而不只是一臺服務(wù)器上的網(wǎng)站和另一臺服務(wù)器的網(wǎng)站相連。以汽車舉例,我們的汽車可以連接到家里的空調(diào),這樣我們在回家的路上就可以發(fā)出指令啟動房間里的空調(diào);汽車也可以和路邊的建筑設(shè)施互聯(lián),找到適合的停車位或者商場中的服務(wù)。
汽車之間也可以互聯(lián),通訊汽車間距、速度等信息,自動保障行車安全。這就是物聯(lián)網(wǎng)(在汽車垂直領(lǐng)域稱作車聯(lián)網(wǎng)),其在制造業(yè)的應(yīng)用被德國稱為工業(yè)4.0,在生活上的應(yīng)用則被我們中國稱為互聯(lián)網(wǎng)+。
數(shù)據(jù)化是指盡可能多的設(shè)備信息、工作狀態(tài)被量化成數(shù)據(jù)并可在設(shè)備之間通訊。同樣舉汽車的例子,司機(jī)每天開車的路徑、其中各個(gè)地點(diǎn)的速度、加速度、油門深淺、剎車輕重、路況等信息都可以通過傳感器產(chǎn)生可記錄、通訊和分析的數(shù)據(jù)。
目前,以特斯拉為代表的新能源汽車已經(jīng)在數(shù)據(jù)化進(jìn)程上走得很遠(yuǎn)了。其他領(lǐng)域,例如家居、健康,也在推進(jìn)數(shù)據(jù)化進(jìn)程。由于越來越多的設(shè)備互聯(lián),各個(gè)設(shè)備的狀態(tài)也進(jìn)一步數(shù)據(jù)化,人類在接下來的10年內(nèi)產(chǎn)生的數(shù)據(jù)量將會比互聯(lián)網(wǎng)時(shí)代更上一個(gè)新臺階。
從大數(shù)據(jù)的角度來講,“大”不但指數(shù)據(jù)規(guī)模大,更指的是數(shù)據(jù)維度高。而設(shè)備的互聯(lián)化和數(shù)據(jù)化將會產(chǎn)生比當(dāng)今互聯(lián)網(wǎng)大數(shù)據(jù)更加名副其實(shí)的大數(shù)據(jù)。
智能化則是在設(shè)備互聯(lián)化、數(shù)據(jù)化的基礎(chǔ)上通過數(shù)據(jù)驅(qū)動的人工智能解決各種各樣的快速有效的預(yù)測和決策問題。從機(jī)器學(xué)習(xí)的角度來講,用于訓(xùn)練的數(shù)據(jù)規(guī)模越大、維度越高,就越能學(xué)習(xí)出更復(fù)雜的高級模型,勝任更高難度的智能工作。
大數(shù)據(jù)是原材料,機(jī)器學(xué)習(xí)是原材料加工廠,而新一代人工智能服務(wù)則是工廠出爐的產(chǎn)品被消費(fèi)在越來越多的日常生活中。我們看到最近這三年這樣一個(gè)新型產(chǎn)業(yè)鏈的每個(gè)環(huán)節(jié)都在蓬勃發(fā)展,而在AlphaGo戰(zhàn)勝李世石的今天,更多的人開始注意到這條產(chǎn)業(yè)鏈帶來的人工智能產(chǎn)品將會在未來10年間給人們的生活帶來翻天覆地的改善。
學(xué)術(shù)界與產(chǎn)業(yè)界雙贏
結(jié)合真實(shí)大數(shù)據(jù)并在人們?nèi)粘I钪邪l(fā)揮作用的人工智能研究是目前最有效率并最符合整個(gè)產(chǎn)業(yè)鏈發(fā)展趨勢的研究方式。研究大數(shù)據(jù)驅(qū)動的人工智能,首先得有“活的”大數(shù)據(jù)可供研究,才在真實(shí)環(huán)境中不斷嘗試研發(fā)新的人工智能模型。
這樣一個(gè)交互式的研究環(huán)境最能夠促進(jìn)新成果的誕生。這也是當(dāng)今許多世界級并且奮戰(zhàn)在人工智能研究一線的大學(xué)教授會選擇在一家科技企業(yè)兼職的原因。
而幾年前高校的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)研究仍然傾向于靠著一個(gè)許多年前生成的數(shù)據(jù)集不斷地測試新模型。從實(shí)踐經(jīng)驗(yàn)來看,這樣工作在一個(gè)老的小數(shù)據(jù)集上的模型很難勝任現(xiàn)實(shí)生活中的大規(guī)模動態(tài)數(shù)據(jù)。而高校實(shí)驗(yàn)室需要作出最前沿的人工智能技術(shù)就需要奮斗在大數(shù)據(jù)處理的第一線。“Get hands dirty。”這樣才能切身感受到最真實(shí)最野性的數(shù)據(jù),才能真正理解數(shù)據(jù)和基于數(shù)據(jù)搭建起來的人工智能。
我認(rèn)為在大數(shù)據(jù)驅(qū)動的人工智能研究中,大學(xué)科研團(tuán)隊(duì)與工業(yè)界算法團(tuán)隊(duì)相比,其優(yōu)勢在于能將主要精力投入在算法研究中,能在擁有大數(shù)據(jù)和測試平臺的基礎(chǔ)上,產(chǎn)出一般企業(yè)想不到的有效算法;另外大學(xué)研究者由于長期保持相關(guān)文獻(xiàn)的收集整理,對領(lǐng)域內(nèi)的最新技術(shù)以及新舊技術(shù)的全局理解有很深的體會。
大數(shù)據(jù)驅(qū)動的人工智能是一個(gè)產(chǎn)業(yè)界和學(xué)術(shù)界雙贏合作的領(lǐng)域。
我在倫敦大學(xué)學(xué)院的博士課題是互聯(lián)網(wǎng)精準(zhǔn)展示廣告算法?;ヂ?lián)網(wǎng)廣告領(lǐng)域的數(shù)據(jù)由于涉及廣告拍賣交易中的價(jià)格信息而十分敏感,所以該領(lǐng)域在2012年之前并不存在任何互聯(lián)網(wǎng)廣告領(lǐng)域的公開數(shù)據(jù)集可供高校研究者做研究。該領(lǐng)域絕大多數(shù)研究論文皆來自涉足互聯(lián)網(wǎng)廣告的科技公司,例如谷歌、微軟、雅虎等等。
對于高校研究者來說,做互聯(lián)網(wǎng)廣告大數(shù)據(jù)的研究,首要任務(wù)就是同相關(guān)企業(yè)建立研究合作,獲取最新的廣告投放數(shù)據(jù),并在合作企業(yè)的商業(yè)平臺上直接做面向真實(shí)用戶流量的實(shí)驗(yàn)。我們研究組在倫敦、北京和硅谷尋找到了多家廣告科技企業(yè)進(jìn)行合作,其中既有業(yè)務(wù)量和數(shù)據(jù)龐大的IT巨人,也有迭代速度極快的初創(chuàng)公司。