騰訊科技 徐安娜 1月17日?qǐng)?bào)道
今日,極客公園創(chuàng)新大會(huì)在北京開幕。今日頭條創(chuàng)始人張一鳴作了主旨演講。他分享了今日頭條在機(jī)器學(xué)習(xí)上的實(shí)踐。他認(rèn)為,過去是依靠人總結(jié)知識(shí),現(xiàn)在可以通過系統(tǒng)、學(xué)習(xí)用戶的行為特征來存儲(chǔ)智慧。
張一鳴表示,這種系統(tǒng)本身具有自我成長的三大特征,感知、理解與判斷。首先系統(tǒng)感知到用戶的搜索行為,獲取其數(shù)據(jù),然后解讀數(shù)據(jù)背后用戶的意圖,感知、理解了這個(gè)知識(shí)之后可以對(duì)用戶新的行為產(chǎn)生判斷。比如今日頭條可以判斷這條最新資訊這位用戶是否會(huì)喜歡。
今日頭條從最早的版本是用人的知識(shí)編成一些策略進(jìn)行個(gè)性化的推薦,之后進(jìn)行了改進(jìn),用了海量的高級(jí)特征和精細(xì)化的特征,來實(shí)現(xiàn)精準(zhǔn)推薦。張一鳴說,未來還會(huì)有更豐富的特征,不僅是用一種模型,可能更多的是模型的組合來進(jìn)行行為的理解判斷。
張一鳴表示,機(jī)器智商未必高于見多識(shí)廣的人,主要是人的記憶力有限,處理的數(shù)據(jù)量有限,而機(jī)器不知疲倦,每時(shí)每刻都可以輸入海量數(shù)據(jù)。機(jī)器可以連接眾多的設(shè)備,觀察眾多的設(shè)備產(chǎn)生的行為,通過感知理解判斷形成機(jī)器的智慧之后,可以大規(guī)模抹平信息的鴻溝,減輕人的負(fù)擔(dān)。
機(jī)器還知道什么?比如今日頭條的系統(tǒng)在過去一年中它從這么多用戶行為中還了解了什么呢?它知道哪些人所不知道的知識(shí)點(diǎn)呢?比如過去一年中哪個(gè)事件被人最快遺忘了?哪個(gè)城市的人最喜歡某個(gè)明星?
這些問題機(jī)器是否都能知曉,張一鳴會(huì)在下周二他們舉辦的題為“算數(shù)”的年度發(fā)布會(huì)上揭曉答案。
以下是騰訊科技整理的張一鳴的演講實(shí)錄:
很高興與大家分享我們今日頭條在機(jī)器學(xué)習(xí)上的實(shí)踐。創(chuàng)業(yè)之初,我們要招機(jī)器學(xué)習(xí)的工程師,很多獵頭問,“你們不是做媒體的嗎?為什么要招機(jī)器學(xué)習(xí)的工程師?你們不是做一個(gè)APP嗎?為什么需要這么多人?”我當(dāng)時(shí)想告訴他們,機(jī)器學(xué)習(xí)能給資訊閱讀和信息獲取帶來很大的價(jià)值,今天我就跟大家分享這塊內(nèi)容。
首先我們回顧一下前面幾位演講者講到的機(jī)器學(xué)習(xí)的使用場(chǎng)景和技術(shù)背景。11年底,12年初時(shí),我強(qiáng)烈地感受到移動(dòng)互聯(lián)網(wǎng)的出現(xiàn)會(huì)使物理世界在網(wǎng)絡(luò)世界有更多的數(shù)字投影。比如微博的出現(xiàn),讓很多公共機(jī)構(gòu)和名人有了網(wǎng)絡(luò)ID,很多照片、文字、用戶生成的內(nèi)容在網(wǎng)絡(luò)世界有了投影,換句話說,人類的活動(dòng)痕跡越來越多地出現(xiàn)在網(wǎng)絡(luò)上。
同時(shí),云端開始能處理海量的數(shù)據(jù)。特別是2012年之后,越來越多的云存儲(chǔ)、云技術(shù)技術(shù)應(yīng)用誕生了。在移動(dòng)端出現(xiàn)了強(qiáng)烈的業(yè)務(wù)需求,因?yàn)榧夹g(shù)條件還不夠,必須有強(qiáng)烈的業(yè)務(wù)需求才可以帶來技術(shù)在產(chǎn)品上的應(yīng)用。
手機(jī)上的傳感器越來越多,智能硬件其實(shí)是手機(jī)的外設(shè),而手機(jī)是人的外設(shè),可能不只是手機(jī),也包括志飛說的手表,越來越多的傳感器、智能硬件成為外設(shè)之后,手機(jī)本身又具備本地運(yùn)算處理能力、聯(lián)網(wǎng)能力,所以它成為物理世界的信息投影到網(wǎng)絡(luò)世界的一個(gè)通道。當(dāng)然也有其他設(shè)備,如GoPro相機(jī),谷歌(微博)眼鏡等,能實(shí)時(shí)分析路面交通情況并投影至數(shù)字世界。
過去是依靠人總結(jié)知識(shí),不同歷史階段都會(huì)有藝術(shù)、文學(xué)等經(jīng)典著作,是將各領(lǐng)域知識(shí)匯聚到一起產(chǎn)生的?,F(xiàn)在我發(fā)現(xiàn)通過書籍匯聚知識(shí)不是最有效的方式,通過系統(tǒng),學(xué)習(xí)用戶的行為來存儲(chǔ)智慧才是最有效的。
比如我們希望查詢過去幾年的春運(yùn)變化情況,可以在百度指數(shù)上查到,百度指數(shù)囊括了歷年春運(yùn)的交通情況。通過系統(tǒng),通過用戶行為生成的知識(shí)可能會(huì)是未來知識(shí)存儲(chǔ)的一種主要方式。
這種系統(tǒng)是自我成長的,具備三大特性: