通過推薦引擎的技術(shù),我們在過去兩年超越了幾個(gè)互聯(lián)網(wǎng)的巨頭,達(dá)到每天有2000萬的用戶使用今日頭條,并且每天每個(gè)用戶使用6到7次,每次6-7分鐘,所有用戶加起來有7億分鐘的時(shí)長。如果一個(gè)人看的話,相當(dāng)于從唐朝閱讀到清朝的跨度。
這么多用戶每天使用會(huì)產(chǎn)生多少數(shù)據(jù)呢?我們每天現(xiàn)在的日志函數(shù)在100億的規(guī)模,每天產(chǎn)生的特征組合會(huì)在750億,這些數(shù)據(jù)經(jīng)過組合之后最后真正被使用的特征也有300多億。
這幅圖是我們內(nèi)部的一個(gè)指標(biāo)用來衡量學(xué)習(xí)的效果,可以看到在過去一年中我們大概通過增加這個(gè)特征,增加特征的組合,優(yōu)化模型可以提高80%、90%。如果簡化來說,我們可以認(rèn)為機(jī)器的智商水平有了80%、90%的提高。
所以我理解類似今日頭條這種推薦引擎的系統(tǒng),它不僅是個(gè)人助理的角色,我們很多時(shí)候想學(xué)習(xí)的時(shí)候都會(huì)想到人工智能,想到人工智能會(huì)想到機(jī)器人,想到機(jī)器人會(huì)想到替代一個(gè)人,他不是替代一個(gè)人。
你從獲取數(shù)據(jù)的角度來說,他更像整個(gè)世界共享一個(gè)大腦,視角并不是觀察你個(gè)人,今日頭條的后臺(tái)系統(tǒng)每天觀察2000萬用戶使用行為,每天觀察100億條日志,最新資訊在不同人群中受歡迎的程度。其實(shí)在做這個(gè)產(chǎn)品過程中,我感覺系統(tǒng)有時(shí)候有一個(gè)上帝的視角,可以觀察用戶。
機(jī)器學(xué)習(xí)短期內(nèi)是看不到有機(jī)會(huì)跟人類智商相比較的系統(tǒng),有機(jī)會(huì)在各個(gè)垂直領(lǐng)域出現(xiàn)可能比平均的人類能力更好的一種判斷,比方說在閱讀,在導(dǎo)航,在天氣預(yù)報(bào)不用說了,人無法對(duì)天氣的各種特征做反映。
我覺得跟生活相關(guān)的各個(gè)領(lǐng)域比如說導(dǎo)航,機(jī)器對(duì)交通信號(hào),對(duì)歷史的人流情況做出判斷,比人做出判斷更靠譜,這個(gè)已經(jīng)實(shí)現(xiàn),閱讀也是。比如今日頭條比你的助理更能理解你喜歡什么,這也是很可能達(dá)到的。
因?yàn)闄C(jī)器智商未必高,抵不過年長和見多識(shí)廣的人。人的記憶力有限,處理的數(shù)據(jù)量有限,機(jī)器不僅能夠觀察一個(gè)人的數(shù)據(jù),它可以觀察幾千萬、三億用戶的數(shù)據(jù)。
什么叫不知疲倦呢?機(jī)器不需要休息,每時(shí)每刻都可以輸入數(shù)據(jù)。在夜深人靜時(shí),機(jī)器可以進(jìn)行不斷地迭代。通過機(jī)器連接眾多的設(shè)備,觀察眾多的設(shè)備產(chǎn)生的行為,通過感知理解判斷形成機(jī)器的智慧之后,可以大規(guī)模抹平信息的鴻溝,減輕人的負(fù)擔(dān)。拿閱讀來說,以前信息整理搜集能力強(qiáng)的人他有更好的信息獲取能力,他在信息社會(huì)就有更多的優(yōu)勢。
比方說對(duì)交通敏感的人,交通經(jīng)驗(yàn)多的人可以判斷出更好的路線,現(xiàn)在有了機(jī)器學(xué)習(xí)的系統(tǒng)之后,機(jī)器能夠指引人,能夠更有效地獲取信息,更有效地交通出行,所以減輕人腦的負(fù)荷。
機(jī)器還知道什么呢?比方說今日頭條的系統(tǒng)在過去一年中它從這么多用戶行為中還了解了什么呢?他知道哪些人所不知道的知識(shí)點(diǎn)呢?比方說過去一年中哪個(gè)事件被人最快遺忘了?哪個(gè)城市的人最喜歡某個(gè)明星?這些都能知道。想知道這些答案的話,我這邊做一個(gè)廣告。20號(hào)下午我們會(huì)發(fā)布一個(gè)題為“算數(shù)”的年度發(fā)布會(huì),我們會(huì)把機(jī)器學(xué)到的東西,以算數(shù)的主題發(fā)布出來,歡迎大家屆時(shí)參與,謝謝!