第一是感知。系統(tǒng)會通過用戶的搜索行為,自動(dòng)獲取其數(shù)據(jù),用戶搜索什么,點(diǎn)擊什么,都表明用戶想知道什么,這其實(shí)有助于不斷地培訓(xùn)這個(gè)系統(tǒng)。今日頭條也是一樣,我們通過用戶點(diǎn)擊喜歡與否、分享的評論知道用戶想要參與什么類型的話題。
第二是理解。用戶的查詢、點(diǎn)擊、收藏等行為一定程度上反映了用戶的某些意圖,比如有人查詢紅酒木瓜湯,他是對美食感興趣還是對減肥感興趣,這個(gè)通過分析可以知道,這就是系統(tǒng)的理解能力。不僅要感知海量的數(shù)據(jù),還要解讀數(shù)據(jù)背后的意圖。
第三是判斷。感知、理解了這個(gè)知識之后可以對用戶新的行為產(chǎn)生判斷。比如今日頭條可以判斷這條最新資訊這位用戶是否會喜歡。剛剛格靈深瞳的何總說機(jī)器學(xué)習(xí)可以判斷在這么多攝像監(jiān)控的情況下哪些是危險(xiǎn)的情況。具備一個(gè)感知、理解、判斷的系統(tǒng),它會有一個(gè)自我成長的特質(zhì)。
現(xiàn)在我以今日頭條為例解釋一下自我成長。第一個(gè)問題,推薦系統(tǒng)這塊,用戶用得越久會越好用,為什么?因?yàn)樗男袨樵絹碓蕉嗟赜涗浀竭@個(gè)系統(tǒng)中,這個(gè)系統(tǒng)感知他的行為越多,就對他越理解。
第二個(gè)問題是越多人用會越好用,為什么?不同的人之間有共性的東西,理解一名用戶之后,就會更容易地理解其他用戶;理解一類用戶之后,就容易理解這類用戶新的個(gè)體。
我想舉個(gè)例子,兩個(gè)新出生的嬰兒,因?yàn)樯铋啔v的不同,他們的智商發(fā)育情況會有很大差別,哪怕先天的基因物質(zhì)條件很接近,每天見到的東西不同,收集的數(shù)據(jù)不一樣,他的大腦神經(jīng)發(fā)育就不一樣,最終積累的智慧也不一樣。
不是從個(gè)人的視角看待這些數(shù)據(jù),因?yàn)橄到y(tǒng)能夠通過幾千萬或者上億的日活躍用戶來吸取海量的數(shù)據(jù),這是用全局的視角,看待每位用戶的行為。
我具體介紹一下今日頭條在使用機(jī)器引擎上的實(shí)踐。
過去我們看報(bào)紙,主編或者總編室是沒有辦法積累用戶行為數(shù)據(jù)的,他可能只能通過用戶的反彈用非在線的方式搜集數(shù)據(jù)。這種信息的感知水平跟移動(dòng)APP差別很大。
我們再看一下移動(dòng)APP,可以想象一下一個(gè)人在地鐵中使用今日頭條時(shí),其實(shí)他在使用今日頭條過程中,今日頭條后面的數(shù)據(jù)也在觀察他每一步的滑動(dòng),他是否很快地滑過某些標(biāo)題,或是有所停留,是點(diǎn)擊一篇內(nèi)容認(rèn)真閱讀還是粗略閱讀。是參與評論還是在朋友圈討論,這些行為都能在秒級延遲范圍內(nèi)被系統(tǒng)感知到,系統(tǒng)就會做到實(shí)時(shí)的調(diào)整。
一個(gè)在線APP每秒都會產(chǎn)生大量的數(shù)據(jù),我們獲取這些數(shù)據(jù)如何使用呢?以下是幾大特征:
首先是動(dòng)作特征。即剛剛說的點(diǎn)擊、停留、滑動(dòng)、評論、分享。
其次是環(huán)境特征。用戶是在Wi-Fi還是3G環(huán)境下,他的GPS在北京還是上海,是在常住地還是處于旅行狀態(tài),是白天還是夜晚,是否為節(jié)假日,是首次使用還是第二次使用,這些都可以作為環(huán)境特征。
第三是社交特征。我們一直是鼓勵(lì)用戶用社交媒介登錄今日頭條。比如一名用戶用微博登錄,我們會得到他的微博信息,包括微博的關(guān)注關(guān)系,歷史上發(fā)的微博,昨天發(fā)了一條看電影的微博等等。
這些數(shù)據(jù)都成為各種特征被系統(tǒng)所學(xué)習(xí)到,更重要的是系統(tǒng)不僅使用單一的特征,還會將這些特征進(jìn)行組合,從而判斷用戶有什么樣的興趣愛好。
我們最早一個(gè)版本不是基于學(xué)習(xí)而是基于策略的。我們用人的知識編成一些策略進(jìn)行個(gè)性化的推薦。這些知識是人工感知、理解、判斷得到的,并不是系統(tǒng)得到的。后來我們使用了一些高級特征,及少量的組合。
這些高級特征包括他是不是一個(gè)當(dāng)?shù)鼐用?,是不是一個(gè)IT用戶,他使用的手機(jī)價(jià)格多少,可能會根據(jù)上百種的高級特征進(jìn)行組合來推薦消息。
今年下半年,我們又進(jìn)行了改進(jìn),用了海量的高級特征和精細(xì)化的特征。精細(xì)化特征這塊,我們會觀察他過去點(diǎn)擊某篇文章的行為,對他現(xiàn)在的閱讀有什么影響。特征的顆粒度越細(xì),推薦的精準(zhǔn)性就會越高。
未來我們會有更多豐富的特征,不僅是用一種模型,可能更多的是模型的組合來進(jìn)行行為的理解判斷。