新聞流是Facebook最重要的產品
我工作兩年之后選擇去了這個組。
“排序” 指的是信息流的順序。它決定了打開你的 Facebook 朋友圈,你的信息流是個什么樣子,信息的位置。每個人產生的內容、新聞會有兩三千個,用戶只能看到 50-100 個。你需要把兩三千個最好地展示出來。有些我們不給用戶顯示,比如你喜歡游戲,你的朋友不喜歡。
我 2012 年剛去的時候,新聞流排序組只有五六個人,盡管這可能是公司最大的機器學習系統(tǒng),最核心的產品。每天有十億多人上線,每個用戶花 40 分鐘在 Facebook 上,其中一半時間都花在新聞流上。Facebook 大部分收入來自新聞流廣告。比如說,移動廣告收入占所有廣告的 70%,而其中所有的移動的廣告都來自新聞流。不管是從用戶的停留時間,還是收入來說,新聞流都是最重要的產品。
新聞流是 Facebook 最重要的產品,直接決定了用戶所看到的內容。
做好新聞流排序是很難的問題,因為用戶在新聞流上的行為有很多種,不只是傳統(tǒng)廣告點擊或者不點擊這一種操作,用戶可以在新聞流里贊、評論、分享或者隱藏這個新聞流,也可以播放視頻。我需要理解用戶喜歡什么東西,評論、分享什么東西,想看什么樣的視頻。理解用戶的興趣所在,根據我們的訊息把最好的東西放在新聞流的最前面。
以國內的社交媒體作對比來說,微信的朋友圈是所有內容全部顯示,它不需要排序,是因為朋友圈容量不是特別多,大家可以看完所有的內容。朋友越來越多的話,沒有時間把分享看完,排序是必然的事情。你會很容易漏掉很重要人的圖片,它們迅速埋沒在大部分你不感興趣的內容了。
Facebook 之前也是全部顯示,慢慢到后來用戶是看不完所有的信息的。如果不做排序,把最好的服務挑出來的話,用戶不會愿意訪問新聞流,因為他看到很多不感興趣的東西,感興趣的部分他已經沒有時間找出來了。從不排序到排序是必然的過程,你的朋友越來越多,公眾頁面越來越多,排序是必然的。
比如說新浪微博沒有做排序,有些細節(jié)雜亂無章,他們測試過,但是做得不太好。所以放棄了。微信的朋友圈也會到要做排序的階段。Facebook 不只是排序,還會隱藏用戶不感興趣的內容,比如你的朋友玩過 Candy Crush 游戲,但可能你本身不玩任何游戲,關于這方面的信息就沒有意義。Facebook 就不會給你顯示這些內容——“朋友們在玩什么游戲”。
社交媒體的碎片化已成事實。只有采取更好的排序手段,推送給用戶更精準的內容,才能提高平臺停留時間,加強粘性。
新聞流排序的工作原理是什么?
基本上,新聞流是從兩三千條內容里面,挑出了 四五十 個。按照每個內容打分,分高的內容排在最前面。每個內容、照片、分享或者狀態(tài),我們會預測一些概率值,比如你點贊的概率,評論、分享的概率。每個用戶的行為,比如點贊、分享、評論,系統(tǒng)都會給權值。評這些用戶行為概率是通過機器學習來系統(tǒng)計算的。如果用戶對某個內容點贊、評論或者分享,說明用戶愿意看到這個內容,對內容產生了反饋。
舉個例子來說,比如你是我的好友,你上傳了 100 張照片,我點贊了 20 次,那么點贊概率就是 20%。我們知道每個用戶以前對哪些內容點贊、評論,這些都是我們的訓練樣本。我們通過學習用戶的歷史行為,進行相同類型、相同個人的未來行為預測,因為用戶短期行為不會大幅變化,過去對哪些東西進行評論,將來也很有可能對相似內容進行評論。
對用戶內容的預測
很多人關心,是否可以針對用戶內容來進行預測?比如分析用戶發(fā)了什么樣的文字或者圖片?這是可以的。如果是圖片我們可以抽取圖片特點,對圖片進行模式識別,分析圖片的主題,打上相應的標簽,用機器來識別這些圖片?,F在在做相應的工作。Facebook 有 AI 實驗室,可以對圖片進行內容識別。