【編者按】本文是FREES互聯(lián)網(wǎng)團(tuán)隊(duì)成員覃超與徐萬鴻進(jìn)行的一場 Ask Me Anything。徐是前 Facebook 新聞流排序組的資深工程師,在今年9月回國出任神州專車 CTO。本文中他們聊的是關(guān)于 Facebook 的 Growth Hacking 策略、反垃圾信息系統(tǒng)、信息流排序,以及為什么選擇回國參與創(chuàng)業(yè)。雷鋒網(wǎng)做了不修改原意的編輯。
當(dāng)朋友圈更新多到看不完時(shí),來看看Facebook是怎么優(yōu)化信息流的
所謂新聞流排序(news feed ranking),指的是 Facebook 的一項(xiàng)看家本領(lǐng):用戶每天會(huì)收到兩三千條新鮮事,卻只會(huì)閱讀前 50 至 100 條。利用機(jī)器學(xué)習(xí)將用戶最想看的內(nèi)容排到最前面,從而提高粘性和日活。
這固然是一篇著重技術(shù)的文章,所在公司 Facebook 更是世界上最大的互聯(lián)網(wǎng)公司之一。但這并不妨礙創(chuàng)業(yè)者從中得到經(jīng)驗(yàn)。利用 A/B 測試作為迭代方法,借助 Growth Hacking 的核心——數(shù)據(jù)來驅(qū)動(dòng)開發(fā),新員工的入職宣講……這些做法都體現(xiàn)了這位社交之王不同維度的文化所在:精神層面注重實(shí)現(xiàn)夢想,統(tǒng)一目標(biāo);而這一目標(biāo)下放到微觀層面,就是對于數(shù)據(jù)的尊重。
Facebook利用Sigma 系統(tǒng)做了什么?
我第一次去Facebook工作的時(shí)候,當(dāng)時(shí)專注于用戶增長的 VP 負(fù)責(zé)宣講。他說將來全球所有人都會(huì)使用 Facebook,這家公司將來會(huì)成為萬億美元的公司,這讓我印象很深刻。公司的所有人都很興奮,對設(shè)定的目標(biāo)有非常大的信心。他們的工作使命感非常強(qiáng),非常專注。
這是Facebook給我印象深刻的一件事。
在 Facebook 的 site-integrity (站點(diǎn)完整性) 組工作了兩年。當(dāng)時(shí) Facebook 有很多的垃圾私信、垃圾信息,就像人人、微博上有各種廣告、垃圾鏈接。有些用戶的賬號(hào)被盜用了,會(huì)使用個(gè)人頁面發(fā)送垃圾短信、廣告、病毒,還有一些不受歡迎的朋友請求。我會(huì)處理所有類似這些涉及到影響用戶體驗(yàn)的東西。
Facebook 使用了一個(gè)叫做 sigma 的系統(tǒng)來抵制這些垃圾信息。這個(gè)系統(tǒng)安裝在 2000 多臺(tái)機(jī)器上面,F(xiàn)acebook 用戶做的任何事情,都會(huì)經(jīng)過 sigma 系統(tǒng)分析處理,比如評論、鏈接、朋友請求,都會(huì)被這個(gè)系統(tǒng)進(jìn)行判斷,是正常行為、濫用行為還是有問題的行為。
利用 Sigma 系統(tǒng),F(xiàn)acebook 會(huì)對垃圾信息進(jìn)行過濾和清理。
舉個(gè)例子說,比如發(fā)送朋友請求,F(xiàn)acebook 的系統(tǒng)會(huì)自動(dòng)判斷一下:如果這個(gè)人的朋友請求都被別人拒絕了,他再發(fā)送朋友請求是不會(huì)被批準(zhǔn)的。如果一個(gè)人發(fā)送的朋友請求十個(gè)有九個(gè)都被拒絕了,那么他下一次的朋友請求就會(huì)被系統(tǒng)拒絕。
當(dāng)然這個(gè)系統(tǒng)還有其他的判斷信號(hào)。
它是一個(gè)機(jī)器學(xué)習(xí)系統(tǒng),通過你之前發(fā)的朋友請求拒絕概率高低來判斷你被拒絕的概率有多高。
如果這個(gè)比率很高,F(xiàn)acebook 會(huì)讓你進(jìn)行手機(jī)短信或其他方式認(rèn)證,來驗(yàn)證是軟件還是真人發(fā)送的,以此判斷你是不是真的要發(fā)送朋友請求,比如你發(fā)出的朋友請求對象與你沒有任何共同好友,那就可能是一個(gè)不合理的請求。
基本上,你在 Facebook 上做的任何事情,都會(huì)經(jīng)過這個(gè)系統(tǒng)來分析、預(yù)測、決定是否允許你發(fā)出信息,借此希望會(huì)減少生態(tài)圈中的騷擾行為。當(dāng)時(shí) Facebook 每天有上百億次的信息發(fā)生要通過這個(gè)系統(tǒng)進(jìn)行判斷。
機(jī)器學(xué)習(xí)是Sigma 系統(tǒng)的核心
Sigma 系統(tǒng)中有些是人為規(guī)則也有機(jī)器算法,請求通過和拒絕就是一個(gè)迅捷數(shù)據(jù)組(Scrum)。任務(wù)通過,則說明這個(gè)任務(wù)是一個(gè)對機(jī)器學(xué)習(xí)來說的正樣本,被拒絕則是一個(gè)負(fù)樣本,很像 0 和 1。
比如發(fā)送朋友請求如果被接受,y 值是 1,如果被拒絕就是 0。如果是評論和點(diǎn)贊,系統(tǒng)就能尋找 y 值,用戶發(fā)送的不當(dāng)信息就會(huì)被刪除。
而機(jī)器學(xué)習(xí)是整個(gè) Sigma 系統(tǒng)的核心。
另外一個(gè)方法是通過一些異常行為的分析、數(shù)據(jù)挖掘的方法來分析用戶的異常行為。
比如一個(gè)人發(fā)的同樣類型評論非常多,所有評論里都有一個(gè)相似鏈接,這就非常有問題。正常操作不會(huì)在不同人的主頁上留同樣的評論,這顯然屬于異常行為,我們不會(huì)允許。