對(duì)于一個(gè)初級(jí)的興趣Feed,沒必要做到在線實(shí)時(shí)更新排序算法的參數(shù),所以數(shù)據(jù)的pipeline可以借鑒Pinterest。例如,選用邏輯回歸預(yù)測互動(dòng)行為排序Feed,離線階段關(guān)注模型的AUC是否有提升。
另外,互動(dòng)數(shù)據(jù)相比全部曝光數(shù)據(jù),數(shù)量會(huì)小得多,所以在生成訓(xùn)練數(shù)據(jù)時(shí)需要對(duì)負(fù)樣本(展示了卻沒有產(chǎn)生互動(dòng)的樣本)進(jìn)行采樣,采樣比例也是一個(gè)可以優(yōu)化的參數(shù),固定算法和特征后選擇效果最好的比例。
AB測試時(shí)關(guān)注具體的產(chǎn)品目標(biāo)是否有提升,比如互動(dòng)率等,同時(shí)還要根據(jù)產(chǎn)品具體形態(tài)關(guān)注一些輔助指標(biāo)。
興趣Feed的挑戰(zhàn)及應(yīng)對(duì)
興趣Feed是在互聯(lián)網(wǎng)深度發(fā)展之后的一種必然趨勢,很多Feed類產(chǎn)品都已經(jīng)在數(shù)據(jù)上驗(yàn)證了這一點(diǎn)。但是我們還是要清醒地認(rèn)識(shí)到:興趣Feed類產(chǎn)品雖然概念簡單,挑戰(zhàn)卻不少。
用戶習(xí)慣
時(shí)間排序的Feed非常自然,用戶很容易接受。而一旦用算法決定Feed的排列順序,用戶是否能夠接受,非常挑戰(zhàn)產(chǎn)品的設(shè)計(jì)能力。尤其是如果一開始是時(shí)間線Feed,要轉(zhuǎn)變成興趣Feed,這個(gè)切換相對(duì)于一開始就是興趣Feed,用戶習(xí)慣改變要更難一些。
面對(duì)這一挑戰(zhàn),我們需要考慮幾點(diǎn):
- 是不是真的需要興趣Feed?信息沒有過載是不需要興趣Feed的。是否信息過載,數(shù)據(jù)很容易驗(yàn)證:到底用戶錯(cuò)過的了多少內(nèi)容?
- 興趣Feed產(chǎn)品設(shè)計(jì)需要深入思考,雖然用算法為用戶過濾了他不感興趣的內(nèi)容,但是在UI/UE上需要淡化技術(shù)痕跡,呈現(xiàn)出更自然的瀏覽方式,比如說是不是可以考慮算法篩選后,展示上依然是時(shí)間序。
- 興趣Feed的算法效果提升要快。一開始興趣Feed排序效果不好很正常,只要在用戶失去耐心之前將其做到可用,風(fēng)險(xiǎn)就會(huì)小很多。
技術(shù)上的挑戰(zhàn)
在一個(gè)需要用算法排序的Feed類產(chǎn)品上,數(shù)據(jù)量級(jí)應(yīng)該不會(huì)小了,而且如果興趣Feed真的有效,那么數(shù)據(jù)量增加速度也會(huì)提升,所以相應(yīng)的技術(shù)挑戰(zhàn)會(huì)很快出現(xiàn)。
- Feed服務(wù)的高可用。要保證關(guān)鍵模塊故障時(shí)優(yōu)雅降級(jí),任何數(shù)據(jù)都有冗余,并且能夠熱切換。
- 大規(guī)模機(jī)器學(xué)習(xí)。高維稀疏的特征空間,超大的樣本量,這些都要求機(jī)器學(xué)習(xí)平臺(tái)能夠處理大規(guī)模學(xué)習(xí)問題,它一定是并行化的,也方便算法工程師快速進(jìn)行迭代。
- 在線實(shí)驗(yàn)系統(tǒng)。對(duì)在線流量進(jìn)行正交切分,盡量多地進(jìn)行不同實(shí)驗(yàn),而且同時(shí)進(jìn)行的實(shí)驗(yàn)之間互不影響,得到的實(shí)驗(yàn)結(jié)論科學(xué)有效。這一塊可以參考Google的在線實(shí)驗(yàn)系統(tǒng),國內(nèi)百度等大型互聯(lián)網(wǎng)公司也公開分享過它們的實(shí)驗(yàn)系統(tǒng)如何劃分流量。
算法的邊界
我們不得不承認(rèn),算法是有邊界的。只不過很多產(chǎn)品距離邊界還很遠(yuǎn),還沒有充分把數(shù)據(jù)中蘊(yùn)含的價(jià)值挖掘出來。Facebook建立人肉評(píng)測小組,說明他們已經(jīng)非常重視利用人的創(chuàng)造力彌補(bǔ)算法的不足。
由于大多數(shù)人在大多數(shù)情況下是非理性的,感興趣的標(biāo)準(zhǔn)也會(huì)呈現(xiàn)不一致的情況,再加上社會(huì)群體心理的干擾,為個(gè)人尋找興趣內(nèi)容是一個(gè)非常復(fù)雜的課題。
另外,算法本身的引入,也給整個(gè)產(chǎn)品增加了復(fù)雜度,在算法干預(yù)下再測量用戶對(duì)內(nèi)容的感興趣程度,很類似量子理論中的“測不準(zhǔn)原理”。
面對(duì)算法接管我們的Feed內(nèi)容,我們既不能做出太多主觀決策,相信科學(xué)的算法一定能夠得到比純?nèi)肆χ饔^指定的規(guī)則更好的結(jié)果,但是也不能偷懶,需要從數(shù)據(jù)中得到啟示,用我們上帝般的視角巡視整個(gè)局面,幫助算法表現(xiàn)得更好。