個(gè)性化推薦經(jīng)常被人誤解為細(xì)分市場(chǎng)和精準(zhǔn)營(yíng)銷這兩個(gè)概念。雖然它們之間有一些聯(lián)系,但實(shí)質(zhì)上卻相差甚遠(yuǎn)。本文不僅清楚地講述了個(gè)性化推薦技術(shù),更列出了其所面臨的十大挑戰(zhàn)。
很多人都知道個(gè)性化推薦,卻有不少認(rèn)識(shí)上的誤區(qū)。有的人認(rèn)為個(gè)性化推薦就是細(xì)分市場(chǎng)和精準(zhǔn)營(yíng)銷,但實(shí)際上細(xì)分市場(chǎng)和精準(zhǔn)營(yíng)銷往往是把潛在的用戶分成 很多群體,這與基于全體的統(tǒng)計(jì)相比固然有了長(zhǎng)足的進(jìn)步,但距離“為每一個(gè)用戶量身定做的信息服務(wù)”還有很大的差距,只有做個(gè)性化才能實(shí)現(xiàn)亞馬遜CEO Jeff Bezos的夢(mèng)想“如果我有100萬(wàn)個(gè)用戶,我就為他們做100萬(wàn)個(gè)亞馬遜網(wǎng)站”。
所以,市場(chǎng)細(xì)分只是初級(jí)階段,而個(gè)性化推薦則是市場(chǎng)細(xì)分的極致。還有人 認(rèn)為個(gè)性化推薦等同于協(xié)同過(guò)濾,這可能是因?yàn)閰f(xié)同過(guò)濾出現(xiàn)得比較早并且比較容易被大眾理解,但實(shí)際上協(xié)同過(guò)濾只不過(guò)是眾多個(gè)性化推薦技術(shù)中的一個(gè)早期成 員,遠(yuǎn)不能代表個(gè)性化推薦技術(shù)。
隨著個(gè)性化的商業(yè)應(yīng)用延展到用戶生活信息流的方方面面,個(gè)性化推薦技術(shù)也在日新月異不斷發(fā)展,類似于協(xié)同過(guò) 濾這樣的早期技術(shù)已經(jīng)不能滿足新環(huán)境下的要求,無(wú)法解決新出現(xiàn)的問(wèn)題。令人興奮的是,過(guò)去十年中,我們見(jiàn)證了無(wú)數(shù)頂尖級(jí)專家與學(xué)者投身于推薦方法與技術(shù)的 創(chuàng)新中。今天,還些人認(rèn)為個(gè)性化推薦技術(shù)的研究已經(jīng)進(jìn)入了很成熟階段,沒(méi)有什么特別激動(dòng)人心的問(wèn)題和成果。事實(shí)卻恰恰相反,現(xiàn)在個(gè)性化推薦技術(shù)面臨很大的 挑戰(zhàn),我們之前只看到了個(gè)性化推薦技術(shù)難題這座冰山所露出的一角。
本文將列出個(gè)性化推薦技術(shù)所面臨的十個(gè)挑戰(zhàn)(僅代表個(gè)人觀點(diǎn)),其中有一些是很多年前就認(rèn)識(shí)到但一直沒(méi)有得到解決的長(zhǎng)期問(wèn)題。事實(shí)上,有些挑戰(zhàn)是不可能完全解決的,只能提出改良方案,還有一些是在最近研究中提出來(lái)的焦點(diǎn)問(wèn)題。
數(shù)據(jù)稀疏性問(wèn)題
現(xiàn)在推薦系統(tǒng)規(guī)模越來(lái)越大,用戶和商品(包括音樂(lè)、網(wǎng)頁(yè)、文獻(xiàn)等 物品)數(shù)目動(dòng)輒百千萬(wàn)計(jì),而且用戶之間選擇的重疊非常少。如果以用戶和商品之間已有的選擇關(guān)系占所有可能存在的選擇關(guān)系的比例來(lái)衡量系統(tǒng)的稀疏性,那么我 們平時(shí)研究最多的MovieLens數(shù)據(jù)集的稀疏度是4.5%,Netflix是1.2%,Bibsonomy是0.35%,Delicious是 0.046%,這些其實(shí)是非常密的數(shù)據(jù)。
想想淘寶上號(hào)稱有8億商品,平均而言一個(gè)用戶能瀏覽800件嗎?估計(jì)不能,因此稀疏度應(yīng)該在百萬(wàn)分 之一或以下的量級(jí)。數(shù)據(jù)非常稀疏,使得絕大部分基于關(guān)聯(lián)分析的算法(如協(xié)同過(guò)濾)效果都不好。本質(zhì)上,這個(gè)問(wèn)題是無(wú)法完全克服的。解決這個(gè)問(wèn)題的辦法很 多,例如可以通過(guò)擴(kuò)散的算法,從原來(lái)的一階關(guān)聯(lián)(兩個(gè)用戶有多少相似打分或者共同購(gòu)買的商品)到二階甚至更高階的關(guān)聯(lián)(假設(shè)關(guān)聯(lián)性或者說(shuō)相似性本身是可以 傳播的),也可以添加一些默認(rèn)的打分,從而提高相似性的分辨率。一般而言,數(shù)據(jù)規(guī)模越大就越稀疏?,F(xiàn)在認(rèn)為能夠處理稀疏數(shù)據(jù)的算法(如擴(kuò)散、迭代尋優(yōu)、轉(zhuǎn) 移相似性等)更有價(jià)值。
冷啟動(dòng)問(wèn)題
因?yàn)樾掠脩艉庇锌梢岳玫男袨樾畔?,所以很難給出精確的推薦。反過(guò)來(lái),由于新商品被選擇次數(shù)很少,也難以找到合適的辦法推薦給用戶。一種辦法是利用文本信息進(jìn)行輔助推薦,或者通過(guò)注冊(cè)和詢問(wèn)得知一些用戶的屬性信息,比如年齡、居住城市、受教育程度、性別和職業(yè)等。
最 近廣泛應(yīng)用的標(biāo)簽系統(tǒng)提供了解決冷啟動(dòng)問(wèn)題的可能方案,因?yàn)闃?biāo)簽既可以看作是商品內(nèi)容的萃取,同時(shí)也反映了用戶的個(gè)性化喜好。以《桃姐》這部電影為例,有 的人打的標(biāo)簽是“倫理”,有的人打的標(biāo)簽是“劉德華”,兩個(gè)人看的電影一樣,但興趣點(diǎn)可能不盡相同。當(dāng)然,利用標(biāo)簽也只能是提高有少量行為的用戶的推薦準(zhǔn) 確性,對(duì)于純粹的冷啟動(dòng)用戶,沒(méi)有任何幫助,因?yàn)檫@些人還沒(méi)有打過(guò)任何標(biāo)簽。
有趣的是,最近的研究顯示,新用戶更容易選擇特別流行的商品。無(wú)論如何,這都是一個(gè)好消息,說(shuō)明使用熱銷榜也能獲得不錯(cuò)的結(jié)果。冷啟動(dòng)問(wèn)題還可以通過(guò)多維數(shù)據(jù)的交叉推薦部分解決,其精確度和多樣性又遠(yuǎn)勝于熱銷榜,這一點(diǎn)后面會(huì)進(jìn)一步介紹。
大數(shù)據(jù)處理與增量計(jì)算問(wèn)題
因 為數(shù)據(jù)很稀疏,大部分?jǐn)?shù)據(jù)都擁有百千萬(wàn)計(jì)的用戶和商品,所以如何快速高效地處理這些數(shù)據(jù)成為迫在眉睫的問(wèn)題。而算法時(shí)間和空間上的復(fù)雜性,尤其是前者,得 到了空前重視。一個(gè)高效的算法,要么復(fù)雜性很低,要么能夠很好地并行化,要么兩者兼具。局部擴(kuò)散算法在這兩個(gè)方面都具有明顯優(yōu)勢(shì)。
另一種解 決方法是設(shè)計(jì)增量算法。也就是說(shuō),當(dāng)產(chǎn)生新用戶、新商品和新的連接關(guān)系時(shí),算法的結(jié)果不需要在整個(gè)數(shù)據(jù)集上重新進(jìn)行計(jì)算,而只需考慮所增加節(jié)點(diǎn)和連邊局部 的信息,對(duì)原有的結(jié)果進(jìn)行微擾,快速得到新結(jié)果。一般而言,隨著加入的信息量的增多,這種算法的誤差會(huì)積累變大,最終每過(guò)一段時(shí)間還是需要利用全局?jǐn)?shù)據(jù)重 新進(jìn)行計(jì)算。
一個(gè)特別困難的挑戰(zhàn)是如何設(shè)計(jì)一種能夠保證其誤差不會(huì)累積的算法,也就是說(shuō)其結(jié)果與利用全部數(shù)據(jù)重新計(jì)算的結(jié)果之間的差異不會(huì)單調(diào)上升。我們把這種算法叫做自適應(yīng)算法,它是增量算法的一個(gè)加強(qiáng)版本,其設(shè)計(jì)要求和難度更高。
現(xiàn)在業(yè)界已經(jīng)在應(yīng)用增量算法。例如,百分點(diǎn)科技推薦引擎中的若干算法都采用了增量技術(shù),使得用戶每次瀏覽收藏或者購(gòu)買商品后其推薦列表立刻得到更新。當(dāng)然,只是該引擎的部分算法實(shí)現(xiàn)了增量技術(shù),沒(méi)有達(dá)到所有算法都能夠自適應(yīng)學(xué)習(xí)的程度,還有很長(zhǎng)的路要走。