本文由百分點信息無線業(yè)務部高級總監(jiān)李曉東、Talking Data COO徐懿以及成都電子科大的龔亮聯(lián)合撰寫。
通過手機閱讀、手機音樂上的用戶行為,我們可以看到手機大數(shù)據(jù)在移動互聯(lián)網(wǎng)應用上的威力,但同時,手機上的大數(shù)據(jù)也不是萬能的,它的發(fā)展還面臨著很多實際的問題和挑戰(zhàn)。
數(shù)據(jù)的稀疏性
智能手機端的App應用數(shù)以十萬計,但是每個應用中兩個用戶之間選擇的重疊非常少,如果用用戶和商品之間已有的選擇關(guān)系占所有可能存在的選擇關(guān)系的比例來衡量系統(tǒng)的稀疏性,在我們研究的幾個App數(shù)據(jù)中,稀疏度均不超過4%,其實這些其實都是非常密的數(shù)據(jù)。想想一個具有千萬級用戶,百萬級歌手的App,平均而言一個用戶能聽100首歌嗎,估計不能,所以稀疏度應該在萬分之一或以下的量級。
這個問題本質(zhì)上是無法完全克服的,但是有很多辦法,可以在相當程度上緩解這個問題。比如擴散方法、隨機缺省值方法、隨機選擇等.
冷啟動問題
在我們前面討論的音樂APP中,我們發(fā)現(xiàn)歌曲的覆蓋只有2%左右,這個是由于大量歌曲出于冷啟動狀態(tài)造成的。這是因為新商品由于被選擇次數(shù)很少或沒有,難以找到合適的辦法推薦給用戶結(jié)論。
最近一個有趣的研究顯示,新用戶更容易選擇特別流行的商品—這無論如何是一個好消息,說明使用熱歌榜也能獲得不錯的結(jié)果。
大數(shù)據(jù)處理與增量計算問題
盡管數(shù)據(jù)很稀疏,大部分數(shù)據(jù)都包含百千萬計的用戶,與此同時新用戶不停進入系統(tǒng)。數(shù)據(jù)量不僅大,而且數(shù)據(jù)本身還時時動態(tài)變化,如何快速高效處理這些數(shù)據(jù)成為迫在眉睫的問題。在這個大前提下,算法時間和空間的復雜性,尤其是前者,獲得了空前重視。一般而言,一個高效的算法,要么自身復雜性很低,要么能夠很好并行化,要么兩者兼具。
隨著加入的信息量的增多,最終每過一段時間還是需要利用全局數(shù)據(jù)重新進行計算。更先進但也更苦難的辦法,是設計出一種算法,能夠保證其誤差不會累積,也就是說其結(jié)果與利用全部數(shù)據(jù)重新計算的結(jié)果之間的差異不會單調(diào)上升。
用戶行為模式的挖掘和利用
深入挖掘用戶的行為模式能更準確的抓住用戶喜好,從而有希望做出更好的用戶體驗。譬如說在音樂APP中,新用戶和老用戶具有很不一樣的選擇模式:一般而言,新用戶傾向于選擇熱門的歌曲,而老用戶對歌曲的多樣性關(guān)注更多。
用戶行為的時空統(tǒng)計特性也可以用于提高者設計針對特定場景的應用。舉個例子,在進行手機個性化閱讀推薦的時候,如果曾經(jīng)的數(shù)據(jù)顯示某個用戶只在7點到8點之間有一個小時左右的手機閱讀行為(可能是上班時在地鐵或者公交車上),那么9點鐘發(fā)送一個電子書閱讀的短信廣告就是很不明智的選擇。從含時數(shù)據(jù)中還可以分析出影響用戶選擇的長期和短期的興趣,通過將這兩種效應分離出來,可以明顯提高推薦的精確度。