2013年6月,谷歌公布了一項(xiàng)重要研究成果 – 電影票房預(yù)測(cè)模型。該模型能夠提前一個(gè)月預(yù)測(cè)電影上映首周的票房收入,準(zhǔn)確度高達(dá)94%。這在業(yè)內(nèi)引起了強(qiáng)烈討論,不少內(nèi)人士認(rèn)為該模型非常適合好萊塢電影公司通過(guò)預(yù)測(cè)票房來(lái)及時(shí)調(diào)整電影營(yíng)銷戰(zhàn)略,但同時(shí)也有吐槽者暗示谷歌的票房預(yù)測(cè)模型別有用心,旨在鼓動(dòng)電影公司購(gòu)買(mǎi)其搜索引擎廣告。那么,孰是孰非,谷歌票房預(yù)測(cè)模型以及大數(shù)據(jù)在電影行業(yè)的應(yīng)用是噓頭,還是大有來(lái)頭,讓我們來(lái)一探究竟。
谷歌票房預(yù)測(cè)模型的基礎(chǔ):電影相關(guān)的搜索量與票房收入的關(guān)聯(lián)
谷歌的票房預(yù)測(cè)模型是大數(shù)據(jù)分析技術(shù)在電影行業(yè)的一個(gè)重要應(yīng)用。隨著互聯(lián)網(wǎng)的發(fā)展,人們?cè)絹?lái)越習(xí)慣于在網(wǎng)上搜索電影信息。據(jù)谷歌統(tǒng)計(jì),從2011到2012年,電影相關(guān)的搜索量增長(zhǎng)了56%.谷歌發(fā)現(xiàn),電影相關(guān)的搜索量與票房收入之間存在很強(qiáng)的關(guān)聯(lián)。
圖1顯示了2012年電影票房收入(紅色)和電影的搜索量(灰色)的曲線(注:本文的所有圖片均引用自谷歌的白皮書(shū):Quantifying Movie Magic with Google Search)??梢钥吹剑瑑蓷l曲線的起伏變化有著很強(qiáng)的相似性。
(紅色是票房收入,灰色是搜索量,橫軸是月份,縱軸是數(shù)量)
更進(jìn)一步地,谷歌把電影的搜索分成了兩類:
I. 涉及電影名的搜索(Movie Title Search);
II. 不涉及電影名的搜索(Non-Title Film-Related Search)。這類搜索不包含具體的名字,而是一些更寬泛的關(guān)鍵詞搜索,如“熱門(mén)電影”、“愛(ài)情片”、“好萊塢電影”等。
圖2顯示了票房收入與這兩類搜索量之間的關(guān)系。從圖上可以看到,大部分情況下,第I類搜索量超過(guò)第II類搜索量。但在電影淡季的時(shí)候(圖中灰色橢圓區(qū)域,這時(shí)候票房收入較低),第I類搜索量會(huì)低于第II類搜索量。這符合常理,因?yàn)樵诘镜臅r(shí)候知名度高的電影很少,人們往往用更寬泛的搜索來(lái)尋找想看的電影。
圖2. 2012年票房收入和兩類搜索量的曲線
(紅色代表票房收入,藍(lán)色代表第I搜索,灰色代表第II類搜索,橫軸是月份,縱軸是數(shù)量)
這一發(fā)現(xiàn)對(duì)電影的網(wǎng)絡(luò)營(yíng)銷來(lái)說(shuō)有一定的指導(dǎo)意義:在淡季的時(shí)候,電影公司可多購(gòu)買(mǎi)相對(duì)寬泛的關(guān)鍵詞的廣告,而在旺季的時(shí)候,多購(gòu)買(mǎi)涉及電影名的、更具體的關(guān)鍵詞的廣告。
「提前一周預(yù)測(cè)票房,可達(dá)到92%的準(zhǔn)確度」
上面的討論表明用電影的搜索量來(lái)預(yù)測(cè)票房是有可能的。那么,如果單純使用搜索量來(lái)預(yù)測(cè)首周票房收入,效果怎么樣?通過(guò)對(duì)2012年上映的99部電影的研究,谷歌發(fā)現(xiàn)僅依靠搜索量來(lái)預(yù)測(cè)是不夠的。谷歌嘗試構(gòu)建了一個(gè)線性的模型,但只達(dá)到了70%的準(zhǔn)確度(如圖3)。
圖3. 搜索量與首周票房收入之間的關(guān)系
(橫軸是搜索量,縱軸是首周票房收入,灰色點(diǎn)對(duì)應(yīng)某部電影的搜索量與首周票房收入)
為了構(gòu)建更加精確的預(yù)測(cè)模型,谷歌最終采用了四類指標(biāo):
(1)(電影放映前一周的)電影的搜索量
(2)(電影放映前一周的)電影廣告的點(diǎn)擊量
(3)上映影院數(shù)量
(4)同系列電影前幾部的票房表現(xiàn)
其中每類指標(biāo)又包含了多項(xiàng)類內(nèi)指標(biāo)。
在獲取到每部電影的這些指標(biāo)后,谷歌構(gòu)建了一個(gè)線性回歸模型(linear regression model)模型,來(lái)建立這些指標(biāo)和票房收入的關(guān)系。線性回歸模型,在大數(shù)據(jù)分析領(lǐng)域里算是最基本的模型之一,它認(rèn)為票房收入與這些指標(biāo)之間是簡(jiǎn)單的線性關(guān)系。
圖4展示了模型的效果,其中灰色點(diǎn)代表了實(shí)際的票房收入,紅色點(diǎn)代表了預(yù)測(cè)的票房收入??梢钥吹剑A(yù)測(cè)的結(jié)果與實(shí)際的結(jié)果差異很小。