圖4. 提前一周預(yù)測票房的效果
(橫軸是搜索量,縱軸是首周票房收入,灰色點(diǎn)對應(yīng)某部電影的首周票房收入,紅色點(diǎn)對應(yīng)預(yù)測的首周票房收入)
「提前一個(gè)月預(yù)測票房,可達(dá)到94%的準(zhǔn)確度」
盡管提前一周預(yù)測可以達(dá)到92%的準(zhǔn)確度,對于電影的營銷來說,價(jià)值并不大,因?yàn)橐恢艿臅r(shí)間往往很難調(diào)整營銷策略,改善營銷效果。因此,谷歌又進(jìn)一步研究,使得模型可以提前一個(gè)月預(yù)測首周票房。
實(shí)現(xiàn)提前一個(gè)月預(yù)測的關(guān)鍵在于:谷歌采用了一項(xiàng)新的指標(biāo) – 電影預(yù)告片的搜索量。谷歌發(fā)現(xiàn),預(yù)告片的搜索量比起電影的直接搜索量而言,可以更好的預(yù)測首周票房表現(xiàn)。這一點(diǎn)不難理解,因?yàn)樵陔娪胺庞城耙粋€(gè)月的時(shí)候,人們往往更多地搜索預(yù)告片。
僅使用預(yù)告片的搜索量仍然不夠,因此谷歌的模型最終采用了三類指標(biāo):
(1)電影預(yù)告片的搜索量
(2)同系列電影前幾部的票房表現(xiàn)
(3)檔期的季節(jié)性特征
其中每類指標(biāo)又包含了多項(xiàng)類內(nèi)指標(biāo)。
在獲取到每部電影的這些指標(biāo)后,谷歌再次構(gòu)建了一個(gè)線性回歸模型(linear regression model)模型,來建立這些指標(biāo)和票房收入的關(guān)系。
圖5展示了模型的效果,其中灰色點(diǎn)代表了實(shí)際的票房收入,紅色點(diǎn)代表了預(yù)測的票房收入??梢钥吹剑A(yù)測結(jié)果與實(shí)際結(jié)果非常接近。
圖5 提前一個(gè)月預(yù)測票房的效果
(橫軸是預(yù)告片搜索量,縱軸是首周票房收入,灰色點(diǎn)對應(yīng)實(shí)際某部電影的首周票房收入,紅色點(diǎn)對應(yīng)預(yù)測的首周票房收入)
為什么谷歌采用了這么簡單的模型
前面的分析中已經(jīng)提到,谷歌采用的是數(shù)據(jù)分析中最簡單的模型之一-線性回歸模型。這對很多讀者來說多少有點(diǎn)意外。為什么谷歌用的模型如此簡單?
首先,線性模型雖然簡單,但已經(jīng)達(dá)到了很高的準(zhǔn)確度(94%)。簡單且效果好,是我們在實(shí)際應(yīng)用中一直追求的。
其次,簡單的模型易于被人們理解和分析。大數(shù)據(jù)分析技術(shù)的優(yōu)勢正是能夠從大量數(shù)據(jù)中挖掘出人們可以理解的規(guī)律,從而加深對行業(yè)的理解。正是因?yàn)楣雀枋褂昧司€性預(yù)測模型,所以它很容易對各項(xiàng)指標(biāo)的影響做出分析。例如谷歌的報(bào)告中給出了這樣的分析結(jié)論:“距離電影上映一周的時(shí)候,如果一部影片比同類影片多獲得25萬搜索量,那么該片的首周票房就很可能比同類影片高出430萬美元。若一部電影有搜索引擎廣告,我們也可以通過其廣告的點(diǎn)擊量來推測票房表現(xiàn)——如果點(diǎn)擊量超出同類電影2萬,那該片首周票房將領(lǐng)先750萬美元”。
對于電影的營銷來說,掌握各項(xiàng)指標(biāo)對票房收入的影響,可以優(yōu)化營銷策略,降低營銷成本。谷歌的報(bào)告中指出,用戶一般會通過多達(dá)13個(gè)渠道來了解電影的信息。票房預(yù)測模型的出現(xiàn)無疑使得營銷策略的制定更加有效。
大數(shù)據(jù)分析在電影行業(yè)的應(yīng)用前景:把模糊的行業(yè)經(jīng)驗(yàn)變得更科學(xué),更精準(zhǔn)
票房預(yù)測模型的公布,讓業(yè)內(nèi)人士再次見證了大數(shù)據(jù)的成功應(yīng)用。近年來,大數(shù)據(jù)在電影行業(yè)的應(yīng)用越來越引起關(guān)注,比如此前谷歌利用搜索數(shù)據(jù)預(yù)測了奧斯卡獲獎?wù)撸琋eflix通過大數(shù)據(jù)分析深度挖掘了用戶的喜好,捧紅了《紙牌屋》等。但大數(shù)據(jù)對電影行業(yè)的價(jià)值到底如何,仍然眾說紛紜。夢工廠CEO卡森伯格最近接受騰訊財(cái)經(jīng)專訪時(shí)發(fā)表了一個(gè)似乎悲觀的態(tài)度:電影創(chuàng)作靠創(chuàng)造力,不靠數(shù)據(jù)分析。
要理解大數(shù)據(jù)對電影行業(yè)的影響,首先需要對大數(shù)據(jù)分析有正確的認(rèn)識。大數(shù)據(jù)分析的本質(zhì),在于通過數(shù)據(jù),更精準(zhǔn)地挖掘用戶的需求。而誰能掌握用戶的需求,誰就可以引領(lǐng)行業(yè)的發(fā)展。谷歌的票房預(yù)測模型,本質(zhì)上也是通過搜索量,挖掘出用戶對電影的需求有多大,進(jìn)而預(yù)測出票房收入。值得注意的是,谷歌的模型基于的只是宏觀的搜索量的統(tǒng)計(jì),對用戶需求的挖掘相對表面。如何從搜索數(shù)據(jù)中更深地挖掘用戶的需求將是未來的趨勢之一。
既然大數(shù)據(jù)分析的核心是挖掘用戶需求,所以一大核心問題是:哪些用戶的需求是可以從數(shù)據(jù)中挖掘到的?要知道,并不是任何需求都可以被挖掘到,或者說可以被精準(zhǔn)地挖掘到。能夠通過大數(shù)據(jù)分析挖掘到的需求,一般是符合行業(yè)經(jīng)驗(yàn)的,應(yīng)當(dāng)是業(yè)內(nèi)人士覺得可以被挖掘的(有時(shí)候,挖掘出的需求可能會超出行業(yè)經(jīng)驗(yàn),甚至產(chǎn)生顛覆性的影響)。谷歌的預(yù)測模型的基本假設(shè),是符合行業(yè)直覺的,即電影的搜索量越大,往往票房收入越大。模型能夠提前一個(gè)月預(yù)測票房,也符合行業(yè)經(jīng)驗(yàn),正如谷歌的一項(xiàng)行業(yè)調(diào)研揭示的:大多數(shù)觀眾會在電影首映4周前去了解電影。數(shù)據(jù)分析技術(shù),是把這種模糊的行業(yè)經(jīng)驗(yàn),變得更科學(xué),變得更精準(zhǔn)。而這一過程,很可能會深層次地改變電影行業(yè)。