說(shuō)起互聯(lián)網(wǎng)、電商的數(shù)據(jù)分析,更多的是談應(yīng)用案例,如何去實(shí)踐數(shù)據(jù)化管理運(yùn)營(yíng)。而這里,我們要從技術(shù)角度分享關(guān)于數(shù)據(jù)的技術(shù)架構(gòu)干貨,如何應(yīng)用BI。
原文是云猴網(wǎng)BI總經(jīng)理王衛(wèi)東在帆軟大數(shù)據(jù)上的演講,以下為整理的文字稿:
在電商領(lǐng)域,我們一般認(rèn)為所有的數(shù)據(jù)都可以分為四大類(lèi)型,流量、銷(xiāo)量、商品和會(huì)員,這也是最基礎(chǔ)的報(bào)表需求。
流量部分,可以分為受訪、點(diǎn)擊、搜索、來(lái)源等等。這些流量信息運(yùn)用的重點(diǎn)在于一些廣告包括一些產(chǎn)品的改版以及搜索引擎的相關(guān)信息展示。雖然這方面百度、GA可以給你提供這方面的信息,但未必能完成一個(gè)企業(yè)的所有需求。
銷(xiāo)量部分,會(huì)分為銷(xiāo)售、補(bǔ)貼、渠道、支付、地域等等。但對(duì)于這些信息,領(lǐng)導(dǎo)更關(guān)注流量有多少,銷(xiāo)量有多少,然后投入是多少,哪個(gè)渠道帶來(lái)的銷(xiāo)量是最多的,轉(zhuǎn)化率是最高的,目標(biāo)客戶(hù)重點(diǎn)在什么區(qū)域。但是對(duì)于我們的實(shí)際運(yùn)營(yíng),我們還要繼續(xù)往下細(xì)鉆,需要對(duì)商品和會(huì)員的信息挖掘得更加細(xì)致。
商品部分,會(huì)涉及到的品類(lèi)、庫(kù)存、毛利、動(dòng)銷(xiāo)和轉(zhuǎn)化,一般電商商品的品類(lèi)大多會(huì)分為三級(jí),但也會(huì)往下細(xì)分到四級(jí),他需要細(xì)化到每個(gè)品類(lèi)的轉(zhuǎn)化率,哪個(gè)更高?以及在每一個(gè)品類(lèi)里面哪一個(gè)商品的動(dòng)銷(xiāo)率最高,哪種的商品的轉(zhuǎn)化率是最高,因?yàn)槟阈枰獙?shí)時(shí)調(diào)整和改變。對(duì)于會(huì)員來(lái)講,還要了解其注冊(cè)情況、復(fù)購(gòu)情況、活躍度以及喜好和流失等等。所有的這些就構(gòu)成了我們的常規(guī)基礎(chǔ)報(bào)表。
關(guān)于BI,包含3個(gè)階段。第一階段是常規(guī)的報(bào)表階段,第二階段是數(shù)據(jù)分析,這里的數(shù)據(jù)分析并不是現(xiàn)有數(shù)據(jù)的陳述,那是歷史數(shù)據(jù)沒(méi)有太大意義,不能幫助預(yù)測(cè)。而數(shù)據(jù)的價(jià)值恰恰在于預(yù)測(cè)而不是陳述,所以這些信息我們會(huì)用來(lái)風(fēng)控。
在電商領(lǐng)域會(huì)有這樣幾個(gè)風(fēng)控需求,流量異常,轉(zhuǎn)化異常和訂單異常。那這樣的風(fēng)控是怎么做的呢?比如流量異常,加入我們?cè)O(shè)定的日常流量是30萬(wàn)的PV,某天突然間小于30萬(wàn)了,那就可以設(shè)一個(gè)閾值說(shuō)我的流量小于30萬(wàn)了,這個(gè)稱(chēng)之為預(yù)警。
然后講一下統(tǒng)計(jì)學(xué)上的一些操作。第一種稱(chēng)之為UCL,在統(tǒng)計(jì)學(xué)里面稱(chēng)之為質(zhì)量控制圖。在這個(gè)圖里,所有的流量都含有一定的趨勢(shì),可以去判斷一個(gè)數(shù)據(jù)的出錯(cuò),與歷史信息產(chǎn)生的異常。一般來(lái)講,產(chǎn)生的絕大多數(shù)數(shù)據(jù)會(huì)滿(mǎn)足質(zhì)量分布,98%的數(shù)據(jù)所處的范圍區(qū)間會(huì)在均值加上兩倍標(biāo)準(zhǔn)差的概率之內(nèi)。為什么要做這樣一個(gè)模型呢?以前我們沒(méi)有運(yùn)用這個(gè)模型之前,運(yùn)營(yíng)部門(mén)經(jīng)常會(huì)跟老板報(bào)告這一天流量、銷(xiāo)量是多少,當(dāng)問(wèn)及為什么下降的時(shí)候無(wú)從解釋?zhuān)瑪?shù)據(jù)是否超出了可控范圍無(wú)從知曉。有了這樣一個(gè)模型就很好解決了。
風(fēng)控之后還有其他需求比如用戶(hù)畫(huà)像-推薦。用戶(hù)畫(huà)像是基本投放的前提條件,只有先做用戶(hù)畫(huà)像才能有推薦系統(tǒng)。推薦系統(tǒng)之外還有一個(gè)底價(jià)系統(tǒng),底價(jià)系統(tǒng)是用來(lái)監(jiān)控對(duì)方的價(jià)格數(shù)據(jù)以及提取商品賣(mài)點(diǎn)。
所有這些之后,如果要建設(shè)一個(gè)BI系統(tǒng),該如何選型呢?免費(fèi)?收費(fèi)?還是自建?這里舉一些實(shí)際例子,做個(gè)對(duì)比。
免費(fèi)統(tǒng)計(jì)
比如免費(fèi)的流量統(tǒng)計(jì),百度、GA都是免費(fèi)的統(tǒng)計(jì)工具,接入很快,埋入代碼就行,但是無(wú)法聯(lián)通H5,APP,數(shù)據(jù)也不能連入數(shù)據(jù)庫(kù)。其次,免費(fèi)的工具無(wú)法解決銷(xiāo)量會(huì)員商品數(shù)據(jù)問(wèn)題,處于企業(yè)自身數(shù)據(jù)安全的問(wèn)題,包括企業(yè)的BI系統(tǒng),外網(wǎng)是無(wú)法訪問(wèn)的。
其次,廣告渠道的數(shù)據(jù)不準(zhǔn)確,他的統(tǒng)計(jì)一定虛高,所以這一塊需要第三方的參照。而且每家計(jì)算標(biāo)準(zhǔn)不一,數(shù)據(jù)差異大。
收費(fèi)平臺(tái)
收費(fèi)平臺(tái)介入快,成本相對(duì)較低,但數(shù)據(jù)的私密性較差,多數(shù)據(jù)源的聚合有難度,每一個(gè)端口的唯一識(shí)別問(wèn)題很難去定義。自定義程度也不高,因?yàn)樗亲鐾ㄓ没?,行業(yè)細(xì)化不夠,溝通成本較高。
自建平臺(tái)
最大的有點(diǎn)在于自定義程度高,數(shù)據(jù)更為精細(xì),可以為多數(shù)據(jù)的聚合和鉆取,但缺點(diǎn)就在于建設(shè)周期長(zhǎng),人才很難找。
選型建議
這也是我們?yōu)槭裁凑曳涍@個(gè)企業(yè)來(lái)做第三方的工具,因?yàn)橄嚓P(guān)人員的成本很高,所以這方面工具的選型建議找專(zhuān)業(yè)的來(lái)做。避免被業(yè)務(wù)人員的需求帶著跑,而是利用工具去引導(dǎo)。
其次,我們一直認(rèn)為數(shù)據(jù)的實(shí)時(shí)性和準(zhǔn)確性很重要,用于風(fēng)控和預(yù)測(cè),而帆軟報(bào)表FineReport的自定義程度可以讓非專(zhuān)業(yè)人員也能著手做。最后一點(diǎn),數(shù)據(jù)的可視化采用編程代價(jià)最小,這一點(diǎn)FineReport在數(shù)據(jù)可視化方面是很不錯(cuò)的。