數(shù)據(jù)分析團隊應該屬于獨立的部門,為所有的業(yè)務部門提供服務,具有獨立的技術團隊,可以搭建獨立的大數(shù)據(jù)計算和分析平臺,利用最新的數(shù)據(jù)處理技術來建立模型進行分析。另外數(shù)據(jù)分析團隊的人應來源于業(yè)務部門,具有高度的數(shù)據(jù)商業(yè)敏感度,可以將業(yè)務部門的需求分解為數(shù)據(jù)需求,將業(yè)務場景同數(shù)據(jù)場景以及數(shù)據(jù)分析相結合起來。
數(shù)據(jù)分析是一項實踐性很強的工作,涉及到很多交叉學科,需要不同的崗位和角色,來實現(xiàn)不同的性質的工作?;镜膷徫缓徒巧缦拢?/p>
1 數(shù)據(jù)庫(倉庫)管理員DBA
DBA最了解企業(yè)內部的數(shù)據(jù)和可用的數(shù)據(jù)資源,包括數(shù)據(jù)的存儲細節(jié)和數(shù)據(jù)字典,另外其對數(shù)據(jù)的采集、清洗和轉化起到關鍵作用。
DBA為數(shù)據(jù)科學家和數(shù)據(jù)分析師提供加工好的原始數(shù)據(jù),這些數(shù)據(jù)是數(shù)據(jù)分析和建模的基礎,DBA做了數(shù)據(jù)分析工作中最重要的基礎工作,完成了大量的臟活和累活。
2 業(yè)務專家
業(yè)務專家的優(yōu)勢是數(shù)據(jù)的商業(yè)敏感度,了解業(yè)務需求,可以將業(yè)務需求轉化為數(shù)據(jù)需求,進一步找到數(shù)據(jù)應用場景。另外業(yè)務專家也可以通過對數(shù)據(jù)的分析,找到新的商業(yè)機會,同業(yè)務部門一起制定商業(yè)計劃,利用數(shù)據(jù)分析推動業(yè)務增長。
業(yè)務專家的經(jīng)驗對于數(shù)據(jù)分析和建模是非常關鍵的,他們可能是風險管理人員、欺詐監(jiān)測專家、投資專家等。數(shù)據(jù)建模來源于業(yè)務經(jīng)驗和業(yè)務知識,正是業(yè)務專家的專業(yè)分析找到了業(yè)務規(guī)律,從而找到了建模方向,并對建模工作給出建議和解釋。
3 數(shù)據(jù)科學家
過去統(tǒng)計分析依賴于統(tǒng)計分析工具,大數(shù)據(jù)時代之后,數(shù)據(jù)量級的提升和數(shù)據(jù)類型的復雜程度,讓很多傳統(tǒng)的統(tǒng)計分析工具無法完成分析計算。這個時候,數(shù)據(jù)科學家出現(xiàn)了,他們可以利用自己的專業(yè)技能幫助業(yè)務專家和數(shù)據(jù)分析人員進行建模和計算。
過去數(shù)據(jù)統(tǒng)計分析建模常用SPSS,SAS,MATLAB等工具,現(xiàn)在基于大數(shù)據(jù)平臺的分析建??梢允褂肧park+Scala/Python/R/Java。數(shù)據(jù)科學家了解模型和算法,可以直接承擔建模和調優(yōu)工作,懂得選擇合適的算法來進行計算,提高效率。
4 數(shù)據(jù)分析師
數(shù)據(jù)分析師站在數(shù)據(jù)和商業(yè)的角度來解讀數(shù)據(jù),利用圖標和曲線等方式向管理層和業(yè)務人員展現(xiàn)分析結果,揭示數(shù)據(jù)分析產(chǎn)生的商業(yè)機會和挑戰(zhàn)。
數(shù)據(jù)分析師將雜亂的數(shù)據(jù)進行整理后,將數(shù)據(jù)以不同的形式展現(xiàn)給產(chǎn)品經(jīng)理、運營人員、營銷人員、財務人員、業(yè)務人員等。提出基于數(shù)據(jù)的結果和分析建議,完成數(shù)據(jù)從原始到商業(yè)化應用到關鍵一步,數(shù)據(jù)分析師的數(shù)據(jù)敏感度、商業(yè)敏感度、分析角度、表達方式對于商業(yè)決策很重要。
5 運營專家
數(shù)據(jù)分析結果和商業(yè)決策出來之后,運營專家負責實現(xiàn)商業(yè)決策。通過有計劃的運營活動,將數(shù)據(jù)分析的結果應用到實際的商業(yè)活動之中,運營專家是實現(xiàn)數(shù)據(jù)變現(xiàn)最后一公里的關鍵人物。
運營專家屬于業(yè)務人員,實際上參與業(yè)務運營活動,利用數(shù)據(jù)分析結果,實現(xiàn)業(yè)務場景和數(shù)據(jù)場景的結合,實現(xiàn)數(shù)據(jù)商業(yè)化應用。
二 數(shù)據(jù)分析之前的各項準備工作
數(shù)據(jù)分析團隊各成員確定之后,將進行下一項工作,就是找到有價值的數(shù)據(jù)進行分析了。數(shù)據(jù)是分析的基礎,因此數(shù)據(jù)的質量、數(shù)據(jù)的相關度、數(shù)據(jù)的維度等會影響數(shù)據(jù)分析的結果影,其中GIGO(垃圾進垃圾出)對于數(shù)據(jù)分析結果影響最大。
1 數(shù)據(jù)源選擇
數(shù)據(jù)分析團隊面對大量的數(shù)據(jù)源,各個數(shù)據(jù)源之間交叉聯(lián)系,各個數(shù)據(jù)域之間具有邏輯關系,各個產(chǎn)品統(tǒng)計口徑不同,不同的時間段數(shù)值不同等。這一系列問題多會影響數(shù)據(jù)分析結果,因此確定數(shù)據(jù)源選擇和數(shù)據(jù)整理至關重要。
DBA可以基于數(shù)據(jù)分析需要,找到相關數(shù)據(jù),建立一張數(shù)據(jù)寬表,將數(shù)據(jù)倉庫的數(shù)據(jù)引入到這張寬表當中,基于一定的邏輯關系進行匯總計算。這張寬表作為數(shù)據(jù)分析的基礎,然后再依據(jù)數(shù)據(jù)分析需要衍生出一些不同的表單,為數(shù)據(jù)分析提供干凈全面的數(shù)據(jù)源。寬表一方面是用于集中相關分析數(shù)據(jù),一方面是提高效率,不需要每次分析時都查詢其他的數(shù)據(jù)表,影響數(shù)據(jù)倉庫效率。
2 數(shù)據(jù)抽樣選擇
簡單的數(shù)據(jù)分析可以調用全體數(shù)據(jù)進行分析,數(shù)據(jù)抽樣主要用于建模分析,抽樣需考慮樣本具有代表性,覆蓋各種客戶類型,抽樣的時間也很重要,越近的時間窗口越有利于分析和預測。在進行分層抽樣時,需要保證分成出來的樣本比例同原始數(shù)據(jù)基本一致。