基于采集回來的多維度數(shù)據(jù),采用ETL對其各類數(shù)據(jù)進行結構化處理及加載
數(shù)據(jù)補缺:對空數(shù)據(jù)、缺失數(shù)據(jù)進行數(shù)據(jù)補缺操作,無法處理的做標記。
數(shù)據(jù)替換:對無效數(shù)據(jù)進行數(shù)據(jù)的替換。
格式規(guī)范化:將源數(shù)據(jù)抽取的數(shù)據(jù)格式轉換成為便于進入倉庫處理的目標數(shù)據(jù)格式。
主外鍵約束:通過建立主外鍵約束,對非法數(shù)據(jù)進行數(shù)據(jù)替換或導出到錯誤文件重新處理。
數(shù)據(jù)合并:多用表關聯(lián)實現(xiàn)(每個字段加索引,保證關聯(lián)查詢的效率)
數(shù)據(jù)拆分:按一定規(guī)則進行數(shù)據(jù)拆分
行列互換、排序/修改序號、去除重復記錄
數(shù)據(jù)處理層 由 hadoop集群 組成 , Hadoop集群從數(shù)據(jù)采集源讀取業(yè)務數(shù)據(jù),通過并行計算完成業(yè)務數(shù)據(jù)的處理邏輯,將數(shù)據(jù)篩選歸并形成目標數(shù)據(jù)。
數(shù)據(jù)建模、用戶畫像及特征算法
提取與營銷相關的客戶、產品、服務數(shù)據(jù),采用聚類分析和關聯(lián)分析方法搭建數(shù)據(jù)模型,通過用戶規(guī)則屬性配置、規(guī)則模板配置、用戶畫像打標簽,形成用戶數(shù)據(jù)規(guī)則集,利用規(guī)則引擎實現(xiàn)營銷推送和條件觸發(fā)的實時營銷推送,同步到前端渠道交互平臺來執(zhí)行營銷規(guī)則,并將營銷執(zhí)行效果信息實時返回到大數(shù)據(jù)系統(tǒng)。
根據(jù)前端用戶不同個性化行為,自動匹配規(guī)則并觸發(fā)推送內容
根據(jù)用戶全流程活動行為軌跡,分析用戶與線上渠道與線下渠道接觸的所有行為觸點,對營銷用戶打標簽,形成用戶行為畫像,基于用戶畫像提煉匯總營銷篩選規(guī)則屬性及屬性值,最終形成細分用戶群體的條件。每個用戶屬性對應多個不同屬性值,屬性值可根據(jù)不同活動個性化進行配置,支持用戶黑白名單的管理功能。
可以預先配置好基于不同用戶身份特性的活動規(guī)則和模型,當前端用戶來觸發(fā)配置好的營銷事件,數(shù)據(jù)系統(tǒng)根據(jù)匹配度最高的原則來實時自動推送營銷規(guī)則,并通過實時推送功能來配置推送的活動內容、優(yōu)惠信息和產品信息等,同時匯總前端反饋回的效果數(shù)據(jù),對推送規(guī)則和內容進行優(yōu)化調整。
大數(shù)據(jù)系統(tǒng)結合客戶營銷系統(tǒng)在現(xiàn)有用戶畫像、用戶屬性打標簽、客戶和營銷規(guī)則配置推送、同類型用戶特性歸集分庫模型基礎上,未來將逐步擴展機器深度學習功能,通過系統(tǒng)自動搜集分析前端用戶實時變化數(shù)據(jù),依據(jù)建設的機器深度學習函數(shù)模型,自動計算匹配用戶需求的函數(shù)參數(shù)和對應規(guī)則,營銷系統(tǒng)根據(jù)計算出的規(guī)則模型,實時自動推送高度匹配的營銷活動和內容信息。
機器自學習模型算法是未來大數(shù)據(jù)系統(tǒng)深度學習的核心,通過系統(tǒng)大量采樣訓練,多次數(shù)據(jù)驗證和參數(shù)調整,才能最終確定相對精準的函數(shù)因子和參數(shù)值,從而可以根據(jù)前端用戶產生的實時行為數(shù)據(jù),系統(tǒng)可自動計算對應的營銷規(guī)則和推薦模型。
大數(shù)據(jù)系統(tǒng)在深度自學習外,未來將通過逐步開放合作理念,對接外部第三方平臺,擴展客戶數(shù)據(jù)范圍和行為觸點,盡可能覆蓋用戶線上線下全生命周期行為軌跡,掌握用戶各行為觸點數(shù)據(jù),擴大客戶數(shù)據(jù)集市和事件庫,才能深層次挖掘客戶全方位需求,結合機器自學習功能,從根本上提升產品銷售能力和客戶全方位體驗感知。