Hadoop和Hbase通過每小時(shí)處理1億份記錄的方式,為全球最大的信用局益百利(Experian))把消費(fèi)者接觸點(diǎn)(Consumer touch points)連接在一起。
益百利(Experian)、全聯(lián)(Transunion)和艾可飛(Equifax)等信用局積累消費(fèi)者個(gè)人數(shù)據(jù)已經(jīng)有數(shù)十年時(shí)間了,這些公司的客戶主要是開展針對性活動(dòng)的營銷人員。為了應(yīng)對社交媒體、網(wǎng)頁瀏覽等消費(fèi)者接觸點(diǎn)實(shí)時(shí)更新的需求,益百利從大型機(jī)轉(zhuǎn)向了具有架構(gòu)擴(kuò)展功能的Hadoop和HBase。該公司現(xiàn)在的目標(biāo)是,每小時(shí)處理1億份包括地理、人口統(tǒng)計(jì)學(xué)和生活方式數(shù)據(jù)在內(nèi)的記錄。
擁有15000多名員工的益百利是全球領(lǐng)先的信用報(bào)告與營銷服務(wù)提供商,年?duì)I收達(dá)到40億美元。該公司在管理消費(fèi)者是誰、他們買了什么東西、如何與消費(fèi)者保持連接、如果與消費(fèi)者進(jìn)行互動(dòng)等消費(fèi)數(shù)據(jù)方面具有悠久的歷史。過去,益百利的大型機(jī)每月定期對消費(fèi)者數(shù)據(jù)庫進(jìn)行批量更新,然后益百利的客戶再將這些更新用于調(diào)整營銷活動(dòng)。在互聯(lián)網(wǎng)、移動(dòng)設(shè)備和社交媒體興起之前,這一模式運(yùn)行得非常順暢。
如今,在詳細(xì)闡述消費(fèi)者購物行為、在線瀏覽方式、電子郵件回應(yīng)和社交媒體活動(dòng)的數(shù)據(jù)中,會(huì)存在一些無用數(shù)據(jù),而益百利的大型機(jī)系統(tǒng)已經(jīng)無力應(yīng)對數(shù)據(jù)的大幅增長。而作為益百利營銷客戶的全球頂級零售公司正在嘗試綜合評估這些數(shù)據(jù),以便能夠?qū)崟r(shí)做出響應(yīng)。例如,他們希望知道出現(xiàn)在商場中的某一特定消費(fèi)者與關(guān)注他們企業(yè)的Facebook和Twitter賬號的消費(fèi)者是否是同一個(gè)人。
這了滿足這一新的需求,益百利開發(fā)了跨渠道身份識(shí)別(Cross-Channel Identity Resolution,簡稱CCIR)引擎,以維護(hù)相互連接的客戶接觸點(diǎn)資源庫。大約有30條標(biāo)準(zhǔn)被作為必備的基礎(chǔ)技術(shù),其中批處理、實(shí)時(shí)處理和擴(kuò)展能力是重中之重。
益百利選擇了兩項(xiàng)開源技術(shù):分布式大數(shù)據(jù)批處理架構(gòu)Hadoop,以及Hadoop關(guān)系最為密切的NoSQL數(shù)據(jù)庫HBase(即Hadoop Database)。除了針對存儲(chǔ)進(jìn)行了優(yōu)化外,HBase還被作為冗余和容錯(cuò)架構(gòu)。而除了選擇Hadoop和HBase,益百利還選擇了具有豐富功能的專利監(jiān)控與管理軟件Cloudera Manager。Cloudera的企業(yè)服務(wù)級技術(shù)支持協(xié)議也是另一個(gè)決定性因素。
益百利對這一解決方案很滿意,因?yàn)檫@一方案以很小的遺留環(huán)境為代價(jià),將處理性能提升了50倍。他們相信環(huán)境是在整個(gè)營銷生態(tài)系統(tǒng)中提取數(shù)據(jù),以及將通訊地址、社交媒體ID、電子郵件地址、Web Cookies、電話號碼等各種信息聯(lián)系在一起的重要數(shù)據(jù)管理平臺(tái)。這一平臺(tái)還能夠以客戶喜歡的格式將這些數(shù)據(jù)匯聚在一起。
由于能夠產(chǎn)生信息豐富的互動(dòng)和積極的消費(fèi)者體驗(yàn),目前益百利的客戶能夠更為精準(zhǔn)地評估來自多個(gè)渠道的客戶。而由于能夠提供相關(guān)信息,不是浪費(fèi)時(shí)間地消費(fèi)情感,因此新益百利的客戶端更加受到歡迎。(范范編譯)