謝謝剛才毛總、何總、陳總從不同層面上,為大家詮釋的云計算的概念和未來的方向?,F(xiàn)在把我對于云計算的概念想法跟大家共享。
除了ISSA和PSSA還有SSSA三種云計算模式之外,其實云計算也分公有云和私有云,在國內(nèi)的企業(yè)內(nèi),私有云應(yīng)用更多一些,國內(nèi)企業(yè)都是從數(shù)據(jù)中心往私有云上轉(zhuǎn)換,然后又從私有云向公有云上轉(zhuǎn)換,像英特爾、萬網(wǎng)等,就是基礎(chǔ)提供商的服務(wù)不斷的提升和創(chuàng)新是分不開的。
我跟大家分享的是,對于像我們這樣的企業(yè)來講,為什么會需要云計算的平臺?而且目前從數(shù)據(jù)中心往私有云上轉(zhuǎn)換,私有云往公有云上轉(zhuǎn)換,會歷經(jīng)什么過程,是細(xì)節(jié)的介紹。
首先我介紹一下我們的公司,悠易互通在中國是比較領(lǐng)先的受眾網(wǎng)絡(luò)和數(shù)字營銷的公司,這個名詞很專業(yè),用我們劉總的話來講,我們是一個“賣人”的公司,對于中國互聯(lián)網(wǎng)廣告來講,大多數(shù)公司都在“賣媒體”,按照媒體的屬性去為大家鋪設(shè)廣告,對于悠易,我們想做的是完全不同的,我們要Cover每個人的興趣是什么樣,對什么樣的廣告感興趣,對什么內(nèi)容感興趣,在互聯(lián)網(wǎng)上有什么行為,對悠易來講,這是最核心的價值。悠易是2007年成立的公司,現(xiàn)在已經(jīng)是500人的規(guī)模,大概是這樣的情況。
我會分三個層面為大家介紹,第一個層面,是我們的用戶行為定向的概念,由概念引出像我們這樣的企業(yè),對云計算和大型平臺的需求;第二個層面,介紹私有云目前的狀況,以及數(shù)據(jù)累積量的展示和擴(kuò)展的應(yīng)用。
大家知道,在互聯(lián)網(wǎng)廣告投放的時候,其實定向已經(jīng)說了很多年了,最早的用戶行為定向其實是雅虎提出來的,就是在雅虎Sales那邊很早就聽到過,而更早的概念,用戶行為定向概念和互聯(lián)網(wǎng)同時產(chǎn)生的,為什么一直沒有人做好,或者說在近幾年才能有快速的發(fā)展,是和大型計算平臺產(chǎn)生分不開的。
傳統(tǒng)的互聯(lián)網(wǎng)廣告在投放的時候,我們區(qū)別于傳媒廣告,我們可以做到地域定向、時間定向、客戶端環(huán)境的定向,以及網(wǎng)址的定向和其他基礎(chǔ)數(shù)據(jù),包括簡單的關(guān)鍵詞定向等等,但是這些定向并不能Cover到人,我們只是定向到北京,但是北京可能有一千七百多萬的網(wǎng)民,他們每一個人對什么感興趣,其實我們不知道,而現(xiàn)在的市場需求,隨著品牌的廣告主以及效果類的廣告主,互聯(lián)網(wǎng)投放規(guī)模快速增長,對數(shù)據(jù)要求以及人群選擇要求,有更高的標(biāo)準(zhǔn)。所以我們需要更加精準(zhǔn)的定向手段。
那么競爭廣告的定向趨勢,比如我們Cover很多人群的時候,我們需要對人群進(jìn)行一個分類做投放,這個分類其實是一個很恐怖的數(shù)字,據(jù)現(xiàn)在的統(tǒng)計,中國現(xiàn)在活躍的網(wǎng)民每天在4.5到4.5億之間,有可能比這個數(shù)字更大,但是這些網(wǎng)民每天在互聯(lián)網(wǎng)上會產(chǎn)生巨量的數(shù)據(jù),他們每天看什么網(wǎng)頁,在什么網(wǎng)站購買什么產(chǎn)品,消費能力是什么,他們玩什么游戲,使用什么客戶端,甚至他們對什么廣告有什么樣的行為,這些行為在每天會產(chǎn)生非常大量的數(shù)據(jù),這個數(shù)據(jù)是在以前的計算平臺業(yè)務(wù)模式底下不可想象的,我們要做的競爭廣告定向,就是建立在這些數(shù)據(jù)之上,也是為什么我們需要一個非常海量存儲,并且能夠?qū)A繑?shù)據(jù)進(jìn)行運算平臺的原因。
而用戶行為定向的特點,其實可以分析每一個互聯(lián)網(wǎng)受眾的行為,判斷他們的興趣和心理的預(yù)期,并且有針對性的進(jìn)行廣告投放,除了對海量數(shù)據(jù)存儲和分析之外,我們還要求服務(wù)的實時性,就是每一個用戶看網(wǎng)頁的時候,這個網(wǎng)頁想播放廣告的時候,就必須得實時從后臺的以億為級別的庫里實時抽取屬性出來,并且要做廣告的匹配,得需要非常實時的,有大的選項能力平臺的支持,那么這是對計算平臺第二方面的要求。
而用戶行為定向的優(yōu)勢,對于不同的用戶來講有不同的優(yōu)勢,對于廣告主來講,可以把廣告主投放給真正感興趣的人,對于代理商來講,可以減少無效曝光,節(jié)省代理商的媒體資源,對于媒體來講,可以提升媒體價值,因為定向的廣告可以賣的更貴,并且可以提升用戶對媒體的用戶體驗,在媒體上始終能看到感興趣的廣告,不是跟興趣完全相悖甚至反感的廣告,對媒體用戶來講,也是好的事情。
對于受眾,因為廣告一般都是被迫行為,受眾接受自己喜歡廣告的內(nèi)容,比接受自己反感的廣告內(nèi)容,會有更好的感覺。這是悠易的多維立體的概念,我簡單介紹一下。
首先,我們會判斷每一個用戶瀏覽興趣關(guān)鍵詞,以及他們對電子商務(wù)的購買行為,以及他們對廣告的交互行為,把數(shù)據(jù)通過建模形成每一個用戶的興趣,我們把用戶分成22個大類,230個小類,進(jìn)行用戶分析,每一個用戶對每一個興趣的屬性,都是通過一系列的周圍數(shù)據(jù)計算出來的,有一個非常復(fù)雜的數(shù)學(xué)模型在里面。
以上這些點,其實說明了,我們其實要處理的就是基于互聯(lián)網(wǎng)4.6億網(wǎng)民的,每一個用戶的很多種信息的集合,我們每天都會接受以TB為單位的數(shù)據(jù),并且要對數(shù)據(jù)進(jìn)行分析,把用戶進(jìn)行計算和分類,不是一個小的計算機(jī)群,或者單個計算中心滿足的應(yīng)用,所以我們構(gòu)建了私有云的模式。實際上用戶行為分析定向,技術(shù)難點是存在幾個方面的。
第一個方面,是用戶行為數(shù)據(jù)的分析,對于悠易互通來講,我們和很多的媒體會有合作,包括四大門戶,包括垂直行業(yè)內(nèi)網(wǎng)站各TOP20的網(wǎng)站,我們會收集到非常豐富媒體流量資源,每一個媒體的流量資源,可以為我們帶來每一個Cookie,就是在瀏覽什么樣的網(wǎng)頁的數(shù)據(jù),這是一個數(shù)據(jù)基礎(chǔ)。第二個,要有非常海量的數(shù)據(jù)存儲,因為首先有海量數(shù)據(jù)之后,第一個要解決的問題就是存儲的問題,已經(jīng)超過單臺的Server或者是盤陣,或者存儲模式所能夠解決的范疇,比如我們一個月的數(shù)據(jù)可能要超過20TB,數(shù)據(jù)是非常巨大的。第三個,我們拿到這些數(shù)據(jù)以后,解決存儲的問題,我們還要對數(shù)據(jù)進(jìn)行不斷的分析,校正,進(jìn)行建模、歸類,并且對計算結(jié)果進(jìn)行驗證,就需要非常龐大的計算平臺,能夠?qū)?shù)據(jù)做非常實時的處理,并且按照我們的需求,對計算的模式做改變。
在以上的計算和存儲問題解決之后,接下來我們要對計算出來的數(shù)據(jù)做應(yīng)用上的驗證,這個就需要我們結(jié)合業(yè)務(wù)部門的配合,業(yè)務(wù)模式的配合,判斷數(shù)據(jù)在真正廣告應(yīng)用當(dāng)中的表現(xiàn),就涉及到剛剛提到的實時為廣告應(yīng)用提供服務(wù)的計算能力。
對四個難點,我們介紹分別解決的方法,第一個方法,就是用戶收集原理,首先我們會收集每個用戶不同頁面瀏覽的行為,用戶對于廣告的交互行為,因為我們是投戶媒體廣告的,對什么廣告完整播放完了,會有重播,并且有連續(xù)的點擊行為,我們算做廣告交互行為,來判斷興趣。第三方面,是電子商務(wù)的交互行為,我們有很多電子商務(wù)合作伙伴,他們在電子商務(wù)網(wǎng)站上形成什么樣的購買,買了什么產(chǎn)品,消費能力大概什么樣,三方面的數(shù)據(jù)會形成用戶行為的數(shù)據(jù)主體。會通過我們的用戶行為分析的模塊形成悠易互通用戶屬性庫,是我們具有價值的部分,通過實時定向的API為廣告的服務(wù)提供支持。
在這套系統(tǒng)當(dāng)中,我們還有一套基礎(chǔ)的支持系統(tǒng),就是我們的負(fù)荷搜索系統(tǒng),因為對于用戶瀏覽行為的分析,我們是基于所瀏覽頁面的正文做分析的,如果拿到這些數(shù)據(jù),并且應(yīng)用計算的話,我們后臺有負(fù)荷的搜索系統(tǒng)做支持的,比較類似于百度或者谷歌的搜索引擎。同樣也是要求實時性非常高,并且要求海量存儲和海量數(shù)據(jù)計算的平臺。
這是我們負(fù)荷搜索系統(tǒng)的原理圖,我們會抓取我們所合作媒體的所有的內(nèi)容,并且解析出他們的正文區(qū)域,最終形成分析的結(jié)果,存在我們的互動區(qū),而用戶的瀏覽行為結(jié)合搜索的數(shù)據(jù)庫進(jìn)行數(shù)據(jù)分析的。
目前,我們所收錄頁面信息已經(jīng)超過20億條,接下來我會介紹用戶數(shù)據(jù)的信息。為了解決以上的問題,我們構(gòu)建了這樣的架構(gòu),首先構(gòu)建自己的分布式存儲系統(tǒng),就是HDFS系統(tǒng),谷歌、百度,包括大型的私有云公司,包括淘寶,他們都會構(gòu)建自己的存儲系統(tǒng),我們用的是HDFS,這個是開元的,和雅虎、Facebook所用的都是一樣的。同時,我們基于HDFS構(gòu)建了Map平臺,是比較細(xì)節(jié)的底層的技術(shù),我會簡單介紹一下。Map redios的概念,其實就是相當(dāng)于把一個計算任務(wù)分布在不同的計算機(jī)上,同一整個集群為一個任務(wù)做服務(wù),這是私有云計算基礎(chǔ)的概念,或者是最基礎(chǔ)的技術(shù)方法,這是一個實例圖,我們把不同的任務(wù)分發(fā)到不同的機(jī)器,用不同的機(jī)器進(jìn)行計算完成之后,再由一個匯總的調(diào)度任務(wù),最終匯總出計算結(jié)果。
我們自己的Map redios計算,分為不同的業(yè)務(wù)類型做服務(wù),包括廣告業(yè)務(wù)數(shù)據(jù)的分析,廣告優(yōu)化數(shù)據(jù)的分析,以及用戶行為的挖掘部分應(yīng)用,我們經(jīng)過了幾百的改動,最早做得是數(shù)據(jù)中心的概念,后來發(fā)現(xiàn)傳統(tǒng)的數(shù)據(jù)中心的概念,會有很多的弊端,比如說資源應(yīng)用不平衡,虛擬化實現(xiàn)并不好,而且應(yīng)用的調(diào)度、拓展性并不是特別理想,我們逐漸往私有云結(jié)構(gòu)上做轉(zhuǎn)換。
在這個平臺上,還做了一些選型的工作,包括Low sql的數(shù)據(jù)庫的選型等。對Low搜索,像HDfs或者是傳統(tǒng)的開放云計算支撐的底層來講,我們還有很多后續(xù)的研究。這是我們的一個系統(tǒng)的架構(gòu)圖,是一個非常復(fù)雜的應(yīng)用計算的模式。在今年我們又重新升級了我們的架構(gòu),更像一個云計算的計算平臺,我們使用了Mai sql內(nèi)存Cash等等,一些新的技術(shù)加入進(jìn)來,使云計算的平臺結(jié)構(gòu)會更加的完整。
接下來我介紹一下我們的受眾行為的建模過程,我們對每一個用戶會從四個維度上做建模,一個是近期瀏覽頁面的關(guān)鍵詞,長期以來所積累的,在用戶身上的關(guān)鍵詞,用戶感興趣的興趣行業(yè),還有用戶興趣的產(chǎn)品類別,來自廣告交互行為和電商網(wǎng)站上的具體行為,我們會通過屬性分析建模,將用戶分成22個大類,230個小類,并且為廣告定向服務(wù)以及廣告分析服務(wù)做基礎(chǔ)的數(shù)據(jù)支撐,這是一個完整的數(shù)據(jù)畫像的過程。在這之上,我們有具體的基礎(chǔ)分析支持系統(tǒng),包括基于道學(xué)習(xí)的分析系統(tǒng),就是SNM技術(shù),以及用戶興趣的分類算法。
并且我們在現(xiàn)有的模式底下,還在開展人口統(tǒng)計學(xué)的分析研究,我們會不斷往每一個用戶身上加入不同的標(biāo)簽,要求擴(kuò)展性非常強(qiáng)的計算,或者是應(yīng)用服務(wù)的模式。目前我們通過私有云的架構(gòu),已經(jīng)為我們的企業(yè),為超過400家廣告主提供了廣告定向服務(wù),并且在廣告直接反映效果點擊率上有50%到150%的提升,峰值我們可以通過這項技術(shù)提升280%。這是我們數(shù)據(jù)量積累的應(yīng)用,就是截止到6月末,我們可以用于用戶行為定向,活躍的固定樣本,概念就是在一個月之內(nèi)可以Cover十次,抓到十次以上行為的用戶,我們已經(jīng)存儲了2.6億個,就是說可能在座的諸位,你們的電腦可能50%都在我們的數(shù)據(jù)庫當(dāng)中,我們知道你們對什么感興趣,我們知道你們看過什么樣的網(wǎng)頁。
我們收集用戶訪問記錄以及其他用戶情況這種數(shù)據(jù)條目,已經(jīng)超過了206億條,正是有這兩個數(shù)據(jù)的概念,這不是一個簡單的計算模式能夠解決的問題,必須依靠云計算的概念。
我們會基于這些數(shù)據(jù),為所有的用戶提供受眾的群體屬性分析報告,他們對什么感興趣,對什么媒體感興趣,他們活躍的時間、地域等,這份報告是我們在業(yè)內(nèi)唯一能夠拿出來的。
以上就是對這塊的介紹,其實在接下來,我們在私有云的構(gòu)建方面,是一個很簡單的介紹,我希望通過和各大IDC廠商以及云計算方案提供商能夠合作,因為我們下一步的計劃其實是往公有云上做轉(zhuǎn)換,這個方面希望之后能夠得到大家的幫助和關(guān)注,完成整個過程,謝謝大家!
(演講者:北京悠易互通網(wǎng)絡(luò)廣告公司CTO 趙征)