結果就是兩大塊,我們會越來越意識到數據的價值不如預期,另外一方面我們發(fā)現我們通過大數據做出來的東西它的結果是很難驗證的,這里面無論是技術還是應用方面,現在還沒有完全有效地發(fā)展出一套大數據層面上驗證結果有效性的手段,從我們做創(chuàng)新的角度來講,有幾個關鍵性的問題我們要考慮,數據質量不高是常態(tài),怎么建立更加有效的方法。大家都知道,大數據在這么龐大的數量下,特別是數據質量不高的情況下怎么去運作。第二,大家之前一直在談四個V,有一個談到價值密度的問題,我們怎么尋找價值的高地,再加之密度很低的情況下找到有價值的地帶,大家都知道四個大金礦,但金子是很難挖出來的。用戶的隱私保護很重要,如果我們管得過死,什么事也干不了,怎么找到最佳的結合點。整個產業(yè)有這個問題,運營商不可避免地也會遇到這樣一些問題。
從運營商來講,我們主要接觸的是網絡大數據,我們重新再思考一下運營商的大數據的應用特征。有幾個特征值得認真地check。大數據的廉很重要,就是便宜,Hadoop是一個很廉價的手段,不僅僅是因為它是開源的,他做大規(guī)模處理的時候是很廉價的。我們做大數據,追求的不是要像原有的數據分析方法那樣得到高質量的、高價值的結果,大數據的核心是在低成本的方式下做一個可接受的成本,這是大數據首先要考慮的問題。第二是快速,數據的價值隨著時間快速地衰減,現在再去用一年之前的數據就沒有多大價值了。數據處理的速度越快,數據價值越高。三是維度的問題,所有的數據只有發(fā)生關聯才有價值,怎么解決同一個對象的多種描述,怎么把不同維度的數據關聯起來,這是很重要的一個特征。最后是大數據是產業(yè)層面上的問題,不是一家企業(yè)獨自就能把大數據做起來,它一定是在產業(yè)鏈條的不同維度,不管是時間維度還是空間維度各方的數據進行有效的關聯,它得到的數據價值才是最大的?;谖覀儸F在的思考,這兩條線不是分離的,是密切纏繞在一起的,相互之間是連接的,我畫了一個圖,跟DNA的雙螺旋很相似,螺旋一條線是技術創(chuàng)新,一條線是應用創(chuàng)新,它們之間密切關聯,而且密切纏繞在一塊。我們現在做的事情其實就是圍繞這兩條線去做創(chuàng)新。
先來看技術這條線,剛才講了我們有很多問題和困難,怎么去解決這些問題和困難呢?我們覺得下一步我們首先要克服這些問題,數據拼接,把系統內部不同的數據和來自不同系統的數據拼接在一塊,這是兩個層面的拼接,一個層面是同一個描述的不同,比如運營商有中國電信、中國移動、中國聯通,不同的運營商都有不同的客戶群,把不同客戶群的數據怎么拼接在一起,這是一種拼接的維度。還有一種拼接的維度,大家做分析的時候,比如我們有社交媒體的數據,也有網絡行為的數據,也有打電話的數據,這些數據怎么歸結到一個對象上,這是從不同維度的拼接,這是一個關鍵的問題。
深度標簽。大數據很常見的輸出方式,我做用戶畫像,通過標簽來體現,怎么通過對用戶的深度分析得到深度的標簽。我套一下高尖這個詞,通過多種處理之后高度抽象的詞,更準確地刻畫一個對象。行業(yè)知識建模技術。互聯網+一定是和行業(yè)相關的,我們之前做行業(yè)遇到的最大問題是我們需要很深的領域專家,怎么把領域知識數據化,這是大數據接下來面臨的關鍵問題。還有一些問題我就不細介紹了,基于場景的智能推薦技術,海量模糊數據降維和關聯分析技術,大規(guī)模交互式數據可視化技術,數據安全和隱私保護。
我們做了很多嘗試。多維異構的數據拼接,最早我們依賴于Hadoop的數據庫方式,這種更多的是線性結構,雖然我們沒有結構化,雖然我們的數量很大,但更多的還是以線性的表格方式去做。我們要解決多維異構的拼接方式,我們現在在用圖的方式構建關聯模型,用ID作為關聯方式,我們把不同的數據、不同來源的數據、不同特征的數據,通過圖的方式把它關聯起來,構建一個巨大的圖的模型。我們現在數據庫里有上千萬、上億的關聯,能夠把一個用戶不同的ID關聯起來,這樣的話同時也為我們帶來一個新的空間,未來做大數據,從對人的分析會進到對物聯網的分析。
第二,我們稱為基于行為的深度標簽技術,我們給用戶打標簽有兩種,一種是固態(tài)化的固定的標簽,比如性別、年齡、特征、工作單位、住哪兒,這是硬的標簽,大數據里真正有價值的是軟的標簽,我分析一個人的性別,并不是從身份證上看他是男是女,而是通過他的各種行為,他的網絡瀏覽行為、他的興趣愛好,從這里面構建一個更加靈活的性別標簽。每個人的性別行為是很復雜的,沒有那么簡單,男性也有女性化的傾向,女性也有男性化的傾向,我們覺得未來的深度標簽可能是更加模糊、不是零和一的狀態(tài),這是一個例子。未來我們希望通過機器學習的方式,歸納出深度的基于行為的標簽,這些標簽未來會更有價值。目前我們在這方面做了一些嘗試,做了一些算法,具體的原理我們就不講了,算法本身不是很復雜,關鍵是在你自己的數據級上,在你自己的數據基礎上怎么對這個算法進行優(yōu)化和調整,能夠對算法的結果進行不斷的迭代。