LinkedIn的分析哲學(xué)得以貫徹實施,IT的力量當(dāng)然功不可沒。張溪夢表示,科技是LinkedIn拓展分析規(guī)模的基石。在LinkedIn,Hadoop、Aster Data和Teradata是商業(yè)分析部賴以運(yùn)作的三大平臺。
LinkedIn與Teradata的合作,其實是從Aster Data開始,后者現(xiàn)在已被Teradata收購。張溪夢介紹,在LinkedIn的基于社交網(wǎng)絡(luò)的分析模型中,基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫進(jìn)行分析,多級關(guān)系網(wǎng)絡(luò)的計算,一次就需要好幾天甚至一個星期才能完成,后來采用了Aster Data,分析效率獲得極大的提升,目前的分析時間已經(jīng)縮短至幾個小時。
在盡管LinkedIn在開源技術(shù)上花費了很多精力,并自主研發(fā)出了多種開源技術(shù),但在數(shù)據(jù)分析層面,張溪夢更鐘情于采用穩(wěn)定的商業(yè)軟件。他表示,開源技術(shù)更新快、功能多,也意味著不穩(wěn)定;閉源反應(yīng)慢,但同時也是穩(wěn)定的代名詞。
張溪夢說,LinkedIn不是一家數(shù)據(jù)庫公司,采用現(xiàn)有的成熟的技術(shù)更有利于公司的商業(yè)推進(jìn)速度,而Teradata是最成熟的企業(yè)數(shù)據(jù)倉庫供應(yīng)商,其解決方案的優(yōu)越性已經(jīng)得到市場的驗證。相比之下,采用Hadoop平臺的LinkedIn,還需要在中間增加了一個安全層,以保護(hù)會員的隱私和利益。
張溪夢的理由,可以概括為專業(yè),權(quán)威。事實上,更深層次的是二者對專業(yè)的理解不謀而合。張溪夢希望把大數(shù)據(jù)做小做快,Teradata大中華區(qū)總裁辛兒倫恰恰不斷地強(qiáng)調(diào)無須貪多,而是要學(xué)會舍棄數(shù)據(jù),只分析有用的數(shù)據(jù)。Teradata的數(shù)據(jù)分析方法是I(整合)、D(探索)、A(行動)。Aster Data就是Teradata的數(shù)據(jù)探索平臺,其設(shè)計的理念,就是要讓不同層次需求的人都能進(jìn)行各種分析,輕松探索大數(shù)據(jù)的價值,提供了SQL、MapReduce、統(tǒng)計、圖形、路徑、時間和地理查詢等工具,正適合LinkedIn的需求。Teradata平臺則主要用于支持BI。
忠告“準(zhǔn)數(shù)據(jù)科學(xué)家”
在這個被稱為“大數(shù)據(jù)時代”的時代,一個叫做數(shù)據(jù)科學(xué)家(Data Scientist)的新職業(yè)被認(rèn)為即將搶手,包括EMC、微軟、Teradata等公司都在談數(shù)據(jù)科學(xué)家,認(rèn)為是大數(shù)據(jù)時代的數(shù)據(jù)分析的必然需要,甚至有評論稱,數(shù)據(jù)科學(xué)家是二十一世紀(jì)“最性感”的職業(yè)。
而在LinkedIn的模式中,數(shù)據(jù)科學(xué)家的精準(zhǔn)判斷尤為重要確認(rèn)哪些是最有價值的數(shù)據(jù),不是單靠軟件平臺就可以實現(xiàn)的。張溪夢表示,最好的分析師要比PM更了解產(chǎn)品,要比Marketing更了解市場,要深刻理解軟硬件之間的關(guān)系……
毫不夸張地說,成為LinkedIn的分析師也是一種挑戰(zhàn)。所以,張溪夢的“兵在乎精,不在乎多”的另一種含義,也是分析團(tuán)隊的“精”。
那么,要如何應(yīng)對未來的挑戰(zhàn)進(jìn)入這個“性感”的職業(yè)?張溪夢的忠告是,不要因為Data Scientist是當(dāng)前的熱門職業(yè)而選擇這個行當(dāng),你的長遠(yuǎn)目標(biāo)更重要。他最強(qiáng)調(diào)的一點就是興趣,認(rèn)為興趣會驅(qū)動你找到變得專業(yè)的方法。
翻開張溪夢的履歷,我們會發(fā)現(xiàn)一件有趣的事情:他曾經(jīng)是一名神經(jīng)外科醫(yī)生。“我是一名稱職的醫(yī)生,但我更享受數(shù)字,更享受邏輯。”張溪夢說。
作者:雷霆