LinkedIn,一家總部位于美國加利福尼亞州山景城的全球最大的職業(yè)社交網(wǎng)站,在Facebook、Zynga和Groupon等紅極一時的“明星們”股價均較發(fā)行價出現(xiàn)大幅下滑時, LinkedIn的股票卻一枝獨秀,依舊保持上漲的勢頭。
LinkedIn,一家混合了消費者和企業(yè)業(yè)務(wù)的商業(yè)模式而被稱為社交網(wǎng)絡(luò)內(nèi)的“丑小鴨”,截止到2013年1月份,注冊用戶數(shù)已突破2億,雖然這個數(shù)字只是社交巨頭facebook10億用戶的五分之一,但是linkedin集中的2億用戶卻集中了來自200多個國家的精英白領(lǐng),從這點來看,linkedin的數(shù)據(jù)質(zhì)量則是很高的。
LinkedIn成立于2002年12月并于2003年啟動,當公司五年前,LinkedIn還僅僅是一個技術(shù)公司。然而,今時卻不同往日。
“你可能認識的人”是linkedin推出的主要功能之一,它可以幫助用戶找到自己想要保持聯(lián)系的人。從后臺運營角度看,該功能要求數(shù)據(jù)時刻保持更新狀態(tài),這需要數(shù)據(jù)科學(xué)家時刻跟蹤linkedin不同應(yīng)用間的數(shù)據(jù)。然而,五年前,當Jay Kreps開始做這件事時,情況卻不容樂觀。
“我最初來到linkedin時,公司并沒有任何基礎(chǔ)設(shè)施”,linkedin首席主任工程師Kreps在最近一次接受采訪時說道。他最初是以數(shù)據(jù)科學(xué)家的身份來到LinkedIn的,他原以為該公司會有一些質(zhì)量好的數(shù)據(jù)拿來研究,但事實證明,該公司基礎(chǔ)設(shè)施問題更需要他的關(guān)注。
當時linkedin的基礎(chǔ)設(shè)施問題到底有多大?以“你可能認識的人”功能為例,當時該功能只是運營在一個僅通過幾個腳本和啟發(fā)式算法提供信息的孤立的甲骨文數(shù)據(jù)庫上,在這種情況下,數(shù)據(jù)更新需要六個星期(如果宕機需要重啟,則需要更長的時間),而這種情況也是建立在數(shù)據(jù)庫正常工作的前提下。但當時該數(shù)據(jù)庫已經(jīng)六個月不能正常工作了,Kreps講到。
隨著linkedin用戶規(guī)模增大,當數(shù)據(jù)規(guī)模超過服務(wù)器負載時,公司采取的辦法并不是添加更多的服務(wù)器節(jié)點,而且去掉一些占用太多計算能力的匹配啟發(fā)式算法。所以,占用掉kreps大部分工作時間的并不是寫算法,使得“你可能認識的人”提供的信息更準確,而是部署hadoop基礎(chǔ)設(shè)施,并建立Voldemor分布式數(shù)據(jù)庫,隨后Azkaban和Kafka也隨之建立。Azkaban是個簡單的批處理調(diào)度器,用來構(gòu)建和運行Hadoop作業(yè)或其他脫機過程,Kafkakafka則是一種高吞吐量的分布式發(fā)布訂閱消息系,處理消費者規(guī)模的網(wǎng)站中的所有動作流數(shù)據(jù)。
Kreps的上述工作僅僅是linkedin搭建數(shù)據(jù)基礎(chǔ)設(shè)施工作的一部分,其實,這些都是在為linkedin搭建一個跟其他互聯(lián)網(wǎng)公司一樣的數(shù)據(jù)環(huán)境,這意味著,該公司應(yīng)用程序開發(fā)者和數(shù)據(jù)科學(xué)家還有很大的發(fā)揮空間,進行數(shù)據(jù)挖掘,開發(fā)更多新產(chǎn)品新功能。
Bhaskar Ghosh是LinkedIn數(shù)據(jù)基礎(chǔ)設(shè)施工程的高級主管。據(jù)他介紹,他所在的團隊搭建了一個包括針對特定工作負載設(shè)計的在線、離線、近線系統(tǒng)的數(shù)據(jù)架構(gòu)。在線系統(tǒng)處理用戶的實時交互信息;離線系統(tǒng),主要是Hadoop和Teradata的一個數(shù)據(jù)倉庫,處理批量數(shù)據(jù)和分析工作負載;近線系統(tǒng)處理類似“你可能認識的人”這類的功能、搜索和linkedin社交圖譜數(shù)據(jù),這類數(shù)據(jù)對處理和更新速度的要求不像在線系統(tǒng)那么高。
Espresso是linkedin一個非常重要的數(shù)據(jù)庫系統(tǒng)。與Voldemort不同的是,Voldemort是以亞馬遜Dynamo為藍本的鍵值存儲,用來處理高峰時期的特定數(shù)據(jù),而Espresso是一個事務(wù)性一致的文檔存儲,用來替代甲骨文橫跨公司整個業(yè)務(wù)的在線數(shù)據(jù)庫。Espresso的設(shè)計初衷是為了提高LinkedIn收件箱的服務(wù)水平,且linkedin計劃在今年晚些時候開放Espresso源碼。
根據(jù)技術(shù)總監(jiān)Bob Schulman介紹,Espresso的出現(xiàn)是“因為我們在郵箱可擴展性和靈活性方面遇到了問題。郵箱需要存儲大量的數(shù)據(jù),并且需要與用戶的活躍度保持一致,郵箱里還需要一個功能搜索引擎,以便用戶在短時間內(nèi)可以找到他們所需要的信息。
由于歷史遺留問題,開發(fā)者只能在應(yīng)用層面解決可擴展性和可靠性問題,他解釋到。
然而,首席軟件架構(gòu)師Shirshanka Das指出,“試圖通過代碼解決問題并不一定是個長期的策略。”這些東西往往會非常迅速消減掉團隊和員工的熱情”,他說,“你永遠不會知道下一個瓶頸什么時候到來。”
Schulman和DAS也在一些技術(shù)項目上合作,例如,針對分布式系統(tǒng)的開源集群管理架構(gòu)Helix和開源數(shù)據(jù)總線(Databus)。LinkedIn于2月26日開源了其低延時變化數(shù)據(jù)捕獲系統(tǒng)Databus,該系統(tǒng)可以在MySQL以及Oracle數(shù)據(jù)源上捕獲數(shù)據(jù),當下LinkedIn只開源了Oracle上的連接器。Databus作為LinkedIn生態(tài)系統(tǒng)中的一致性保障組件,在低延時的情況下仍然具有高有效性;而其最大的特點莫過于無限制lookback能力及豐富的subscription功能。
到目前為止,LinkedIn一直在改善其近線系統(tǒng)和在線系統(tǒng),所以下一步要做的就是要完善離線系統(tǒng)。該公司已經(jīng)為一般的工作負載使用hadoop,包括數(shù)據(jù)抽取、模型建立、探索性分析和近線應(yīng)用的預(yù)測數(shù)據(jù)計算,Ghosh想要把這項工作做的更深入一步。
他提出了一個多元化的愿景,其中大部分都以Hadoop集群和關(guān)系數(shù)據(jù)庫系統(tǒng)之間的緊密集成為核心。其中一些目標包括更好的ETL框架、即席查詢、替代存儲格式和集成的元數(shù)據(jù)框架,這將為進行各種數(shù)據(jù)分析提供便利。
完善的基礎(chǔ)設(shè)施加上高質(zhì)量的數(shù)據(jù)會讓數(shù)據(jù)科學(xué)家的工作更加輕松和開心。Yael Garten是linkedin的一位高級數(shù)據(jù)科學(xué)家。她說,更好的基礎(chǔ)設(shè)施讓她的工作輕松了許多。像Kreps一樣,她也被LinkedIn深深吸引了,因為該公司有那么多有趣的數(shù)據(jù)可以拿來研究。只是她很幸運,沒有像Kreps一樣趕上linkedin早期基礎(chǔ)設(shè)施薄弱的時候,當時的基礎(chǔ)設(shè)施真是連1000萬用戶的數(shù)據(jù)都不能處理。至目前為止,她說,她還沒有遇到一個解決不了的問題是基礎(chǔ)設(shè)施無法處理大規(guī)模數(shù)據(jù)。
那么linkedin具體是如何利用自身擁有的大數(shù)據(jù)創(chuàng)造價值呢?小編在新浪博客@田克山的博客上看到一篇《Linkedin:精準數(shù)據(jù)體系的勝利》的文章,覺得對linkedin的大數(shù)據(jù)商業(yè)模式分析頗為透徹,現(xiàn)整理出以下要點,與讀者分享:
1.LinkedIn的獨特價值,就在于它在精準職業(yè)用戶數(shù)據(jù)平臺的基礎(chǔ)上建立了一個高效、穩(wěn)定、可再生的生態(tài)體系,套用一句廣告語,是體系的勝利。這體系包括:
橋:近2億高素質(zhì)職業(yè)用戶的精準信息--所以完備
果:利用用戶信息解決了招聘和廣告的不對稱問題因此成功貨幣化--所以可再生
因:定位準確,始終堅持以“用戶規(guī)模和使用深度”為目標的產(chǎn)品觀--所以穩(wěn)定
2.建立了職業(yè)用戶數(shù)據(jù)平臺:LinkedIn如今已經(jīng)達到1.75億用戶,獨立訪問用戶1.08億,頁面瀏覽量188億,且LinkedIn從起步之初,在用戶的定位上就更為明確--高端職業(yè)用戶;LinkedIn的用戶使用習(xí)慣和定位娛樂的其它SNS不同,這類用戶在SNS網(wǎng)站的頁面鎖定非常明確,很少有“漫無目的”游覽。正是這樣的用戶規(guī)模、完整信息、用戶質(zhì)量和使用習(xí)慣,推動了LinkedIn的貨幣化。
3.精準數(shù)據(jù)解決不對稱問題,從而實現(xiàn)貨幣化。目前,LinkedIn靠招聘、廣告、訂閱三種方式盈利,憑借龐大的精準信息數(shù)據(jù)庫,LinkedIn為客戶解決了 “信息不對稱”的這個最大的問題。而按照2012年第二季度的財務(wù)數(shù)據(jù),LinkedIn收入2.16億元,這三種方式分別貢獻了2.24億、1.11億和0.81億,占比分別為54%,27%,19%,同時,招聘方案獲得收入的整體占比增長迅速。LinkedIn形成了一個主動、真實的高效率招聘機制,完備個人信息形成的大數(shù)據(jù)平臺成為了為招聘企業(yè)開源節(jié)流的關(guān)鍵。
在人才獲取環(huán)節(jié),LinkedIn在整個1.74億用戶中進行過濾搜索,打破以往只能招聘到崗位申請者的局限,SNS平臺使得招聘對象范圍急劇擴大,同時招聘企業(yè)通過設(shè)定地點、技能、以往公司、教育背景等多個關(guān)鍵詞,能迅速、準確地錨定最匹配的人才,從被動等待“愿者上鉤”變成了主動獵取。
在溝通環(huán)節(jié),尤其對于并非崗位申請者的匹配人才,LinkedIn的用戶數(shù)據(jù)平臺排上了大用場,“獵物”的興趣、職務(wù)、小組、討論等信息在其profile上一目了然,通過LinkedIn的網(wǎng)絡(luò)聯(lián)系到該人后,針對其個人身份進行的溝通自然水到渠成,從而避免了唐突的聯(lián)系,對于高端人才這種“水到渠成”的禮貌顯得尤為重要。
LinkedIn在招聘上的成功恰恰是因為他不是一個招聘網(wǎng)站,而是一個以用戶為中心建立起來的SNS平臺,信息的真實、數(shù)據(jù)的龐大、關(guān)系網(wǎng)絡(luò)的勾連讓傳統(tǒng)時代困擾招聘者的信息不對稱問題迎刃而解,招聘變成了一件更透明、更準確、更多管道、更人性化的事情,文本簡歷的單向歷史或許要過去了。
4.精準投放的廣告。LinkedIn在精準度上有著所有SNS網(wǎng)站的共性。企業(yè)可以根據(jù)廣告的性質(zhì)確定目標用戶,然后根據(jù)關(guān)鍵詞篩選廣告投放的人群,如地域、職業(yè)、教育背景、公司,在選定用戶的主頁顯示。這就意味著不同的用戶看到完全不同的廣告,形成了完全定制化的動態(tài)頁面。
更多信息可以點擊《Linkedin:精準數(shù)據(jù)體系的勝利》閱讀。