分析人的位置功能職位級別一切參數(shù),這些都是我們模型里面的各種功能。然后去分析,他們內(nèi)部有多少HR 員工,有多少負責(zé)獵頭的人,他們獵頭的流失率,他們每天在Linkedin的活動時間是多少。
這是 LinkedIn 大數(shù)據(jù)部門最早做的事情。
Simon 告訴36氪,公司內(nèi)部從大數(shù)據(jù)分析這一個基本項上,可以不斷迭代出新產(chǎn)品線 LinkedIn 的三大商業(yè)模型是人才解決方案、市場營銷解決方案和付費訂閱,也是我們傳統(tǒng)的三大收入支柱。事實上我們還有一個,也就是第四個商業(yè)模型,叫“銷售解決方案”,已經(jīng)在今年 7 月底上線。
這是賣給企業(yè)級用戶的?;氐絼偛配N售例子,LinkedIn 大數(shù)據(jù)系統(tǒng)是一個牛逼的模型,只需要改動里面一下關(guān)鍵字,或者一個參數(shù),就可以變成另一個產(chǎn)品。“我們希望能幫到企業(yè)級用戶,讓他們在最快的速度里知道誰會想買你的東西。”
雖然這第四個商業(yè)模式目前看來對收入的貢獻還不多,只占 1%,但 anyway 有著無限的想象空間,公司內(nèi)部對這個產(chǎn)品期待很高。“我還不能告訴你它的增長率,但這方向代表的是趨勢,Linkedin 的 B2B 是一個不用懷疑的大的趨勢。”Simon 說。
Google:一個閉環(huán)的大數(shù)據(jù)生態(tài)圈
作為世界上最大的搜索引擎,Google 和大數(shù)據(jù)的關(guān)系又是怎樣的呢?感謝微博上留言的朋友,這可確實是一個很有意思的議題。
Google 在大數(shù)據(jù)方面的基礎(chǔ)產(chǎn)品最早是 2003 年發(fā)布的第一個大規(guī)模商用分布式文件系統(tǒng) GFS(Google File System),主要由 MapReduce 和 Big Table 這兩部分組成。前者是用于大數(shù)據(jù)并行計算的軟件架構(gòu),后者則被認為是現(xiàn)代 NOSQL 數(shù)據(jù)庫的鼻祖。
GFS 為大數(shù)據(jù)的計算實現(xiàn)提供了可能,現(xiàn)在涌現(xiàn)出的各種文件系統(tǒng)和 NOSQL 數(shù)據(jù)庫不可否認的都受到 Google 這些早期項目的影響。
隨后 2004 和 2006 年分別發(fā)布的 Map Reduce 和 BigTable,奠定了 Google 三大大數(shù)據(jù)產(chǎn)品基石。這三個產(chǎn)品的發(fā)布都是創(chuàng)始人謝爾蓋 - 布林和拉里 - 佩奇主導(dǎo)的,這兩人都是斯坦福大學(xué)的博士,科研的力量滲透到工業(yè)界,總是一件很美妙的事。
2011 年,Google 推出了基于 Google 基礎(chǔ)架構(gòu)為客戶提供大數(shù)據(jù)的查詢服務(wù)和存儲服務(wù)的 BigQuery,有點類似于 Amazon 的 AWS,雖然目前從市場占有率上看與 AWS 還不在一個數(shù)量級,但價格體系更有優(yōu)勢。Google 通過這個迎上了互聯(lián)網(wǎng)公司拼服務(wù)的風(fēng)潮,讓多家第三方服務(wù)中集成了 BigQuery 可視化查詢工具。搶占了大數(shù)據(jù)存儲和分析的市場。
BigQuery 和 GAE(Google App Engine)等 Google 自有業(yè)務(wù)服務(wù)器構(gòu)建了一個大數(shù)據(jù)生態(tài)圈,程序創(chuàng)建,數(shù)據(jù)收集,數(shù)據(jù)處理和數(shù)據(jù)分析等形成了閉環(huán)。
再來看 Google 的產(chǎn)品線,搜索,廣告,地圖,圖像,音樂,視頻這些,都是要靠大數(shù)據(jù)來支撐,根據(jù)不同種類數(shù)據(jù)建立模型進行優(yōu)化來提升用戶體驗提升市場占有率的。
單獨說一下 Google maps,這個全球在移動地圖市場擁有超過 40% 的市場占有率的產(chǎn)品,也是美國這邊的出行神器。它幾乎標示了全球有互聯(lián)網(wǎng)覆蓋的每個角落,對建筑物的 3D 視覺處理也早在去年就完成,這個數(shù)據(jù)處理的工作量可能是目前最大的了,但這也僅限于數(shù)據(jù)集中的層面。真正的數(shù)據(jù)分析和挖掘體現(xiàn)在:輸入一個地點時,最近被最多用戶采用的路徑會被最先推薦給用戶。
Google 還把 Google+,Panoramio 和其他 Google 云平臺的圖片進行了標記和處理,將圖片內(nèi)容和地理位置信息地結(jié)合在一起,圖像識別和社交系統(tǒng)評分處理后,Google 能夠把質(zhì)量比較高的的圖片推送給用戶,優(yōu)化了用戶看地圖時的視覺感受。
大數(shù)據(jù)為 Google 帶來了豐厚的利潤,比如在美國你一旦上網(wǎng)就能感覺到時無處不在的 Google 廣告(AdSense)。當(dāng)然,它是一把雙刃劍,給站長們帶來收入的同時,但如何平衡用戶隱私的問題,是大數(shù)據(jù)處理需要克服的又一個技術(shù)難關(guān),或許還需要互聯(lián)網(wǎng)秩序的進一步完善去支持。
像在【上】中所說,除 Facebook 等幾個很領(lǐng)先的公司外,大部分公司要么還沒有能力自行處理數(shù)據(jù)的能力。最后附上兩個例子,想說這邊的大公司沒有獨立大數(shù)據(jù)部門也是正常的,采取外包合作是普遍現(xiàn)象:
Pinterest:
Pinterest 曾嘗試自行通過 Amazon EMR 建立數(shù)據(jù)處理平臺,但是因為其穩(wěn)定性無法控制和數(shù)據(jù)量增長過快的原因,最終決定改為使用 Qubole 提供的服務(wù)。在 Qubole 這個第三方平臺上,Pinterest 有能力處理其 0.7 億用戶每天所產(chǎn)生的海量數(shù)據(jù),并且能夠完成包括 ETL、搜索、ad