不過(guò) Zeesha 也坦言:“的確,我們都知道沒(méi)有大數(shù)據(jù)就沒(méi)有所謂的智能分析。但是我們現(xiàn)在所做的正是在這樣的前提下來(lái)找到新的合適的算法。”她并沒(méi)有深入去講目前團(tuán)隊(duì)所用的是什么思路,但是考慮到這個(gè)領(lǐng)域一時(shí)還沒(méi)有很成功的先例,我們有理由期待在 Zeesha 帶領(lǐng)下的 Evernote AI team 在近期做出一些有意思的成果。
Facebook:大數(shù)據(jù)主要用于外部廣告精準(zhǔn)投放和內(nèi)部交流
Facebook 有一個(gè)超過(guò) 30 人的團(tuán)隊(duì)花了近 4 年的時(shí)間才建立了 Facebook 的數(shù)據(jù)處理平臺(tái)。如今,F(xiàn)acebook 仍需要超過(guò) 100 名工程師來(lái)支持這個(gè)平臺(tái)的日常運(yùn)行。可想而知,光是大數(shù)據(jù)分析的基礎(chǔ)設(shè)施就已經(jīng)是一個(gè)耗時(shí)耗力的項(xiàng)目了。
Facebook 的一大價(jià)值就在于其超過(guò) 13.5 億活躍用戶每天發(fā)布的數(shù)據(jù)。而其大數(shù)據(jù)部門經(jīng)過(guò)七八年的摸索,才在 2013 年把部門的 key foundation 定位成廣告的精準(zhǔn)投放,開始建了一整套自己的數(shù)據(jù)處理系統(tǒng)和團(tuán)隊(duì)。并進(jìn)行了一系列配套的收購(gòu)活動(dòng),比如買下世界第二大廣告平臺(tái) Atlas。
據(jù)前 Facebook Data Infrastructure Manager Ashish Thusoo 介紹,F(xiàn)acebook 的數(shù)據(jù)處理平臺(tái)是一個(gè) self-service, self-managing 的平臺(tái),管理著超過(guò) 1 Exabyte 的數(shù)據(jù)。公司內(nèi)部的各個(gè)部門可以直接看到處理過(guò)的實(shí)時(shí)數(shù)據(jù),并根據(jù)需求進(jìn)一步分析。
目前公司超過(guò) 30% 的團(tuán)隊(duì),包括工程師、Product Managers、Business Analysts 等多個(gè)職位人群每個(gè)月都一定會(huì)使用這項(xiàng)服務(wù)。這個(gè)數(shù)據(jù)處理平臺(tái)的建立讓各個(gè)不同部門之間可以通過(guò)數(shù)據(jù)容易地交流,明顯改變了公司的運(yùn)行方式。
追溯歷史,F(xiàn)acebook 最早有大數(shù)據(jù)的雛形是在 2005 年,當(dāng)時(shí)是小扎克親自做的。方法很簡(jiǎn)單:用 Memcache 和 MySQL 進(jìn)行數(shù)據(jù)存儲(chǔ)和管理。
很快 bug 就顯現(xiàn)了,用戶量帶來(lái)數(shù)據(jù)的急速增大,使用 Memcache 和 MySQL 對(duì) Facebook 的快速開發(fā)生命周期(改變 - 修復(fù) - 發(fā)布)帶來(lái)了阻礙,系統(tǒng)同步不一致的情況經(jīng)常發(fā)生。基于這個(gè)問(wèn)題的解決方案是每秒 100 萬(wàn)讀操作和幾百萬(wàn)寫操作的 TAO(“The Associations and Objects”) 分布式數(shù)據(jù)庫(kù),主要解決特定資源過(guò)量訪問(wèn)時(shí)服務(wù)器掛掉的 bug。
小扎克在 2013 年第一季度戰(zhàn)略時(shí)提到的最重點(diǎn)就是公司的大數(shù)據(jù)方向,還特別提出不對(duì)盈利做過(guò)多需求,而是要求基于大數(shù)據(jù)來(lái)做好以下三個(gè)功能:
發(fā)布新的廣告產(chǎn)品。比如類似好友,管理特定好友和可以提升廣告商精確投放的功能。
除與Datalogix, Epsilon,Acxiom和BlueKai合作外,以加強(qiáng)廣告商定向投放廣告的能力。
通過(guò)收購(gòu)Atlas Advertising Suite,加強(qiáng)廣告商判斷數(shù)字媒體廣告投資回報(bào)率(ROI)。
LinkedIn:大數(shù)據(jù)如何直接支持銷售和變現(xiàn)賺錢
LinkedIn 大數(shù)據(jù)部門的一個(gè)重要功用是分析挖掘網(wǎng)站上巨大的用戶和雇主信息,并直接用來(lái)支持銷售并變現(xiàn)。其最核心團(tuán)隊(duì)商業(yè)分析團(tuán)隊(duì)的總監(jiān) Simon Zhang 說(shuō),現(xiàn)在國(guó)內(nèi)大家都在討論云,討論云計(jì)算,討論大數(shù)據(jù),討論大數(shù)據(jù)平臺(tái),但很少有人講:我如何用數(shù)據(jù)產(chǎn)生更多價(jià)值,通俗點(diǎn)講,直接賺到錢。
但這個(gè)問(wèn)題很重要,因?yàn)殛P(guān)系到直接收入。四年半前 LinkedIn 內(nèi)所有用戶的簡(jiǎn)歷里抽取出來(lái)大概有 300 萬(wàn)公司信息,作為銷售人員不可能給每個(gè)公司都打電話,所以問(wèn)題來(lái)了:哪家公司應(yīng)該打?打了后會(huì)是個(gè)有用的 call?
銷售們?nèi)?wèn) Simon,他說(shuō)只有通過(guò)數(shù)據(jù)分析。而這個(gè)問(wèn)題的答案在沒(méi)有大數(shù)據(jù)部門之前這些決策都是拍腦袋想象的。
Simon 和當(dāng)時(shí)部門僅有的另外三個(gè)同事寫出了一個(gè)模型后發(fā)現(xiàn):真正買 LinkedIn 服務(wù)的人,在決定的那個(gè)環(huán)節(jié)上,其實(shí)是一線的產(chǎn)品經(jīng)理,和用 LinkedIn 在上面獵聘的那些人。但他們做決策后是上面的老板簽字,這是一個(gè)迷惑項(xiàng)。數(shù)據(jù)分析結(jié)果出來(lái)后,他們銷售人員改變投放策略,把目標(biāo)群體放在這些中層的管理人身上,銷售轉(zhuǎn)化率瞬間增加了三倍。
那時(shí) LinkedIn 才 500 個(gè)人,Simon 一個(gè)人支持 200 名銷售人員。他當(dāng)時(shí)預(yù)測(cè)谷歌要花 10 個(gè) Million 美金在獵聘這一塊上,銷售人員說(shuō),Simon,這是不可能的事。
“但是數(shù)據(jù)就是這么顯示的,只有可能多不會(huì)少。我意識(shí)到,一定要流程化這個(gè)步驟。”
今天 LinkedIn 的“獵頭”這塊業(yè)務(wù)占據(jù)了總收入的 60%。是怎么在四年里發(fā)展起來(lái)的,他透露當(dāng)時(shí)建造這個(gè)模型有以下這么幾個(gè)步驟:
分析每個(gè)公司它有多少員工。
分析這個(gè)公司它招了多少人。