眾所周知,在當(dāng)下,數(shù)據(jù)科學(xué)是一個(gè)蓬勃發(fā)展的領(lǐng)域,為什么會(huì)蓬勃發(fā)展呢?首先是因?yàn)榇髷?shù)據(jù)的發(fā)展。我們現(xiàn)在擁有了越來(lái)越多的數(shù)據(jù),這為數(shù)據(jù)科學(xué)的應(yīng)用創(chuàng)造了肥沃的土壤,進(jìn)而使得一個(gè)又一個(gè)奇跡的創(chuàng)造成為可能。拿大家都耳熟能詳?shù)腁lphaGo作為例子。
十年以前,人們說(shuō)計(jì)算機(jī)要在圍棋上打敗人類(lèi)需要50年到100年的時(shí)間,但是10年內(nèi)計(jì)算機(jī)就做到了這一點(diǎn)。為什么?就是因?yàn)榭梢垣@取的棋譜的數(shù)據(jù)逐步線上化,基于這些數(shù)據(jù)和一些更新的方法,而不是靠計(jì)算量解決這個(gè)問(wèn)題?;诖髷?shù)據(jù),很多影響人們生活的技術(shù)已經(jīng)被孕育出來(lái),比如計(jì)算廣告、推薦系統(tǒng),現(xiàn)在還正在蓬勃發(fā)展的無(wú)人駕駛車(chē)等等。
在TalkingData,我們每天都處理大量的數(shù)據(jù)。目前在我們的平臺(tái)上,日活是2.5億、月活是6.5億。每天我們能夠收到14TB的數(shù)據(jù),處理370億條消息,收到35億個(gè)位置定位點(diǎn)。這么龐大的數(shù)據(jù)基礎(chǔ),加上和TalkingData的合作伙伴進(jìn)行數(shù)據(jù)交換整合,我們形成了以人為中心的從里到外的三層數(shù)據(jù),包括人的數(shù)據(jù)、基本屬性、興趣愛(ài)好,以及人經(jīng)常出現(xiàn)的場(chǎng)景,在這些場(chǎng)景上的動(dòng)作、行為。
基于這樣的數(shù)據(jù)海洋,我們的數(shù)據(jù)科學(xué)工作在各個(gè)層次、各個(gè)領(lǐng)域也是全面開(kāi)花。為了支持在龐大的數(shù)據(jù)上去挖掘深度價(jià)值,我們?cè)诖笠?guī)模機(jī)器學(xué)習(xí)方面做了很多工作?;谒惴夹g(shù),我們支撐了很多數(shù)據(jù)挖掘的實(shí)際應(yīng)用,努力把數(shù)據(jù)科學(xué)、算法的能力融入到DataCloud、MarketingCloud這些公司重量級(jí)戰(zhàn)略性產(chǎn)品里面。
相關(guān)廠商內(nèi)容
Amazon ECS運(yùn)行應(yīng)用程序所使用的范式和工具大解密
亞馬遜AWS首席云計(jì)算技術(shù)顧問(wèn)費(fèi)良宏做客InfoQ在線課堂
如何更好地設(shè)置、管理和擴(kuò)展你的Amazon ECS
相關(guān)贊助商

更多AWS最新精彩內(nèi)容和活動(dòng),請(qǐng)關(guān)注AWS專(zhuān)區(qū)!
同時(shí),我們也會(huì)基于數(shù)據(jù)挖掘的能力以及相應(yīng)的應(yīng)用和產(chǎn)品,幫助我們的客戶去創(chuàng)造更大的價(jià)值。現(xiàn)在我們?cè)阢y行、地產(chǎn)、互聯(lián)網(wǎng)金融、零售里面都有很多成功的案例。在這里就不一一介紹了。
講完了目前數(shù)據(jù)科學(xué)的現(xiàn)狀,我們來(lái)講講數(shù)據(jù)科學(xué)面臨的挑戰(zhàn)。我們看到最大的挑戰(zhàn)是數(shù)據(jù)量的迅速膨脹??吹竭@樣一個(gè)報(bào)告:在2015年全球存儲(chǔ)的數(shù)據(jù)是不到8ZB(1ZB相當(dāng)于100萬(wàn)個(gè)PB的數(shù)據(jù))。到了五年之后的2020年,這個(gè)數(shù)字將達(dá)到35ZB,數(shù)據(jù)的膨脹速度是非??斓?。這就帶來(lái)了兩個(gè)大問(wèn)題,其中一個(gè)是計(jì)算的瓶頸。雖然現(xiàn)在一般的大數(shù)據(jù)技術(shù)已經(jīng)能夠處理很大的數(shù)據(jù)量了,但是在數(shù)據(jù)科學(xué)領(lǐng)域,很多機(jī)器學(xué)習(xí)算法有這樣的特性,當(dāng)數(shù)據(jù)增長(zhǎng)一倍的時(shí)候,相應(yīng)計(jì)算量要增加4倍或8倍,也就是呈幾次方的速率來(lái)增長(zhǎng)??梢韵胂?,數(shù)據(jù)量的膨脹對(duì)于計(jì)算資源的需求是會(huì)呈幾何級(jí)數(shù)的擴(kuò)大的。
據(jù)美國(guó)的報(bào)道,到2018年整個(gè)美國(guó)可能會(huì)有19萬(wàn)數(shù)據(jù)科學(xué)家的缺口。因?yàn)槲覀償?shù)據(jù)膨脹很快,帶來(lái)了很多新的數(shù)據(jù)的問(wèn)題,也帶來(lái)相應(yīng)的新的探索機(jī)會(huì)。但是數(shù)據(jù)科學(xué)家的隊(duì)伍的發(fā)展和培養(yǎng)是沒(méi)有那么快的。在美國(guó)2018年的缺口是19萬(wàn),以中國(guó)的體量來(lái)看,肯定會(huì)有更多、更大的缺口。
計(jì)算的瓶頸,人的瓶頸都是我們面臨的挑戰(zhàn)。我們今天就來(lái)說(shuō)說(shuō)TalkingData是怎么去解決這兩個(gè)難題的。
突破計(jì)算的瓶頸
首先是怎么去突破計(jì)算上的瓶頸。剛才也談到了計(jì)算上的瓶頸,在這里說(shuō)的更細(xì)一點(diǎn),為什么計(jì)算量是隨著數(shù)據(jù)超線性增長(zhǎng)的?這邊引用了非常有名的Machine Learning一篇文章,里面總結(jié)了機(jī)器學(xué)習(xí)的十大算法的復(fù)雜度。M是數(shù)據(jù)量,N是數(shù)據(jù)的維度,可以看到所有的算法要么是跟維度乘平方或三次方的關(guān)系,或者是跟M是平方或三次方的關(guān)系。
在小數(shù)據(jù)上不太突出的問(wèn)題,比如在算法上需要多次迭代,在大數(shù)據(jù)的情況下,由于必須把數(shù)據(jù)放在HDFS上面, I/O的代價(jià)是非常龐大的。我們自己測(cè)算過(guò)一些,實(shí)際上真正計(jì)算的開(kāi)銷(xiāo)僅僅占到全部開(kāi)銷(xiāo)的5%到10%,90%到95%的時(shí)間都花在I/O上面。