隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,當(dāng)今網(wǎng)絡(luò)中每天都在產(chǎn)生海量的信息,這其中包括半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。組織可以通過(guò)對(duì)海量信息的分析了解到他們客戶真正需要的以及為什么需要的原因。如今Apache Hadoop已成為大數(shù)據(jù)行業(yè)發(fā)展背后的驅(qū)動(dòng)力。
Facebook的工程師相信他們運(yùn)行著最大的基于Hadoop的數(shù)據(jù)收集平臺(tái)。Facebook基礎(chǔ)設(shè)施工程副總裁Jay Parikh表示Facebook大多數(shù)的網(wǎng)站數(shù)據(jù)存儲(chǔ)在單一的集群之中,容量可達(dá)100PB,F(xiàn)acebook的集群相比于其他公司的集群可謂是獨(dú)樹(shù)一幟。
Facebook產(chǎn)品團(tuán)隊(duì)部門(mén)通過(guò)(每30分鐘掃描105TB的數(shù)據(jù)的過(guò)程)來(lái)衡量產(chǎn)品,同時(shí)Facebook管理著數(shù)以百萬(wàn)計(jì)的照片和數(shù)十億like按鈕流量日志,以便根據(jù)用戶的喜好為用戶推薦喜歡的內(nèi)容。
以下為Facebook每天的數(shù)據(jù)流量