什么是大數(shù)據(jù)"Big Data"?
我們生活在一個(gè)信息爆炸時(shí)代,我們每天都會接收到多種的信息:短信、郵件、電話……,我們每天也在生產(chǎn)多種的信息:微博、博客、FRID……。各種各樣的信息充斥著這個(gè)世界,我們該如何應(yīng)對和利用好如此龐大的信息?這些問題帶來的挑戰(zhàn),讓業(yè)界對"大數(shù)據(jù)"的熱情達(dá)到了前所未有的高度。不久前,記者參加了領(lǐng)先的企業(yè)數(shù)據(jù)集成軟件獨(dú)立供應(yīng)商Informatica公司舉行的研討會,與Informatica中國區(qū)首席產(chǎn)品顧問但彬先生深入交流了有關(guān)大數(shù)據(jù)主題的內(nèi)容。
Informatica中國區(qū)首席產(chǎn)品顧問但彬
什么是大數(shù)據(jù)"Big Data"?
盡管"Big Data"可以翻譯成大數(shù)據(jù)或者海量數(shù)據(jù),但大數(shù)據(jù)和海量數(shù)據(jù)是有區(qū)別的。Informatica中國區(qū)首席產(chǎn)品顧問但彬認(rèn)為:"大數(shù)據(jù)"包含了"海量數(shù)據(jù)"的含義,而且在內(nèi)容上超越了海量數(shù)據(jù),簡而言之,"大數(shù)據(jù)"是"海量數(shù)據(jù)"+復(fù)雜類型的數(shù)據(jù)。
大數(shù)據(jù)包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)模或復(fù)雜程度超出了常用技術(shù)按照合理的成本和時(shí)限捕捉、管理及處理這些數(shù)據(jù)集的能力。大數(shù)據(jù)是由三項(xiàng)主要技術(shù)趨勢匯聚組成:
海量交易數(shù)據(jù):在從 ERP 應(yīng)用程序到數(shù)據(jù)倉庫應(yīng)用程序的在線交易處理(OLTP)與分析系統(tǒng)中,傳統(tǒng)的關(guān)系數(shù)據(jù)以及非結(jié)構(gòu)化和半結(jié)構(gòu)化信息仍在繼續(xù)增長。隨著企業(yè)將更多的數(shù)據(jù)和業(yè)務(wù)流程移向公共和私有云,這一局面變得更加復(fù)雜。
海量交互數(shù)據(jù):這一新生力量由源于 Facebook、Twitter、LinkedIn 及其它來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄(CDR)、設(shè)備和傳感器信息、GPS 和地理定位映射數(shù)據(jù)、通過管理文件傳輸(Manage File Transfer)協(xié)議傳送的海量圖像文件、Web 文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等。
海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu),例如具有開放源碼、在商品硬件群中運(yùn)行的 Apache Hadoop。對于企業(yè)來說,難題在于以具備成本效益的方式快速可靠地從 Hadoop 中存取數(shù)據(jù)。
具體到一家企業(yè)/機(jī)構(gòu),對于大數(shù)據(jù)沒有明確的規(guī)模定義,不過通常其數(shù)量介于幾十個(gè)太字節(jié)到多個(gè)拍字節(jié)之間。一項(xiàng)由 Unisphere Research 對531名獨(dú)立 Oracle 用戶進(jìn)行的調(diào)查發(fā)現(xiàn),百分之九十的企業(yè)的數(shù)據(jù)量在迅速上漲,其中16%的企業(yè)每年的增長率達(dá)到50%或更高。
不少企業(yè)已經(jīng)感受到失控?cái)?shù)據(jù)增長對績效造成的沖擊。一項(xiàng)由 Informatica 贊助的 Unisphere Research 調(diào)查發(fā)現(xiàn)87%的受訪者將企業(yè)的應(yīng)用程序性能問題歸咎于不斷增長的數(shù)據(jù)量。