根據IDC的調查報告顯示,2010年底全球數(shù)據量已達到1.2ZB。到2020年全球電子設備存儲的數(shù)據將暴增30倍,達到35ZB(相當于10億塊1TB的硬盤的容量)。但對于有準備的企業(yè)來說這無疑是一座信息金礦,隨著數(shù)據挖掘技術的進步,有價值的信息將變得容易獲取。
隨著大數(shù)據時代的到來,數(shù)據存儲、數(shù)據挖掘以及處理和分析大數(shù)據的相關技術比以往任何時候都更受關注。大數(shù)據正成為企業(yè)發(fā)展的基石,并漸漸改變很多行業(yè)的商業(yè)模式。使用諸如Hadoop等非傳統(tǒng)的數(shù)據篩選工具處理海量的結構化和非結構化數(shù)據正成為一種趨勢。
人們對大數(shù)據普遍存在誤區(qū)
IDC報告表示企業(yè)中大數(shù)據的出現(xiàn)在部分程度上要歸功于計算機硬件成本的降低以及當今的計算系統(tǒng)已能夠執(zhí)行多重任務。與此同時,隨著主存儲器成本的降低,企業(yè)比以往任何時候都更適合在“內存”中處理更多的數(shù)據。更重要的是,當今將服務器連接到集群中比以往簡單得多。以上三點因素也促成了大數(shù)據的產生。
而現(xiàn)今,人們普遍對于大數(shù)據技術認識存在三點誤區(qū)。首先是認為關系數(shù)據庫無法擴展到非常大的容量,因此不適用于大數(shù)據技術。其次無論工作負載和業(yè)務具體的情況,Hadoop或衍生的相關技術都是處理大數(shù)據最好的技術。最后數(shù)據庫管理系統(tǒng)示意圖的時代已經結束。
在大數(shù)據時代,企業(yè)不僅要處理業(yè)務帶來的數(shù)據,同時還要合理規(guī)劃成本。過去,超級計算機系統(tǒng)雖然具有多重處理的能力,但其通常是龐大的集群。同時由于超級計算機需要配置專有的硬件,所以其造價都在幾十萬美元或更多。而現(xiàn)在企業(yè)可以用普通的硬件組建與以往超級計算機性能相當?shù)臋C器。這就是為什么現(xiàn)在企業(yè)可以更快、更廉價的處理大量的數(shù)據。
同時,大數(shù)據技術想要普及并得到認可首需解決的就是成本問題。并不是每一個擁有龐大數(shù)據倉庫的企業(yè)都使用了大數(shù)據技術。企業(yè)需要滿足數(shù)據多格式(結構化、非結構化、半結構化)、海量數(shù)據(需要存儲或分析的大數(shù)據)、數(shù)據處理速度這三點因素。
Hadoop備受青睞但并非全部
目前的狀況是Hadoop技術已經成為處理海量數(shù)據的首選。Hadoop的開源模式吸引了大量相關人員對其進行開發(fā)和創(chuàng)新,這也是Hadoop在海量數(shù)據處理方面走在前邊的重要原因。包括Microsoft、IBM、Oracle、Cloudera、MapR等眾多廠商相繼推出了與自身相結合的Hadoop產品。
同時為了配合Hadoop技術,軟件開發(fā)商們也研發(fā)出了各種各樣的新技術,其中很多都是出自開源社區(qū)。例如NoSQL,據悉NoSQL一詞最早出現(xiàn)于1998年,是Carlo Strozzi開發(fā)的一個輕量、開源、不提供SQL功能的數(shù)據庫。NoSQL提供的方法對于SQL數(shù)據庫來說有巨大的優(yōu)勢。因為它允許應用程序擴展的新的水平。新的數(shù)據服務基于真正可擴展的結構和體系構建云、構建分布式。這對于應用開發(fā)來說是非常有吸引力的。無需DBA,無需復雜的SQL查詢。
目前Google的BigTable和Amazon的Dynamo都用NoSQL型數(shù)據庫,而傳統(tǒng)的關系數(shù)據庫在應付超大規(guī)模、高并發(fā)的SNS、Web2.0網站已經力不從心。但NoSQL也非萬能,具體而言,數(shù)據模型的選擇、接口規(guī)范以及當前面臨的新業(yè)務比如移動業(yè)務數(shù)據的處理問題,都是NoSQL無法回避的。
不過,認為Hadoop就是大數(shù)據一切的觀點顯然是錯誤的。除了Hadoop,Teradata、HPCC等技術在不使用Hadoop的情況下同樣可以實現(xiàn)處理大數(shù)據。
數(shù)據金礦有待挖掘
大數(shù)據帶來的挑戰(zhàn)將轉化成大機遇。利用大數(shù)據的交互與集成,可以獲得可擴展的、低成本的路徑。新型數(shù)據集成平臺可以將大數(shù)據轉換成值得信賴的權威數(shù)據,企業(yè)可以借此獲得競爭的洞察力并改善業(yè)務。大數(shù)據集成將幫助數(shù)據驅動型企業(yè)釋放完整經營的潛力。
同時大數(shù)據不只是關于數(shù)據量而已。成功的企業(yè)必須在不斷增加的需求上運用多樣化的新型、復雜的數(shù)據發(fā)展出跨企業(yè)、整合的交易、客戶和財務觀點。收集、存儲龐大的新型數(shù)據充滿了挑戰(zhàn),然而分析這些數(shù)據的新方法才是幫助最成功企業(yè)甩開競爭對手的利器。
對于海量的數(shù)據信息,如何對這些數(shù)據進行復雜的應用成了現(xiàn)今數(shù)據倉庫、商業(yè)智能和數(shù)據分析技術的研究熱點。數(shù)據挖掘就是從大量的數(shù)據中發(fā)現(xiàn)隱含的規(guī)律性的內容,解決數(shù)據的應用質量問題。充分利用有用的數(shù)據,廢棄虛偽無用的數(shù)據,是數(shù)據挖掘技術的最重要的應用。傳統(tǒng)的數(shù)據庫中的數(shù)據結構性很強,即其中的數(shù)據為完全結構化的數(shù)據,而目前數(shù)據最大特點就是半結構化,因此此類數(shù)據挖掘比面向單個數(shù)據倉庫的數(shù)據挖掘要復雜得多。