定義:主要是指企業(yè)對非結(jié)構(gòu)化數(shù)據(jù),也包括部分結(jié)構(gòu)化數(shù)據(jù)按“內(nèi)容”特征組織、管理與訪問的處理方法,是企業(yè)目前除關系型數(shù)據(jù)庫技術(shù)之外,最常用的另一重要的技術(shù)方法與工具。
簡析:是企業(yè)目前處理非結(jié)構(gòu)化數(shù)據(jù)最主要的手段,企業(yè)對半結(jié)構(gòu)化數(shù)據(jù)目前基本沒有有效管理與利用。
■其他技術(shù)
定義:企業(yè)還可能采用如低成本的分布式文件系統(tǒng)、MySQL聯(lián)邦、海量內(nèi)存數(shù)據(jù)管理技術(shù),以及介于Hadoop與SQL體系之間的新技術(shù)(適用于歷史數(shù)據(jù)管理)等其他數(shù)據(jù)管理技術(shù),這些技術(shù)部分可以歸入大數(shù)據(jù)技術(shù)的范疇。
簡析:互聯(lián)網(wǎng)行業(yè)常用的MySQL聯(lián)邦是采用關系模型的結(jié)構(gòu)化數(shù)據(jù),但卻不是等同于分布式關系型數(shù)據(jù)庫,因為它犧牲了完整關系型數(shù)據(jù)庫全局的一致性、完整性保證,卻獲得了更優(yōu)秀的擴展性。因此,它也屬于大數(shù)據(jù)技術(shù)。
除此之外,分布式文件系統(tǒng)使企業(yè)對海量小文件管理有了新的方法,也屬于大數(shù)據(jù)技術(shù);低成本海量內(nèi)存數(shù)據(jù)管理技術(shù)使交易系統(tǒng)的能力進一步實現(xiàn)低成本地提升,也屬于大數(shù)據(jù)技術(shù)。可見,大數(shù)據(jù)技術(shù)是面向結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的,而不只是針對半結(jié)構(gòu)化數(shù)據(jù)。
因此,大數(shù)據(jù)更多的是指技術(shù)方法,而不是指數(shù)據(jù)格式,是指除SQL體系與內(nèi)容管理技術(shù)之外,新出現(xiàn)的一些數(shù)據(jù)管理技術(shù)。而大數(shù)據(jù)所謂的“大”并沒有相關的標準。在大數(shù)據(jù)技術(shù)中,Hadoop只是最重要的一個,而不是唯一的一個,其他還有NoSQL、分布式文件系統(tǒng)、MySQL關系型數(shù)據(jù)庫聯(lián)邦、海量內(nèi)存數(shù)據(jù)管理技術(shù)等。
大數(shù)據(jù)技術(shù)可以應對的數(shù)據(jù)類型中,企業(yè)目前還沒有有效管理和處理的半結(jié)構(gòu)化數(shù)據(jù)只是其最早發(fā)揮作用的部分。而實際上,它還可以應對包括結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化在內(nèi)的所有數(shù)據(jù)類型。
另外,需要澄清和明確的是,大數(shù)據(jù)技術(shù)一定要是低成本的,否則沒有立足點。同時,關系型數(shù)據(jù)庫技術(shù)仍然是企業(yè)數(shù)據(jù)管理的核心。內(nèi)容管理是目前企業(yè)組織、存儲與訪問非結(jié)構(gòu)化數(shù)據(jù)的主要手段,如果引入大數(shù)據(jù)技術(shù)來處理非結(jié)構(gòu)化數(shù)據(jù),除更低成本的考慮外,應該是指內(nèi)容管理技術(shù)尚未涉及的數(shù)據(jù)分析領域,例如圖片、視頻分析,但這對于銀行等行業(yè)實際需求應該還比較遙遠。
企業(yè)IT人員對以上概念應該明確界定,可將其數(shù)據(jù)類型分為“結(jié)構(gòu)化”、“半結(jié)構(gòu)化”和“非結(jié)構(gòu)化”三種。同時,企業(yè)可以將數(shù)據(jù)處理方法劃分為“關系數(shù)據(jù)庫技術(shù)”、“大數(shù)據(jù)技術(shù)”、“內(nèi)容管理技術(shù)”及其他。在清晰地概念定義基礎上,企業(yè)不但可以正確地規(guī)劃自己的數(shù)據(jù)體系,并且可以對傳統(tǒng)的技術(shù)方法與新興的技術(shù)方法進行合適地定位。