通過對大數(shù)據(jù)相關概念進行明確界定,企業(yè)可以正確地規(guī)劃自己的數(shù)據(jù)體系,并且對傳統(tǒng)的技術方法與新興的技術方法進行合適地定位。
IT技術迅猛發(fā)展,新技術層出不窮,但業(yè)界卻普遍對許多基本概念產(chǎn)生混淆。在當今最為流行的大數(shù)據(jù)領域也出現(xiàn)了這樣的情況。結構化數(shù)據(jù)、非結構化數(shù)據(jù)等概念被頻繁引用,卻各方往往各執(zhí)一詞。對數(shù)據(jù)概念的混淆已經(jīng)在很大程度上影響了企業(yè)對其數(shù)據(jù)體系進行清晰、正確的規(guī)劃。本文的作者從實際工作出發(fā),試圖對一些關鍵的大數(shù)據(jù)相關概念給出明確的定義,并進行簡要的解析。
一、按數(shù)據(jù)特征分類
■結構化數(shù)據(jù)
定義:目前其實專指的是關系模型數(shù)據(jù),即以關系型數(shù)據(jù)庫表形式管理的數(shù)據(jù)。絕大多數(shù)的企業(yè)業(yè)務數(shù)據(jù)都以此格式進行存放。
簡析:雖然從專業(yè)角度講,結構化就是關系模型的說法并不準確。但針對目前業(yè)內(nèi)現(xiàn)狀,還是將其定義為關系模型數(shù)據(jù)為最為妥當,因為它清晰而準確地代表了我們傳統(tǒng)上最熟悉的企業(yè)業(yè)務數(shù)據(jù),基本沒有歧義。
■半結構化數(shù)據(jù)
定義:半結構化與非結構化常常一同被提及,兩者其實專指所有其他“非”結構化數(shù)據(jù)。但如果想更加清晰地描述,可以將“半結構化數(shù)據(jù)”定義為:那些非關系模型的、有基本固定結構模式的數(shù)據(jù),例如應用日志文件、XML文檔、JSON文檔和電子郵件等。
簡析:從專業(yè)的角度講,上述結構化與半結構化數(shù)據(jù)都屬結構化數(shù)據(jù),但建議目前還是采用本定義為妥,否則會引起更大混淆。
■非結構化數(shù)據(jù)
定義:除去結構化與半結構化的所有數(shù)據(jù),即沒有固定結構模式的數(shù)據(jù),例如WORD、PDF、PPT、EXL文檔,以及各種格式的圖片和視頻等。
簡析:區(qū)分半結構化與非結構化數(shù)據(jù)的意義在于,目前在企業(yè)內(nèi)對兩者的處理方法(包括存儲、訪問與分析)是不同的。非結構化數(shù)據(jù)大多采用內(nèi)容管理的方法,但對半結構化數(shù)據(jù)基本沒有有效管理方法。
事實上,結構化、半結構化與非結構化數(shù)據(jù)的區(qū)分,實際上只是按數(shù)據(jù)格式進行分類,并且由來已久。嚴格來講,結構化與半結構化數(shù)據(jù)都是有基本固定結構模式的數(shù)據(jù)(即專業(yè)意義上的結構化數(shù)據(jù))。但目前業(yè)界的情況是,將其中的關系模型數(shù)據(jù)單獨定義為結構化數(shù)據(jù),這對企業(yè)數(shù)據(jù)管理現(xiàn)狀是可取的,并具有一定的現(xiàn)實意義。
另外,半結構與非結構化數(shù)據(jù)與目前流行的大數(shù)據(jù)之間只是有領域重疊的關系。本質(zhì)來講,兩者并無必然關系。業(yè)界有將大數(shù)據(jù)認同為半結構化與非結構化數(shù)據(jù)的說法,只是因為大數(shù)據(jù)技術最先是在半結構化數(shù)據(jù)領域發(fā)揮作用。上面的認識誤區(qū)是將數(shù)據(jù)處理技術與數(shù)據(jù)格式概念混淆,這是不正確的。
二、按數(shù)據(jù)處理技術分類
■大數(shù)據(jù)(技術)
定義:大數(shù)據(jù)是最近幾年興起的概念,業(yè)界普遍將其定義為具有4個V(數(shù)據(jù)量大Volume、變化速度快Velocity、多類型Variety與價值密度低Value)特征的數(shù)據(jù)。實際上,大數(shù)據(jù)的概念準確地講應該是指大數(shù)據(jù)技術,指對海量數(shù)據(jù)不同于SQL體系的新的、低成本的處理技術,而不是指數(shù)據(jù)格式或者其他。
簡析:業(yè)界對大數(shù)據(jù)的定義最為混亂,大致有以下幾個誤區(qū):有將大數(shù)據(jù)等同于半結構/非結構化數(shù)據(jù)的,而實際上大數(shù)據(jù)技術只是最先在半結構化數(shù)據(jù)領域發(fā)揮作用,現(xiàn)在已經(jīng)滲透到多結構領域;有將大數(shù)據(jù)等同于Hadoop的,而實際上Hadoop只是在掀起大數(shù)據(jù)熱潮方面發(fā)揮了巨大作用;有說大數(shù)據(jù)就是除企業(yè)業(yè)務數(shù)據(jù)庫之外的所有數(shù)據(jù),但卻有很多企業(yè)用大數(shù)據(jù)方法有效地分析與存儲某些業(yè)務數(shù)據(jù)。
另外,被內(nèi)容管理手段管理起來的數(shù)據(jù)又該如何界定呢?有的說大數(shù)據(jù)就是互聯(lián)網(wǎng)特征的數(shù)據(jù),那傳統(tǒng)企業(yè)就沒有大數(shù)據(jù)了嗎?有的說大數(shù)據(jù)就是量很大的數(shù)據(jù),這更是無法界定了。其實,仔細分析,還是將其定義為數(shù)據(jù)處理技術最為準確。除SQL體系與內(nèi)容管理技術外,大數(shù)據(jù)技術目前具有很豐富的內(nèi)容。除此之外,大數(shù)據(jù)技術一定是強調(diào)低成本的。
■關系數(shù)據(jù)庫技術
定義:與數(shù)據(jù)格式分類中的關系模型相比,這里是指SQL處理體系。
簡析:關系數(shù)據(jù)庫技術依然是企業(yè)數(shù)據(jù)管理的核心,大數(shù)據(jù)技術的定位需要進一步地考慮與研究。