大數(shù)據(jù)應(yīng)用(BDA)是企業(yè)級應(yīng)用的新方向,大數(shù)據(jù)應(yīng)用架構(gòu)也成為新一代企業(yè)級應(yīng)用架構(gòu)的核心。傳統(tǒng)企業(yè)級架構(gòu)是由業(yè)務(wù)架構(gòu)、數(shù)據(jù)架構(gòu)和技術(shù)架構(gòu)組成,大數(shù)據(jù)應(yīng)用架構(gòu)與傳統(tǒng)企業(yè)架構(gòu)的不同也正是體現(xiàn)在數(shù)據(jù)、業(yè)務(wù)和技術(shù)架構(gòu)的獨特性。
大數(shù)據(jù)應(yīng)用:數(shù)據(jù)、業(yè)務(wù)與技術(shù)
數(shù)據(jù)是大數(shù)據(jù)應(yīng)用的基礎(chǔ)。大數(shù)據(jù)應(yīng)用處理和分析的數(shù)據(jù)是“大”數(shù)據(jù),具有4V的特點,首先是大,TB級甚至PB級的數(shù)據(jù),可能是單個大文件,也可能是海量的小文件群;其次是復(fù)雜,不再是結(jié)構(gòu)化的數(shù)據(jù)庫,更多的是半結(jié)構(gòu)化的,甚至非結(jié)構(gòu)化的數(shù)據(jù),讀取這些數(shù)據(jù),費時費力;再有這些數(shù)據(jù)的處理,后臺可能是實時的,近實時的,或者離線的,但對用戶而言,讀取寫入要無延時。這些數(shù)據(jù)不再只是業(yè)務(wù)系統(tǒng)中的數(shù)據(jù),它們可能來自互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、社區(qū)網(wǎng)絡(luò)、物聯(lián)網(wǎng)上的各個角落,采集這些數(shù)據(jù)本身就是一件復(fù)雜的事情,更何況還要對它們進(jìn)行處理和分析。數(shù)據(jù)與業(yè)務(wù)、技術(shù)的關(guān)系是,大數(shù)據(jù)處理的業(yè)務(wù)目的是發(fā)現(xiàn)大數(shù)據(jù)中的“信息”和“知識”,大數(shù)據(jù)對技術(shù)的要求是能夠高效地處理這么復(fù)雜的數(shù)據(jù)。
業(yè)務(wù)是大數(shù)據(jù)應(yīng)用的目的。大數(shù)據(jù)處理的業(yè)務(wù)流程是采集數(shù)據(jù)、聚合數(shù)據(jù)、分析數(shù)據(jù)和展現(xiàn)數(shù)據(jù)。通過這樣的業(yè)務(wù)流程,要發(fā)現(xiàn)大數(shù)據(jù)中蘊含的信息價值,發(fā)現(xiàn)洞察力。這種洞察力是業(yè)務(wù)系統(tǒng)中的傳統(tǒng)數(shù)據(jù)分析和挖掘所不能發(fā)現(xiàn)的,大數(shù)據(jù)的全集數(shù)據(jù)的分析和挖掘,給了一個很令人期待的承諾:發(fā)現(xiàn)相關(guān)性!也許這種相關(guān)性,并不能建立傳統(tǒng)的因果邏輯,但卻能發(fā)現(xiàn)數(shù)據(jù)之間的更多隱藏的秘密。這種相關(guān)性的商業(yè)應(yīng)用,帶來了巨大的商業(yè)價值,這是傳統(tǒng)邏輯思維所不能想象的。于是,發(fā)現(xiàn)相關(guān)性的算法就成為了業(yè)務(wù)架構(gòu)的關(guān)鍵,客戶細(xì)分、聚類、相關(guān)性分析、預(yù)測分析等相關(guān)的機器學(xué)習(xí)算法,應(yīng)用在大數(shù)據(jù)上,成為業(yè)務(wù)分析的主流。
技術(shù)是大數(shù)據(jù)應(yīng)用的手段。在大數(shù)據(jù)上發(fā)現(xiàn)規(guī)律,這不是現(xiàn)有的數(shù)據(jù)庫、數(shù)據(jù)倉庫所能勝任的。數(shù)據(jù)大,怎么辦?分解它!在分布式文件系統(tǒng)(HDFS)上用分布式計算程序(MapReduce)去計算,讓程序把作業(yè)進(jìn)行分解,Map計算,再Reduce匯總。集中式系統(tǒng)所不能解決的問題,在分布式計算系統(tǒng)上就迎刃而解。有了分布式的計算,就需要與之匹配的分布式數(shù)據(jù)庫、分布式的數(shù)據(jù)倉庫。于是,適用于分布式計算的列式數(shù)據(jù)庫、架構(gòu)在Hadoop之上的Hive被用來解決數(shù)據(jù)庫和數(shù)據(jù)查詢分析的問題。并不是所有的大數(shù)據(jù)都是大塊的數(shù)據(jù),有的數(shù)據(jù)很小,但需要頻繁讀寫,而且要求低延時獲得分析結(jié)果,在這種情況下,Hadoop也不能勝任。于是,輕量級的內(nèi)存計算工具Spark,適用于實時處理的流計算工具Storm等框架被開發(fā)出來,解決處理大數(shù)據(jù)所需要、Hadoop卻不擅長的工作。所有這些技術(shù),都是服務(wù)于兩件事:一是處理大數(shù)據(jù),二是為業(yè)務(wù)需要從大數(shù)據(jù)中提取出洞察力。所以,只要能解決好這兩件事,技術(shù)人員可以用最擅長的工具來進(jìn)行組合應(yīng)用。這就讓大數(shù)據(jù)的技術(shù)工具層出不窮,但處理大數(shù)據(jù)難度越來越低,業(yè)務(wù)價值的實現(xiàn)越來越容易。
業(yè)務(wù)、數(shù)據(jù)和技術(shù),大數(shù)據(jù)應(yīng)用的核心要素,也是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的關(guān)鍵。實現(xiàn)業(yè)務(wù)大價值,需要擁有大數(shù)據(jù),也需要掌握大數(shù)據(jù)技術(shù)工具,三者缺一不可!
作者:趙剛,你可以關(guān)注他的微博@趙剛