Apache Spark
作為Hadoop生態(tài)系統(tǒng)的一部分的Apache Spark是一個(gè)開源的集群計(jì)算框架,它可充當(dāng)在Hadoop中處理大數(shù)據(jù)的引擎。Spark已經(jīng)成為關(guān)鍵的大數(shù)據(jù)分布式處理框架之一,而且它可以通過多種方式進(jìn)行部署。它為Java、Scala、Python(尤其是Natrona Python發(fā)行版)和R編程語言(R特別適用于大數(shù)據(jù))提供本地綁定,它還支持SQL、流數(shù)據(jù)、機(jī)器學(xué)習(xí)和圖形處理。
數(shù)據(jù)湖泊
數(shù)據(jù)湖泊是存儲庫,這個(gè)存儲庫可以容納大量以原始格式的形式存在的數(shù)據(jù),直到業(yè)務(wù)用戶需要數(shù)據(jù)為止。數(shù)字化轉(zhuǎn)型舉措和物聯(lián)網(wǎng)的發(fā)展是數(shù)據(jù)湖泊發(fā)展的推手。數(shù)據(jù)湖的宗旨是,在用戶有需求時(shí),使他們更輕松地訪問大量的數(shù)據(jù)。
NoSQL數(shù)據(jù)庫
常規(guī)的SQL數(shù)據(jù)庫是為可靠的事務(wù)(transactions)和即時(shí)查詢(ad hoc queries)而設(shè)計(jì)的,但它們具有嚴(yán)謹(jǐn)架構(gòu)(schema)之類的限制,這些限制使得它們不太適合某些類型的應(yīng)用程序。NoSQL數(shù)據(jù)庫解決了這些限制,并以這樣的方式存儲和管理數(shù)據(jù)——將高操作速度和巨大的靈活性考慮進(jìn)來。很多NoSQL數(shù)據(jù)庫都是由這樣的公司開發(fā)的——這些公司追求能為大量網(wǎng)站存儲內(nèi)容或處理數(shù)據(jù)的更好的方法。NoSQL數(shù)據(jù)庫與SQL數(shù)據(jù)庫不同的是,前者可以在數(shù)百或數(shù)千臺服務(wù)器上水平擴(kuò)大和縮小規(guī)模。
內(nèi)存數(shù)據(jù)庫
內(nèi)存數(shù)據(jù)庫(IMDB)是一種數(shù)據(jù)庫管理系統(tǒng),它主要依靠主存儲器而不是磁盤來存儲數(shù)據(jù)。內(nèi)存數(shù)據(jù)庫比磁盤優(yōu)化的數(shù)據(jù)庫運(yùn)行得更快,這是大數(shù)據(jù)分析使用和數(shù)據(jù)倉庫和數(shù)據(jù)集市創(chuàng)建的重要考慮因素。
大數(shù)據(jù)技能
大數(shù)據(jù)和大數(shù)據(jù)分析工作需要特定的技能,無論這些技能是從組織內(nèi)部還是外部專家那里獲取。
這其中有很多技能都與關(guān)鍵的大數(shù)據(jù)技術(shù)組件相關(guān),如Hadoop、Spark、NoSQL數(shù)據(jù)庫,內(nèi)存數(shù)據(jù)庫和分析軟件。
其它技能則針對數(shù)據(jù)科學(xué)、數(shù)據(jù)挖掘、統(tǒng)計(jì)和定量分析、數(shù)據(jù)可視化、通用編程以及數(shù)據(jù)結(jié)構(gòu)和算法等學(xué)科。我們還需要具備全面管理技能的人員來完成大數(shù)據(jù)項(xiàng)目。
鑒于大數(shù)據(jù)分析項(xiàng)目的普遍性在以及這一系列技能的人才的短缺,尋找有經(jīng)驗(yàn)的專業(yè)人員可能是組織面臨的最大挑戰(zhàn)之一。
大數(shù)據(jù)用例
大數(shù)據(jù)和分析可以應(yīng)用于很多業(yè)務(wù)問題和用例。下面就是幾個(gè)例子:
客戶分析。公司可以檢驗(yàn)客戶數(shù)據(jù)以改善客戶體驗(yàn),提高轉(zhuǎn)化率并增加留存率。
運(yùn)營分析。提高運(yùn)營績效并更好地利用企業(yè)資產(chǎn)是很多公司的目標(biāo)。大數(shù)據(jù)分析可以幫助企業(yè)找到更高效地運(yùn)營的方法,以及提高績效的方法。
預(yù)防詐騙。數(shù)據(jù)分析有助于發(fā)現(xiàn)可能表明出欺詐行為的可疑活動(dòng)和模式,并有助于降低風(fēng)險(xiǎn)。
價(jià)格優(yōu)化。公司可以使用大數(shù)據(jù)分析來優(yōu)化他們?yōu)楫a(chǎn)品和服務(wù)收取的價(jià)格,從而幫助提高收入。