13.數(shù)據(jù)科學(xué)家。我們談?wù)摰氖且粋€(gè)如此熱門的職業(yè)!數(shù)據(jù)科學(xué)家們可以通過(guò)提取原始數(shù)據(jù)(難道是從前文所說(shuō)的數(shù)據(jù)湖中提取的?),處理數(shù)據(jù),然后提出新見解。數(shù)據(jù)科學(xué)家所需具備的一些技能與超人無(wú)異:分析、統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)、創(chuàng)造力、故事講述和理解業(yè)務(wù)環(huán)境。難怪他們能獲得如此高的薪水報(bào)酬。
14.分布式文件系統(tǒng)。由于大數(shù)據(jù)太大而無(wú)法在單個(gè)系統(tǒng)上進(jìn)行存儲(chǔ),分布式文件系統(tǒng)提供一種數(shù)據(jù)存儲(chǔ)系統(tǒng),方便跨多個(gè)存儲(chǔ)設(shè)備進(jìn)行大量數(shù)據(jù)的存放,并有助于降低大量數(shù)據(jù)存儲(chǔ)的成本和復(fù)雜度。
15. ETL。ETL分別是extract,transform,load的首字母縮寫,代表提取、轉(zhuǎn)化和加載的過(guò)程。 它具體是指“提取”原始數(shù)據(jù),通過(guò)數(shù)據(jù)清洗/修飾的方式進(jìn)行“轉(zhuǎn)化”以獲得 “適合使用”的數(shù)據(jù),進(jìn)而“加載”到合適的存儲(chǔ)庫(kù)中供系統(tǒng)使用的整個(gè)過(guò)程。盡管ETL這一概念源于數(shù)據(jù)倉(cāng)庫(kù),但現(xiàn)在也適用于其它情景下的過(guò)程,例如在大數(shù)據(jù)系統(tǒng)中從外部數(shù)據(jù)源獲取/吸收數(shù)據(jù)。
16. Hadoop。人們一想起大數(shù)據(jù)就能立即想到Hadoop。 Hadoop(擁有可愛的大象LOGO)是一個(gè)開源軟件框架,主要組成部分是Hadoop分布式文件系統(tǒng)(HDFS),Hadoop部署了分布式硬件以支持大型數(shù)據(jù)集的存儲(chǔ)、檢索和分析。如果你真的想給別人留下深刻的印象,還可以談?wù)刌ARN(Yet Another Resource Schedule,另一個(gè)資源調(diào)度器),正如其名,它也是一個(gè)資源調(diào)度器。我由衷佩服這些為程序命名的人。為Hadoop命名的Apache基金會(huì)還想出了Pig,Hive和Spark(沒錯(cuò),它們都是各種軟件的名稱)。這些名字難道不讓你感到印象深刻嗎?
17. 內(nèi)存計(jì)算。一般來(lái)說(shuō),任何可以在不訪問I / O的情況下進(jìn)行的計(jì)算預(yù)計(jì)會(huì)比需要訪問I/O的速度更快。內(nèi)存內(nèi)計(jì)算是一種能夠?qū)⒐ぷ鲾?shù)據(jù)集完全轉(zhuǎn)移到集群的集體內(nèi)存中、并避免了將中間計(jì)算寫入磁盤的技術(shù)。Apache Spark便是一種內(nèi)存內(nèi)計(jì)算系統(tǒng),它與I / O相比,在像Hadoop MapReduce這樣的系統(tǒng)上綁定具有巨大的優(yōu)勢(shì)。
18. IOT。最新的流行語(yǔ)是物聯(lián)網(wǎng)(Internet of things,簡(jiǎn)稱IOT)。IOT是通過(guò)互聯(lián)網(wǎng)將嵌入式對(duì)象(傳感器、可穿戴設(shè)備、汽車、冰箱等)中的計(jì)算設(shè)備互連在一起,并且能夠發(fā)送/接收數(shù)據(jù)。IOT產(chǎn)生了大量的數(shù)據(jù),這為呈現(xiàn)大數(shù)據(jù)分析提供了更多的機(jī)會(huì)。
19.機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是為了設(shè)計(jì)一種基于提供的數(shù)據(jù)能夠進(jìn)行不斷學(xué)習(xí)、調(diào)整、改進(jìn)的系統(tǒng)的設(shè)計(jì)方法。機(jī)器使用預(yù)測(cè)和統(tǒng)計(jì)的算法進(jìn)行學(xué)習(xí)并專注于實(shí)現(xiàn)“正確的”行為模式和簡(jiǎn)見解,隨著越來(lái)越多的數(shù)據(jù)注入系統(tǒng)它還在不斷進(jìn)行優(yōu)化改進(jìn)。典型的應(yīng)用有欺詐檢測(cè)、在線個(gè)性化推薦等。
20.MapReduce。MapReduce的概念可能會(huì)有點(diǎn)混亂,但讓我試一試。MapReduce是一個(gè)編程模型,最好的理解方法是將Map和Reduce是看作兩個(gè)獨(dú)立的單元。在這種情況下,編程模型首先將大數(shù)據(jù)的數(shù)據(jù)集分成幾個(gè)部分(技術(shù)術(shù)語(yǔ)上是稱作“元組”,但本文并不想太過(guò)技術(shù)性),因此可以部署到不同位置的不同計(jì)算機(jī)上(即前文所述的集群計(jì)算),這些本質(zhì)上是Map的組成部分。接下來(lái)該模型收集到所有結(jié)果并將“減少”到同一份報(bào)告中。 MapReduce的數(shù)據(jù)處理模型與hadoop的分布式文件系統(tǒng)相輔相成。
21.NoSQL。乍一聽這像是針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)的面向?qū)ο蟮腟QL(Structured Query Language, 結(jié)構(gòu)化查詢語(yǔ)言)的抗議,其實(shí)NoSQL代表的是NOT ONLY SQL,意即“不僅僅是SQL”。 NoSQL實(shí)際上是指被用來(lái)處理大量非結(jié)構(gòu)化、或技術(shù)上被稱作“圖表”(例如關(guān)系型數(shù)據(jù)庫(kù)的表)等數(shù)據(jù)的數(shù)據(jù)庫(kù)管理系統(tǒng)。NoSQL數(shù)據(jù)庫(kù)一般非常適用于大型數(shù)據(jù)系統(tǒng),這得益于它們的靈活性以及大型非結(jié)構(gòu)化數(shù)據(jù)庫(kù)所必備的分布式結(jié)構(gòu)。
22.R語(yǔ)言。有人能想到比這個(gè)編程語(yǔ)言更糟糕的名字嗎?是的,’R’是一門在統(tǒng)計(jì)計(jì)算中表現(xiàn)非常優(yōu)異的編程語(yǔ)言。如果你連’R’都不知道,那你就不是數(shù)據(jù)科學(xué)家。(如果你不知道’R’,就請(qǐng)不要把那些糟糕的代碼發(fā)給我了)。這就是在數(shù)據(jù)科學(xué)中最受歡迎的語(yǔ)言之一的R語(yǔ)言。
23. Spark(Apache Spark)。Apache Spark是一種快速的內(nèi)存內(nèi)數(shù)據(jù)處理引擎,它可以高效執(zhí)行需要快速迭代訪問數(shù)據(jù)集的流、機(jī)器學(xué)習(xí)或SQL工作負(fù)載。Spark通常比我們前文討論的MapReduce快很多。
24.流處理。流處理旨在通過(guò)“連續(xù)”查詢對(duì)實(shí)時(shí)和流數(shù)據(jù)進(jìn)行操作。結(jié)合流分析(即在流內(nèi)同時(shí)進(jìn)行連續(xù)計(jì)算數(shù)學(xué)或統(tǒng)計(jì)分析的能力),流處理解決方案可以被用來(lái)實(shí)時(shí)處理非常大的數(shù)據(jù)。