国产萌白酱在线一区二区,亚洲中文字幕成人在线,18勿入自慰网站免费永久

13.數(shù)據(jù)科學(xué)家。我們談?wù)摰氖且粋€(gè)如此熱門的職業(yè)！數(shù)據(jù)科學(xué)家們可以通過(guò)提取原始數(shù)據(jù)（難道是從前文所說(shuō)的數(shù)據(jù)湖中提取的？），處理數(shù)據(jù)，然后提出新見解。數(shù)據(jù)科學(xué)家所需具備的一些技能與超人無(wú)異：分析、統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)、創(chuàng)造力、故事講述和理解業(yè)務(wù)環(huán)境。難怪他們能獲得如此高的薪水報(bào)酬。

14.分布式文件系統(tǒng)。由于大數(shù)據(jù)太大而無(wú)法在單個(gè)系統(tǒng)上進(jìn)行存儲(chǔ)，分布式文件系統(tǒng)提供一種數(shù)據(jù)存儲(chǔ)系統(tǒng)，方便跨多個(gè)存儲(chǔ)設(shè)備進(jìn)行大量數(shù)據(jù)的存放，并有助于降低大量數(shù)據(jù)存儲(chǔ)的成本和復(fù)雜度。

15. ETL。ETL分別是extract，transform，load的首字母縮寫，代表提取、轉(zhuǎn)化和加載的過(guò)程。它具體是指“提取”原始數(shù)據(jù)，通過(guò)數(shù)據(jù)清洗/修飾的方式進(jìn)行“轉(zhuǎn)化”以獲得 “適合使用”的數(shù)據(jù)，進(jìn)而“加載”到合適的存儲(chǔ)庫(kù)中供系統(tǒng)使用的整個(gè)過(guò)程。盡管ETL這一概念源于數(shù)據(jù)倉(cāng)庫(kù)，但現(xiàn)在也適用于其它情景下的過(guò)程，例如在大數(shù)據(jù)系統(tǒng)中從外部數(shù)據(jù)源獲取/吸收數(shù)據(jù)。

16. Hadoop。人們一想起大數(shù)據(jù)就能立即想到Hadoop。 Hadoop（擁有可愛的大象LOGO）是一個(gè)開源軟件框架，主要組成部分是Hadoop分布式文件系統(tǒng)（HDFS），Hadoop部署了分布式硬件以支持大型數(shù)據(jù)集的存儲(chǔ)、檢索和分析。如果你真的想給別人留下深刻的印象，還可以談?wù)刌ARN（Yet Another Resource Schedule，另一個(gè)資源調(diào)度器），正如其名，它也是一個(gè)資源調(diào)度器。我由衷佩服這些為程序命名的人。為Hadoop命名的Apache基金會(huì)還想出了Pig，Hive和Spark（沒錯(cuò)，它們都是各種軟件的名稱）。這些名字難道不讓你感到印象深刻嗎？

17. 內(nèi)存計(jì)算。一般來(lái)說(shuō)，任何可以在不訪問I / O的情況下進(jìn)行的計(jì)算預(yù)計(jì)會(huì)比需要訪問I/O的速度更快。內(nèi)存內(nèi)計(jì)算是一種能夠?qū)⒐ぷ鲾?shù)據(jù)集完全轉(zhuǎn)移到集群的集體內(nèi)存中、并避免了將中間計(jì)算寫入磁盤的技術(shù)。Apache Spark便是一種內(nèi)存內(nèi)計(jì)算系統(tǒng)，它與I / O相比，在像Hadoop MapReduce這樣的系統(tǒng)上綁定具有巨大的優(yōu)勢(shì)。

18. IOT。最新的流行語(yǔ)是物聯(lián)網(wǎng)（Internet of things，簡(jiǎn)稱IOT）。IOT是通過(guò)互聯(lián)網(wǎng)將嵌入式對(duì)象（傳感器、可穿戴設(shè)備、汽車、冰箱等）中的計(jì)算設(shè)備互連在一起，并且能夠發(fā)送/接收數(shù)據(jù)。IOT產(chǎn)生了大量的數(shù)據(jù)，這為呈現(xiàn)大數(shù)據(jù)分析提供了更多的機(jī)會(huì)。

19.機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是為了設(shè)計(jì)一種基于提供的數(shù)據(jù)能夠進(jìn)行不斷學(xué)習(xí)、調(diào)整、改進(jìn)的系統(tǒng)的設(shè)計(jì)方法。機(jī)器使用預(yù)測(cè)和統(tǒng)計(jì)的算法進(jìn)行學(xué)習(xí)并專注于實(shí)現(xiàn)“正確的”行為模式和簡(jiǎn)見解，隨著越來(lái)越多的數(shù)據(jù)注入系統(tǒng)它還在不斷進(jìn)行優(yōu)化改進(jìn)。典型的應(yīng)用有欺詐檢測(cè)、在線個(gè)性化推薦等。

20.MapReduce。MapReduce的概念可能會(huì)有點(diǎn)混亂，但讓我試一試。MapReduce是一個(gè)編程模型，最好的理解方法是將Map和Reduce是看作兩個(gè)獨(dú)立的單元。在這種情況下，編程模型首先將大數(shù)據(jù)的數(shù)據(jù)集分成幾個(gè)部分（技術(shù)術(shù)語(yǔ)上是稱作“元組”，但本文并不想太過(guò)技術(shù)性），因此可以部署到不同位置的不同計(jì)算機(jī)上（即前文所述的集群計(jì)算），這些本質(zhì)上是Map的組成部分。接下來(lái)該模型收集到所有結(jié)果并將“減少”到同一份報(bào)告中。 MapReduce的數(shù)據(jù)處理模型與hadoop的分布式文件系統(tǒng)相輔相成。

21.NoSQL。乍一聽這像是針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)（RDBMS）的面向?qū)ο蟮腟QL（Structured Query Language，結(jié)構(gòu)化查詢語(yǔ)言）的抗議，其實(shí)NoSQL代表的是NOT ONLY SQL，意即“不僅僅是SQL”。 NoSQL實(shí)際上是指被用來(lái)處理大量非結(jié)構(gòu)化、或技術(shù)上被稱作“圖表”（例如關(guān)系型數(shù)據(jù)庫(kù)的表）等數(shù)據(jù)的數(shù)據(jù)庫(kù)管理系統(tǒng)。NoSQL數(shù)據(jù)庫(kù)一般非常適用于大型數(shù)據(jù)系統(tǒng)，這得益于它們的靈活性以及大型非結(jié)構(gòu)化數(shù)據(jù)庫(kù)所必備的分布式結(jié)構(gòu)。

22.R語(yǔ)言。有人能想到比這個(gè)編程語(yǔ)言更糟糕的名字嗎？是的，’R’是一門在統(tǒng)計(jì)計(jì)算中表現(xiàn)非常優(yōu)異的編程語(yǔ)言。如果你連’R’都不知道，那你就不是數(shù)據(jù)科學(xué)家。（如果你不知道’R’，就請(qǐng)不要把那些糟糕的代碼發(fā)給我了）。這就是在數(shù)據(jù)科學(xué)中最受歡迎的語(yǔ)言之一的R語(yǔ)言。

23. Spark（Apache Spark）。Apache Spark是一種快速的內(nèi)存內(nèi)數(shù)據(jù)處理引擎，它可以高效執(zhí)行需要快速迭代訪問數(shù)據(jù)集的流、機(jī)器學(xué)習(xí)或SQL工作負(fù)載。Spark通常比我們前文討論的MapReduce快很多。

24.流處理。流處理旨在通過(guò)“連續(xù)”查詢對(duì)實(shí)時(shí)和流數(shù)據(jù)進(jìn)行操作。結(jié)合流分析（即在流內(nèi)同時(shí)進(jìn)行連續(xù)計(jì)算數(shù)學(xué)或統(tǒng)計(jì)分析的能力），流處理解決方案可以被用來(lái)實(shí)時(shí)處理非常大的數(shù)據(jù)。

2/3 首頁(yè) 上一頁(yè) 1 2 3 下一頁(yè) 尾頁(yè)

每個(gè)人都應(yīng)該知道的25個(gè)大數(shù)據(jù)術(shù)語(yǔ)