可以說,大數(shù)據(jù)是如今IT行業(yè)最熱門的趨勢之一,它催生出了處理大數(shù)據(jù)的一批全新技術(shù)。而新技術(shù)帶來了新的熱門詞匯:首字母縮略詞、專業(yè)術(shù)語和產(chǎn)品名稱等。連"大數(shù)據(jù)"這個(gè)短語本身都讓人犯暈。許多人一聽到"大數(shù)據(jù)",覺得是指"大量數(shù)據(jù)",而大數(shù)據(jù)的涵義絕不僅僅涉及數(shù)據(jù)量的多寡。
下面是我們認(rèn)為你要熟悉的幾個(gè)熱門詞匯,按字母順序排列。
ACID
ACID的全稱是原子性、一致性、隔離性和持久性,這其實(shí)是一組需求或?qū)傩裕喝绻@四個(gè)方面都得到遵守,就能在處理過程中確保數(shù)據(jù)庫事務(wù)的數(shù)據(jù)完整性。雖然ACID問世已有一段時(shí)日,但是事務(wù)數(shù)據(jù)量的急劇增長把更多的注意力投向在處理大數(shù)據(jù)時(shí)需要滿足ACID的規(guī)定。
大數(shù)據(jù)三要素
如今的IT系統(tǒng)在生成數(shù)量、速度和種類都很"龐大"的數(shù)據(jù)。
數(shù)量:IDC公司估計(jì),今年全球信息總量將達(dá)到2.7澤字節(jié)(這相當(dāng)于27億太字節(jié)),而且每兩年就翻一番。
速度:讓IT管理人員們頭痛的不僅僅是數(shù)據(jù)數(shù)量,還有數(shù)據(jù)從金融系統(tǒng)、零售系統(tǒng)、網(wǎng)站、傳感器、無線射頻識別(RFID)芯片以及Facebook和推特等社交網(wǎng)絡(luò)源源而來的速度越來越快。
種類:如果回到5年前或可能10年前,IT人員處理的主要是字母數(shù)字?jǐn)?shù)據(jù),它們很容易存儲在關(guān)系數(shù)據(jù)庫中整齊排列的行和列中。現(xiàn)在不再是這樣了。如今,推特和Facebook上的帖子、各種文檔及網(wǎng)頁內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù)都是大數(shù)據(jù)組合的一部分。
列式(或列型)數(shù)據(jù)庫
一些新一代數(shù)據(jù)庫(如開源Cassandra和惠普的Vertica數(shù)據(jù)庫)被設(shè)計(jì)成了按列存儲數(shù)據(jù),而不是像傳統(tǒng)的SQL數(shù)據(jù)庫那樣按行存儲數(shù)據(jù)。這種設(shè)計(jì)提供了更快的磁盤訪問速度,提高了處理大數(shù)據(jù)時(shí)的性能。對數(shù)據(jù)密集型業(yè)務(wù)分析應(yīng)用系統(tǒng)而言,列式數(shù)據(jù)庫尤其受到歡迎。
數(shù)據(jù)倉庫
數(shù)據(jù)倉庫這個(gè)概念存在至今已有大概25年了,具體指將數(shù)據(jù)從多個(gè)操作IT系統(tǒng)復(fù)制到面向業(yè)務(wù)分析應(yīng)用系統(tǒng)的輔助離線數(shù)據(jù)庫
但是隨著數(shù)據(jù)量急劇增長,數(shù)據(jù)倉庫系統(tǒng)正在迅速改變。它們需要存儲更多的數(shù)據(jù)以及更多種類的數(shù)據(jù),因而數(shù)據(jù)倉庫管理成為一大難題。10年或20年前,數(shù)據(jù)可能每周或每月復(fù)制到數(shù)據(jù)倉庫系統(tǒng)中;而如今,數(shù)據(jù)倉庫的更新要頻繁得多,有的甚至實(shí)時(shí)更新。
ETL
將數(shù)據(jù)從一個(gè)數(shù)據(jù)庫(比如支持銀行應(yīng)用事務(wù)處理系統(tǒng)的數(shù)據(jù)庫)轉(zhuǎn)移到另一個(gè)數(shù)據(jù)庫(比如用于業(yè)務(wù)分析的數(shù)據(jù)倉庫系統(tǒng))時(shí),就要用到提取、轉(zhuǎn)換和加載(ETL)軟件。數(shù)據(jù)從一個(gè)數(shù)據(jù)庫傳送到另一個(gè)數(shù)據(jù)庫時(shí),常常需要對數(shù)據(jù)進(jìn)行重新格式化和清理操作。
由于數(shù)據(jù)量急劇增長,數(shù)據(jù)處理速度大大加快,對ETL工具的性能要求也大大提高了。
Flume
Flume是屬于Apache Hadoop大家族(其他技術(shù)包括HBase、Hive、Oozie、Pig和Whirr)的一項(xiàng)技術(shù),這種框架用于為Hadoop填充數(shù)據(jù)。該技術(shù)使用散布于應(yīng)用服務(wù)器、Web服務(wù)器、移動設(shè)備及其他系統(tǒng)上的軟件代理,收集數(shù)據(jù),并將數(shù)據(jù)傳送到Hadoop系統(tǒng)。
比如說,公司可以使用在Web服務(wù)器上運(yùn)行的Apache Flume,收集來自推特帖子的數(shù)據(jù),以便分析。
地理空間分析
推動大數(shù)據(jù)潮流的一個(gè)趨勢是,由如今的IT系統(tǒng)生成和收集的地理空間數(shù)據(jù)越來越多。常言道,一幅圖片的信息量抵得上1000個(gè)單詞;所以難怪越來越多的地圖、圖表、照片及其他基于地理位置的內(nèi)容是導(dǎo)致如今大數(shù)據(jù)呈爆炸式增長的主要動因。
地理空間分析是一種特殊形式的數(shù)據(jù)可視化(參閱下面的"可視化"條目),在地理地圖上覆蓋數(shù)據(jù),以幫助用戶更清楚地理解大數(shù)據(jù)分析的結(jié)果。
Hadoop
Hadoop是一種開源平臺,用于開發(fā)分布式、數(shù)據(jù)密集型的應(yīng)用程序。它由Apache軟件基金會控制。
Hadoop的發(fā)明者是雅虎公司的開發(fā)者道格o卡廷(Doug Cutting),他在谷歌實(shí)驗(yàn)室的MapReduce概念這個(gè)基礎(chǔ)上開發(fā)出了Hadoop,以他兒子的玩具象命名。
另外,HBase是一種非關(guān)系數(shù)據(jù)庫,它是作為Hadoop項(xiàng)目的一部分開發(fā)而成的。Hadoop分布式文件系統(tǒng)(HDFS)是Hadoop的一個(gè)關(guān)鍵組成部分。Hive則是建立在Hadoop基礎(chǔ)上的數(shù)據(jù)倉庫系統(tǒng)。
內(nèi)存中數(shù)據(jù)庫
計(jì)算機(jī)在處理事務(wù)或執(zhí)行查詢時(shí),一般從磁盤驅(qū)動器獲取數(shù)據(jù)。但是當(dāng)IT系統(tǒng)處理大數(shù)據(jù)時(shí),這個(gè)過程可能實(shí)在太慢。