想一想數(shù)據(jù)管理世界中的那個(gè)偉大的存在–數(shù)據(jù)倉庫吧。在過去的二十年中,盡管其他的系統(tǒng)和軟件在許許多多的迭代、變革中演進(jìn),甚至完全被新模型所拋棄,數(shù)據(jù)倉庫這個(gè)老骨干卻安然屹立。她可能會(huì)偷偷地給自己的面頰,皺紋整容,也可能會(huì)激起一些不那么令人深刻的模仿,但是沒有什么能長(zhǎng)期的吸引她的注意力。
直到現(xiàn)在。自從Hadoop出現(xiàn)在舞臺(tái)上之后,一直有人嘀咕說,這個(gè)閃亮的新星正在為一些最好的數(shù)據(jù)管理角色提供服務(wù)–這些角色就是,在幾年前,數(shù)據(jù)倉庫已穩(wěn)操勝券。
但是現(xiàn)在真的到了數(shù)據(jù)倉庫要退休的時(shí)候了嗎 Hadoop甚至想要進(jìn)入她的鞋子里嗎 還有誰在后面等著呢
讓我們仔細(xì)看看這些據(jù)報(bào)道的競(jìng)爭(zhēng)對(duì)手的全部本領(lǐng)。
數(shù)據(jù)倉庫持久吸引力的背后是什么
簡(jiǎn)單地說,數(shù)據(jù)倉庫意味著將不同來源的數(shù)據(jù)聚合為一個(gè)用于報(bào)告和分析的中央存儲(chǔ)庫。它長(zhǎng)期成為實(shí)際解決方案的原因如下:因?yàn)檫@些數(shù)據(jù)是被聚合的,在經(jīng)歷抽取,轉(zhuǎn)換,加載過程后,協(xié)調(diào)成為“真理的唯一版本”,緩和矛盾,重構(gòu)數(shù)據(jù)格式化的方式,從而適應(yīng)預(yù)定的模式。
結(jié)果是一個(gè)完整的、可靠的,一致的數(shù)據(jù)來源,這些數(shù)據(jù)可用于商業(yè)智能軟件查詢。
Hadoop究竟是什么
對(duì)于需要處理海量數(shù)據(jù)集的用戶來說,這是一個(gè)開源的編程框架。使用分布式存儲(chǔ)系統(tǒng),它給用戶一種存儲(chǔ)、清理和處理大量數(shù)據(jù)的方法。
為了使數(shù)據(jù)達(dá)到千兆兆字節(jié)的傳輸速度,Hadoop分布式文件系統(tǒng)(HDFS)沿著成千上萬的硬件節(jié)點(diǎn)讀取數(shù)據(jù)。即使許多節(jié)點(diǎn)由于技術(shù)故障而停止工作,系統(tǒng)仍能保持正常運(yùn)行。這意味著存在低風(fēng)險(xiǎn)的數(shù)據(jù)丟失–對(duì)于那些使用大量數(shù)據(jù)進(jìn)行非常復(fù)雜的分析的企業(yè)來說,這是一種真正的恐懼。
難怪Hadoop正在轉(zhuǎn)向一個(gè)尋求可靠的方法來運(yùn)行大數(shù)據(jù)處理任務(wù)的行業(yè)。
另外,它是開源的–這是一個(gè)巨大的吸引力。它具有無限的可伸縮性和無限的可定制性。包含定制應(yīng)用程序、查詢和方法的范圍是無限的。數(shù)據(jù)挖掘的復(fù)雜性可以隨著數(shù)據(jù)的復(fù)雜性和數(shù)據(jù)的數(shù)量而增長(zhǎng)。
它哪里比數(shù)據(jù)倉庫更出色
大數(shù)據(jù)正變得越來越大,許多大型數(shù)據(jù)倉庫都試圖采取定制的多處理器設(shè)備來應(yīng)對(duì)不斷飆升的存儲(chǔ)需求。但是除了最大的組織外,所有這些都需要付費(fèi)。
與此同時(shí),Hadoop可以靈活地處理滾雪球般的數(shù)據(jù)。然后用戶可以將它與數(shù)據(jù)倉庫層或頂部構(gòu)建的服務(wù)相結(jié)合,無論是像Presto的SQL軟件,或者用相似方式工作的Hive,或者像HBase類的NoSQL。
但這并不意味著Hadoop將取關(guān)系型數(shù)據(jù)庫或者數(shù)據(jù)倉庫。事實(shí)上,我們馬上就會(huì)看到,這很可能是最好的支持,而不是取代。
那么他們是競(jìng)爭(zhēng)對(duì)手嗎
完全不是。簡(jiǎn)單地說,他們沒有扮演相同的角色。
數(shù)據(jù)專家趨向于把Hadoop看作現(xiàn)有數(shù)據(jù)倉庫架構(gòu)的一個(gè)補(bǔ)充,并且可以為他們節(jié)省大量現(xiàn)金。通過把數(shù)據(jù)塊遷移到Hadoop,可以減少關(guān)系型數(shù)據(jù)庫的壓力,從而使數(shù)據(jù)倉庫平臺(tái)更便宜,并且可以在不增加語速那的情況下進(jìn)行擴(kuò)展。
用這種方式,Hadoop可以降低數(shù)據(jù)倉庫的總成本,而不是取代它的某些東西。
它如何使數(shù)據(jù)倉庫的性能更好
數(shù)據(jù)倉庫的構(gòu)建成本很高,運(yùn)行成本和增長(zhǎng)成本昂貴。隨著收集的數(shù)據(jù)量的增長(zhǎng),存儲(chǔ)需求和花費(fèi)也會(huì)呈指數(shù)級(jí)增長(zhǎng)。
此外,這些龐大的數(shù)據(jù)集合意味著用戶每次運(yùn)行查詢的時(shí)候,不能進(jìn)入數(shù)據(jù)倉庫的全部范圍–而且他們的硬件也無法處理這個(gè)問題。這意味著使用分析數(shù)據(jù)集來給業(yè)務(wù)中的各個(gè)部門訪問數(shù)據(jù)倉庫特定區(qū)域的數(shù)據(jù)。
它是一個(gè)不完美的系統(tǒng)。不僅限制了用戶在數(shù)據(jù)上執(zhí)行分析的范圍,也是一個(gè)定時(shí)炸彈。
隨著越來越多的數(shù)據(jù)涌入倉庫,每個(gè)數(shù)據(jù)集都可能變得如此不堪重負(fù),以致難以使用。你可以通過限制訪問來減輕硬件壓力,但是那意味著給各個(gè)部門越來越窄的數(shù)據(jù)分析選擇。對(duì)于嚴(yán)格的商業(yè)智能來說,這樣的做法并不夠好。
Hadoop并沒有遭受這些挫折。進(jìn)入門檻很低,而且對(duì)增量投資是開源的。它可以隨著時(shí)間的推移而建立起來,你可以不斷增大數(shù)據(jù)量而不需要花大量的成本來匹配。
對(duì)于那些剛剛進(jìn)入數(shù)據(jù)行業(yè)的公司--沒有對(duì)大型機(jī)或者基于Unix的數(shù)據(jù)倉庫的投資–這種可擴(kuò)展的、增量式的框架是非常吸引人的。但是Hadop是一個(gè)框架,而不是一個(gè)完美的解決方案。它在處理巨大數(shù)據(jù)集方面很出色,但是它從來沒有打算要替代數(shù)據(jù)倉庫。