在线三级观看国产,尾随入室强奷在线播放

想一想數(shù)據(jù)管理世界中的那個(gè)偉大的存在–數(shù)據(jù)倉庫吧。在過去的二十年中，盡管其他的系統(tǒng)和軟件在許許多多的迭代、變革中演進(jìn)，甚至完全被新模型所拋棄，數(shù)據(jù)倉庫這個(gè)老骨干卻安然屹立。她可能會(huì)偷偷地給自己的面頰，皺紋整容，也可能會(huì)激起一些不那么令人深刻的模仿，但是沒有什么能長(zhǎng)期的吸引她的注意力。

直到現(xiàn)在。自從Hadoop出現(xiàn)在舞臺(tái)上之后，一直有人嘀咕說，這個(gè)閃亮的新星正在為一些最好的數(shù)據(jù)管理角色提供服務(wù)–這些角色就是，在幾年前，數(shù)據(jù)倉庫已穩(wěn)操勝券。

但是現(xiàn)在真的到了數(shù)據(jù)倉庫要退休的時(shí)候了嗎 Hadoop甚至想要進(jìn)入她的鞋子里嗎還有誰在后面等著呢

讓我們仔細(xì)看看這些據(jù)報(bào)道的競(jìng)爭(zhēng)對(duì)手的全部本領(lǐng)。

數(shù)據(jù)倉庫持久吸引力的背后是什么

簡(jiǎn)單地說，數(shù)據(jù)倉庫意味著將不同來源的數(shù)據(jù)聚合為一個(gè)用于報(bào)告和分析的中央存儲(chǔ)庫。它長(zhǎng)期成為實(shí)際解決方案的原因如下：因?yàn)檫@些數(shù)據(jù)是被聚合的，在經(jīng)歷抽取，轉(zhuǎn)換，加載過程后，協(xié)調(diào)成為“真理的唯一版本”，緩和矛盾，重構(gòu)數(shù)據(jù)格式化的方式，從而適應(yīng)預(yù)定的模式。

結(jié)果是一個(gè)完整的、可靠的，一致的數(shù)據(jù)來源，這些數(shù)據(jù)可用于商業(yè)智能軟件查詢。

Hadoop究竟是什么

對(duì)于需要處理海量數(shù)據(jù)集的用戶來說，這是一個(gè)開源的編程框架。使用分布式存儲(chǔ)系統(tǒng)，它給用戶一種存儲(chǔ)、清理和處理大量數(shù)據(jù)的方法。

為了使數(shù)據(jù)達(dá)到千兆兆字節(jié)的傳輸速度，Hadoop分布式文件系統(tǒng)(HDFS)沿著成千上萬的硬件節(jié)點(diǎn)讀取數(shù)據(jù)。即使許多節(jié)點(diǎn)由于技術(shù)故障而停止工作，系統(tǒng)仍能保持正常運(yùn)行。這意味著存在低風(fēng)險(xiǎn)的數(shù)據(jù)丟失–對(duì)于那些使用大量數(shù)據(jù)進(jìn)行非常復(fù)雜的分析的企業(yè)來說，這是一種真正的恐懼。

難怪Hadoop正在轉(zhuǎn)向一個(gè)尋求可靠的方法來運(yùn)行大數(shù)據(jù)處理任務(wù)的行業(yè)。

另外，它是開源的–這是一個(gè)巨大的吸引力。它具有無限的可伸縮性和無限的可定制性。包含定制應(yīng)用程序、查詢和方法的范圍是無限的。數(shù)據(jù)挖掘的復(fù)雜性可以隨著數(shù)據(jù)的復(fù)雜性和數(shù)據(jù)的數(shù)量而增長(zhǎng)。

它哪里比數(shù)據(jù)倉庫更出色

大數(shù)據(jù)正變得越來越大，許多大型數(shù)據(jù)倉庫都試圖采取定制的多處理器設(shè)備來應(yīng)對(duì)不斷飆升的存儲(chǔ)需求。但是除了最大的組織外，所有這些都需要付費(fèi)。

與此同時(shí)，Hadoop可以靈活地處理滾雪球般的數(shù)據(jù)。然后用戶可以將它與數(shù)據(jù)倉庫層或頂部構(gòu)建的服務(wù)相結(jié)合，無論是像Presto的SQL軟件，或者用相似方式工作的Hive，或者像HBase類的NoSQL。

但這并不意味著Hadoop將取關(guān)系型數(shù)據(jù)庫或者數(shù)據(jù)倉庫。事實(shí)上，我們馬上就會(huì)看到，這很可能是最好的支持，而不是取代。

那么他們是競(jìng)爭(zhēng)對(duì)手嗎

完全不是。簡(jiǎn)單地說，他們沒有扮演相同的角色。

數(shù)據(jù)專家趨向于把Hadoop看作現(xiàn)有數(shù)據(jù)倉庫架構(gòu)的一個(gè)補(bǔ)充，并且可以為他們節(jié)省大量現(xiàn)金。通過把數(shù)據(jù)塊遷移到Hadoop，可以減少關(guān)系型數(shù)據(jù)庫的壓力，從而使數(shù)據(jù)倉庫平臺(tái)更便宜，并且可以在不增加語速那的情況下進(jìn)行擴(kuò)展。

用這種方式，Hadoop可以降低數(shù)據(jù)倉庫的總成本，而不是取代它的某些東西。

它如何使數(shù)據(jù)倉庫的性能更好

數(shù)據(jù)倉庫的構(gòu)建成本很高，運(yùn)行成本和增長(zhǎng)成本昂貴。隨著收集的數(shù)據(jù)量的增長(zhǎng)，存儲(chǔ)需求和花費(fèi)也會(huì)呈指數(shù)級(jí)增長(zhǎng)。

此外，這些龐大的數(shù)據(jù)集合意味著用戶每次運(yùn)行查詢的時(shí)候，不能進(jìn)入數(shù)據(jù)倉庫的全部范圍–而且他們的硬件也無法處理這個(gè)問題。這意味著使用分析數(shù)據(jù)集來給業(yè)務(wù)中的各個(gè)部門訪問數(shù)據(jù)倉庫特定區(qū)域的數(shù)據(jù)。

它是一個(gè)不完美的系統(tǒng)。不僅限制了用戶在數(shù)據(jù)上執(zhí)行分析的范圍，也是一個(gè)定時(shí)炸彈。

隨著越來越多的數(shù)據(jù)涌入倉庫，每個(gè)數(shù)據(jù)集都可能變得如此不堪重負(fù)，以致難以使用。你可以通過限制訪問來減輕硬件壓力，但是那意味著給各個(gè)部門越來越窄的數(shù)據(jù)分析選擇。對(duì)于嚴(yán)格的商業(yè)智能來說，這樣的做法并不夠好。

Hadoop并沒有遭受這些挫折。進(jìn)入門檻很低，而且對(duì)增量投資是開源的。它可以隨著時(shí)間的推移而建立起來，你可以不斷增大數(shù)據(jù)量而不需要花大量的成本來匹配。

對(duì)于那些剛剛進(jìn)入數(shù)據(jù)行業(yè)的公司--沒有對(duì)大型機(jī)或者基于Unix的數(shù)據(jù)倉庫的投資–這種可擴(kuò)展的、增量式的框架是非常吸引人的。但是Hadop是一個(gè)框架，而不是一個(gè)完美的解決方案。它在處理巨大數(shù)據(jù)集方面很出色，但是它從來沒有打算要替代數(shù)據(jù)倉庫。

1/2 1 2 下一頁尾頁

解疑：Hadoop+數(shù)據(jù)倉庫到底是夢(mèng)幻組合還是命中的宿敵？

解疑：Hadoop+數(shù)據(jù)倉庫到底是夢(mèng)幻組合還是命中的宿敵？