Apache Hadoop的開源性質(zhì)創(chuàng)建了一個生態(tài)系統(tǒng),使其功能、性能、可靠性和易用性都不斷進步。
保持簡單性和可擴展性
在名為“數(shù)據(jù)不合理的有效性”的文章中,來自谷歌的研究人員將簡單的物理方程式(例如E = mc2)與其他學科對比,并指出,“涉及人類而非基本粒子的科學更適合使用簡單的數(shù)學算法”。
事實上,簡單的公式完全能夠解釋復雜的自然世界,以及理解難以捉摸的人類行為,這也是為什么Hadoop普及的原因。
研究人員發(fā)現(xiàn),相對簡單的算法適用于大規(guī)模數(shù)據(jù)集,并能產(chǎn)生驚人的結(jié)果。其中一個例子就是scene completion技術(shù),它使用一個算法來消除圖片上的某物(例如汽車),然后從成千上萬的圖片資料庫中尋找合適的照片進行“修補”,當圖片資料庫的照片增加到數(shù)百萬時,該算法表現(xiàn)不佳。當擁有足夠的數(shù)據(jù),這種簡單的算法表現(xiàn)極為出色。尋找模式以及“修補”技術(shù)是當今很多數(shù)據(jù)分析應用程序的共同主題。
數(shù)據(jù)分析還面臨著另一個固有復雜性:非結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的增加。非結(jié)構(gòu)化數(shù)據(jù)(例如日志文件、社交媒體、視頻等)的規(guī)模和重要性同時在增加,并且有些結(jié)構(gòu)化在經(jīng)過一些變化后也失去了結(jié)構(gòu)。傳統(tǒng)分析技術(shù)在產(chǎn)生結(jié)果前需要對非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進行大量預處理,并且如果預處理存在某種缺陷的話,產(chǎn)生的結(jié)果可能是錯誤的。
Hadoop采用簡單算法來分析原始形式的非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)以及產(chǎn)生有意義結(jié)果的能力是前所未有的,目前來看,也是無與倫比的。MapReduce使我們能夠以漸進的方式來分析數(shù)據(jù),而必須要進行復雜的數(shù)據(jù)轉(zhuǎn)換或者其他數(shù)據(jù)預處理,或提前創(chuàng)建任何模式或整合數(shù)據(jù)。