本文介紹的這些開源工具是大數(shù)據(jù)處理、商業(yè)智能、機(jī)器學(xué)習(xí)和預(yù)測分析等領(lǐng)域的佼佼者。
對(duì)于許多大企業(yè)來說,開源大數(shù)據(jù)分析已經(jīng)成為日常業(yè)務(wù)中一個(gè)必不可少的組成部分。據(jù)New Vantage Partners公司對(duì)《財(cái)富》1000強(qiáng)公司的高層主管開展的調(diào)查顯示,如今62.5%的企業(yè)在生產(chǎn)環(huán)境中至少運(yùn)行一種大數(shù)據(jù)工具或應(yīng)用軟件。這比2013年給出同樣回復(fù)的企業(yè)數(shù)量高出近一倍,只有5.4%的受訪企業(yè)沒有大數(shù)據(jù)計(jì)劃。
說到大數(shù)據(jù)分析,開源軟件是常態(tài),而不是異數(shù)。許多企業(yè)使用的一些領(lǐng)先工具由Apache基金會(huì)管理,許多商業(yè)工具至少一部分基于這些開源解決方案。
我們在本文中介紹了市面上12款頂尖的開源數(shù)據(jù)分析解決方案,其中一些為大數(shù)據(jù)分析提供了全面的端到端平臺(tái),另一些要與其他技術(shù)結(jié)合起來。它們都適合大企業(yè)使用,都是市面上領(lǐng)先的數(shù)據(jù)分析工具。
1. Hadoop
談到開源數(shù)據(jù)分析技術(shù),就不可能不提到Hadoop。Apache基金會(huì)的這個(gè)項(xiàng)目已經(jīng)幾乎成為大數(shù)據(jù)的同義詞,它讓企業(yè)能夠大規(guī)模分布式處理極其龐大的數(shù)據(jù)集。TDWI和SAS聯(lián)合開展的一項(xiàng)調(diào)查發(fā)現(xiàn),近60%的企業(yè)預(yù)計(jì)在2016年年底之前會(huì)在生產(chǎn)環(huán)境中擁有Hadoop集群。