隨著企業(yè)大數(shù)據(jù)項(xiàng)目的進(jìn)展,數(shù)據(jù)分析速度的重要性正日漸凸顯。為了進(jìn)一步提升大數(shù)據(jù)分析速度,IBM本周三在加州發(fā)布了一款Hadoop大數(shù)據(jù)機(jī),旨在幫助企業(yè)用戶實(shí)現(xiàn)對(duì)更多種類和更大規(guī)模數(shù)據(jù)進(jìn)行(更低成本地)實(shí)時(shí)分析的需求。
IBM軟件信息管理部門總經(jīng)理Bob Picciano表示:
企業(yè)正被大數(shù)據(jù)洪水圍困,作為廠商IBM必須向客戶提供更好的工具掘金大數(shù)據(jù),這些工具必須夠快,能夠處理海量數(shù)據(jù)同時(shí)還要更容易使用。
在Gartner三月份發(fā)布的BI魔力四象限圖中,IBM是所有廠商中最有遠(yuǎn)見(jiàn)和創(chuàng)新力"visionary”的數(shù)據(jù)分析技術(shù)提供商,此番IBM主要通過(guò)兩種途徑提高企業(yè)(對(duì)更多類型)大數(shù)據(jù)分析的速度,一是通過(guò)分析加速技術(shù)將大數(shù)據(jù)變成“中數(shù)據(jù)”甚至“小數(shù)據(jù)”,減少工作負(fù)載。參考閱讀: 忘記大數(shù)據(jù),從“中數(shù)據(jù)”開(kāi)始;另外一種方法就是硬件優(yōu)化,推出面向Hadoop的大數(shù)據(jù)機(jī)。
為了達(dá)成這個(gè)目標(biāo),IBM發(fā)布了BLU Acceleration分析加速技術(shù)。當(dāng)IBM用戶(例如DB2用戶)運(yùn)行查詢的時(shí)候,BLU可以快速縮小數(shù)據(jù)分析范圍,將海量數(shù)據(jù)清洗后,只剩下小部分有效數(shù)據(jù)進(jìn)入分析流程,這樣一來(lái)用戶的數(shù)據(jù)分析負(fù)載將大大降低,硬件處理資源可以更快地給出分析結(jié)果。BLU的一個(gè)重要功能就是數(shù)據(jù)忽略(Data Skipping),“跳過(guò)”大量不需要的數(shù)據(jù),挑出重要的“小數(shù)據(jù)”。此外,BLU還能讓數(shù)據(jù)在整個(gè)分析過(guò)程中始終保持壓縮狀態(tài),這也將大大提高數(shù)據(jù)處理速度。IBM宣稱在一些測(cè)試中,BLU的加入使得DB2數(shù)據(jù)庫(kù)的分析速度提高了1000倍。
在提速大數(shù)據(jù)分析的第二種路徑——硬件優(yōu)化方面,IBM還發(fā)布了專為Hadoop大數(shù)據(jù)處理平臺(tái)設(shè)計(jì)的IBM PureData box。
作為IBM PureSystems家族的第三位成員,PureData Systems大數(shù)據(jù)專家集成系統(tǒng)被IBM定位為大數(shù)據(jù)時(shí)代的分析處理引擎,去年IBM發(fā)布了包括事務(wù)系統(tǒng)IBM PureData System for Transactions、分析系統(tǒng)IBM PureData System for Analytics和運(yùn)營(yíng)分析系統(tǒng)IBM PureData System for Operational Analytics(基于Netezza)三個(gè)大數(shù)據(jù)機(jī)產(chǎn)品。
據(jù)IBM Netezza產(chǎn)品管理和產(chǎn)品營(yíng)銷副總裁Phil Francisco透露,面向Hadoop的PureData System大數(shù)據(jù)機(jī)產(chǎn)品將于今年晚些時(shí)候上市。用戶將能在90分鐘內(nèi)完成數(shù)據(jù)加載,而此前企業(yè)在數(shù)據(jù)中心的Hadoop實(shí)例完成數(shù)據(jù)加載需要兩三周的時(shí)間。IBM面向Hadoop的大數(shù)據(jù)分析機(jī)能在本地存儲(chǔ)Hadoop處理過(guò)的數(shù)據(jù),這能滿足一些行業(yè)客戶對(duì)數(shù)據(jù)管轄權(quán)的要求。