企業(yè)迅速增長(zhǎng)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的管理需求是推動(dòng)企業(yè)使用Apache Hadoop軟件的重要因素。
但是Hadoop還不能取代現(xiàn)有的所有技術(shù),根據(jù)Ventana上個(gè)月底公布的一項(xiàng)研究報(bào)告表明,現(xiàn)在越來(lái)越多的狀況是Hadoop與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)(RDBMS)一起工作。
Hadoop的設(shè)計(jì)初衷是幫助企業(yè)管理和處理PB級(jí)的數(shù)據(jù)。該技術(shù)的吸引力在于它能夠?qū)⒑A繑?shù)據(jù)分解成較小的數(shù)據(jù)塊,以便利用分布式的硬件集群更快處理海量數(shù)據(jù)。
包括Facebook、亞馬遜、eBay和雅虎都在使用Hadoop分析PB級(jí)非結(jié)構(gòu)化數(shù)據(jù),而這正是傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)渴望而不可及的。
在Ventana公司對(duì)超過(guò)160家公司的調(diào)查表明,越來(lái)越多的企業(yè)已經(jīng)開(kāi)始使用Hadoop。調(diào)查發(fā)現(xiàn),這些公司大部分使用Hadoop來(lái)收集和分析海量的非結(jié)構(gòu)化數(shù)據(jù)并生成包括日志、事件數(shù)據(jù)、搜索引擎結(jié)果、社交網(wǎng)站內(nèi)容等相關(guān)信息。
調(diào)查還發(fā)現(xiàn)有三分之二的企業(yè)在沒(méi)有使用Hadoop之前,企業(yè)沒(méi)有對(duì)數(shù)據(jù)進(jìn)行高級(jí)分析和類(lèi)型分析。但傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)仍然有存在的理由,Hadoop技術(shù)對(duì)于分析交易數(shù)據(jù)、客戶(hù)信息和通話(huà)記錄等方面略顯不足。而這正是傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)工具的優(yōu)勢(shì)所在,如傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)。
最后該研究報(bào)告也指出了Hadoop所面臨的挑戰(zhàn),如安全性、集群和相關(guān)技術(shù)人員的匱乏等問(wèn)題。