數(shù)據(jù)分析的價(jià)格和性能
Hadoop不僅提供卓越的數(shù)據(jù)分析功能和結(jié)果,還比傳統(tǒng)數(shù)據(jù)分析工具更具成本效益。其原因是傳統(tǒng)數(shù)據(jù)分析工具的擴(kuò)展數(shù)據(jù)分析能力主要遵循80/20規(guī)則:最初的小努力和付出能夠帶來(lái)大收益,但隨著數(shù)據(jù)集發(fā)展為大數(shù)據(jù),這種回報(bào)會(huì)減少。
形成鮮明對(duì)比的是,Hadoop可以線性擴(kuò)展,這是有效且符合成本效益的數(shù)據(jù)分析的關(guān)鍵因素。隨著數(shù)據(jù)集的增長(zhǎng),傳統(tǒng)數(shù)據(jù)分析環(huán)境規(guī)模呈指數(shù)增長(zhǎng),為獲取洞察力需要投入更多額外費(fèi)用,這最終讓人望而卻步。而對(duì)于Hadoop,服務(wù)器集群能夠隨著數(shù)據(jù)集數(shù)量和規(guī)模的增長(zhǎng)而直接附加存儲(chǔ)線性地?cái)U(kuò)展規(guī)模。
Hadoop的這些優(yōu)勢(shì)是其在基于web的企業(yè)和數(shù)據(jù)密集型企業(yè)快速普及的主要原因。
然而,Hadoop部署面臨的主要挑戰(zhàn)仍然是其文件系統(tǒng)。HDFS是append-only(只允許在這個(gè)文件之后追加數(shù)據(jù))存儲(chǔ)要求數(shù)據(jù)裝在Hadoop集群中,然而再輸出后處理以供不支持HDFS API的其他應(yīng)用程序使用。
Hadoop在較大型企業(yè)部署的另一個(gè)障礙是需要采取使環(huán)境可靠的特殊措施。需要不斷監(jiān)控Hadoop以確保單點(diǎn)故障不會(huì)導(dǎo)致災(zāi)難,在數(shù)據(jù)丟失的情況下,數(shù)據(jù)會(huì)被重新加載到Hadoop集群。
沖破障礙
Hadoop的這些問(wèn)題已經(jīng)成為過(guò)去式。開(kāi)源社區(qū)創(chuàng)造了一個(gè)充滿活力的生態(tài)系統(tǒng),使Hadoop不斷完善。一些公司現(xiàn)在正在提供基于開(kāi)源Hadoop的商業(yè)產(chǎn)品。