7. 構(gòu)建彈性數(shù)據(jù)湖
構(gòu)建數(shù)據(jù)湖并非易事,但大數(shù)據(jù)存儲的需求可能需要數(shù)據(jù)湖。有許多方法可以著手構(gòu)建,可是哪一種才是合適的方法?合適的架構(gòu)有望構(gòu)建一個活躍、彈性的數(shù)據(jù)湖,可以存儲來自所有數(shù)據(jù)源、采用多種格式的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。更重要的是,它必須支持就在數(shù)據(jù)源處執(zhí)行應(yīng)用程序,而不是從遠(yuǎn)程源處執(zhí)行,那樣需要移動數(shù)據(jù)。
遺憾的是,傳統(tǒng)的架構(gòu)和應(yīng)用程序(即非分布式)并不令人滿意。由于數(shù)據(jù)集變得更龐大,必須將應(yīng)用程序移到數(shù)據(jù),而不是將數(shù)據(jù)移到應(yīng)用程序,因為那樣延遲太長。而有了Hadoop/Spark,分析工作流變得更具破壞性了,因為數(shù)據(jù)和應(yīng)用程序從不同的孤島來執(zhí)行,迫使數(shù)據(jù)移動并存儲到多個平臺上。
日立公司大數(shù)據(jù)分析高級產(chǎn)品營銷經(jīng)理弗雷德·歐(Fred Oh)說:“理想的數(shù)據(jù)湖基礎(chǔ)設(shè)施能夠存儲單一數(shù)據(jù)副本,并且讓應(yīng)用程序針對單一數(shù)據(jù)源執(zhí)行,沒必要移動數(shù)據(jù)或制作副本(比如在Linux、虛擬機(jī)和Hadoop之間)。”
8. 集成分析
分析不是一種新的功能,多年來它就存在于傳統(tǒng)的RDBMS環(huán)境中。不同之處在于,出現(xiàn)了基于開源的應(yīng)用程序,以及能夠?qū)?shù)據(jù)庫表與社交媒體和非結(jié)構(gòu)化數(shù)據(jù)源(比如維基百科)集成起來。關(guān)鍵在于,能夠把多種類型和格式的數(shù)據(jù)集成為一種標(biāo)準(zhǔn)的數(shù)據(jù),那樣就能更輕松、更一致地完成可視化和報告。擁有完成這項工作的合適工具集是確保任何分析/商業(yè)智能項目成功的關(guān)鍵。
歐說:“說到分析,重要的是要明白真正的挑戰(zhàn)不在可視化,而在數(shù)據(jù)集成,尤其是集成來自多個數(shù)據(jù)源、采用多種格式的數(shù)據(jù)。一套全面的數(shù)據(jù)集成工具和基于GUI的集成控制臺可以克服企業(yè)在大數(shù)據(jù)方面的挑戰(zhàn)。”
9. 大數(shù)據(jù)遇上大視頻
大數(shù)據(jù)夠糟糕,大視頻更是為這個現(xiàn)象添加了壓力。比如說,企業(yè)日益使用視頻監(jiān)控,不僅僅出于安全性,還為了提高運營和工業(yè)效率,簡化流量管理,支持監(jiān)管合規(guī)及另外幾種使用場合。很快,這些數(shù)據(jù)源會生成大量內(nèi)容。那些要處理大視頻的企業(yè)最好確保為此建立了合適類別的數(shù)據(jù)存儲系統(tǒng),無論是不是基于Hadoop。
歐說:“這些應(yīng)用程序正在帶來大量的視頻數(shù)據(jù),要是沒有合適的專用存儲解決方案,這些數(shù)據(jù)會帶來諸多問題,比如數(shù)據(jù)丟失和視頻質(zhì)量下降。”
10. 沒有贏家
最近Hadoop無疑攻下了許多地盤。所以,隨著數(shù)據(jù)存儲量急劇增長,它會是最終贏家,擊敗其他所有方法嗎?不太可能。
比如說,由于OLTP方面的固有優(yōu)點以及要求100%的可用性,基于SAN的傳統(tǒng)架構(gòu)不會在近期被取代。但是如果需要分析以及與非結(jié)構(gòu)化數(shù)據(jù)(比如社交媒體)集成,那么評估超融合平臺就有引人入勝的理由,因為超融合平臺將服務(wù)器計算、分布式文件系統(tǒng)、Hadoop/Spark和更新穎的數(shù)據(jù)庫應(yīng)用軟件與基于開源的分析工具整合起來。
因此,最佳方法將超融合平臺與分布式文件系統(tǒng)整合起來,并集成了分析軟件?;贚inux的傳統(tǒng)RDBMS應(yīng)用(DWO和數(shù)據(jù)市場等)可滿足這個用途,Hadoop/Spark/MapReduce則應(yīng)對新的社交媒體挑戰(zhàn),使用服務(wù)器虛擬化提供了靈活性和效率。但是這每種環(huán)境都可能形成不同的數(shù)據(jù)孤島。理想的方法就是同時支持這三種環(huán)境,并增添這種功能:可在數(shù)據(jù)源處執(zhí)行應(yīng)用程序,并減少分析工作流中的數(shù)據(jù)移動。
歐說:“成功的關(guān)鍵在于實施的系統(tǒng)考慮到了可擴(kuò)展性、分析集成和專業(yè)知識。最終,存儲專業(yè)人員需要預(yù)料未來的要求,而不僅僅著眼于存儲。”