雖然流行度逐漸升溫,但是根據(jù)Forrester研究機構(gòu)的高級數(shù)據(jù)管理分析師James Kobielus的說法,開源技術(shù)Hadoop在應(yīng)對大數(shù)據(jù)分析時還存在這一定的障礙。其中包括了如何存儲上百TB的數(shù)據(jù)以及Hadoop互操作性標準的缺失。
在TechTarget網(wǎng)站最近的一次采訪中,Kobielus向我們介紹了大數(shù)據(jù)存儲的問題,以及為何標準化對于Hadoop普及來說是一件好事。
最近對于Hadoop技術(shù)和大數(shù)據(jù)分析的談?wù)摲浅6?,Hadoop受到了越來越多的認可,但是為什么并不是所有人都用它呢?
Kobielus:在部署一個大數(shù)據(jù)分析項目時,不管你用的是Hadoop集群還是傳統(tǒng)的數(shù)據(jù)倉庫,我們知道要應(yīng)對的是幾百TB的存儲壓力,這部分成本是十分昂貴的。所以大數(shù)據(jù)領(lǐng)域里,真正的成本因素是存儲,要花多少錢購買存儲設(shè)備?你能承受多大的存儲?有多少數(shù)據(jù)可以存放在磁帶中?最重要的是存儲部分,而不是你選用了哪種技術(shù)。
在您的研究中,Hadoop使用者中有多少企業(yè)的數(shù)據(jù)量已經(jīng)達到PB級別了?
Kobielus:現(xiàn)實中,大多數(shù)Hadoop集群是達不到PB數(shù)據(jù)級別的,而且是差的很遠,他們更多的是管理幾百TB的數(shù)據(jù)。但是在我調(diào)查的客戶中,很多人表示數(shù)據(jù)增長到PB級別時,存儲問題是最讓人頭疼的。這也就是為什么我們并沒有看到很多擴展到PB級別的傳統(tǒng)數(shù)據(jù)倉庫,原因很簡單,就是成本問題。
那么除了存儲的成本問題之外,Hadoop和大數(shù)據(jù)分析還有哪些挑戰(zhàn)?
Kobielus:整個Hadoop生態(tài)系統(tǒng)還處在起步階段,同傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)相比還不成熟。目前主流的企業(yè)數(shù)據(jù)倉庫廠商還有許多沒有添加Hadoop的特性,即使是有,也是沒有完全地集成到他們的核心數(shù)據(jù)倉庫工具中。這是Hadoop不成熟的一個具體表現(xiàn)。
此外,Hadoop社區(qū)并不標準,我的意思是它的標準化同其他開源社區(qū)存在一樣的問題。許多用戶或者公司登錄同一個社區(qū),然后自己構(gòu)建軟件并開放源代碼。這些功能的確是被許多人用到,但是它缺乏一個統(tǒng)一的正式的標準,或者是批準過程?,F(xiàn)在,Hadoop或者開源社區(qū)中有許多人會說標準化是一條錯誤的路線。我也理解他們要表達的意思,但是事實就是在沒有標準化的情況下,隨之而來的就是風(fēng)險,而大部分公司是無法承受這部分風(fēng)險的。
為什么說沒有標準化就是存在著潛在的風(fēng)險呢?
Kobielus:事實上,Hadoop集群目前還沒有一個普遍的參考架構(gòu),而一個參考架構(gòu)則可以為可插拔存儲層提供一個明確的接口,同樣為跨多平臺的MapReduce互操作性提供一個標準的界面。這個架構(gòu)和SOA社區(qū)在過去十多年開發(fā)的那些參考架構(gòu)(SOAP、WSDL和UDDI等)相類似,最終目的都是為了加強互操作性。對于Hadoop來說,我們還沒有互操作性和認證的測試,這對于許多領(lǐng)域來說都是致命的,比如你的公司是一家大型企業(yè),你們在不同的部門中使用了Hadoop集群,而它們想要結(jié)成一個共同體。而現(xiàn)在還沒有這樣的標準,也沒有實時數(shù)據(jù)控制與訪問的技術(shù)說明。這樣的技術(shù)對于許多大型企業(yè)在接受上會存在困難。
Hadoop早期的使用者該如何應(yīng)對互操作性問題?
Kobielus:如果你想要在分布式Hadoop中做真正的實時數(shù)據(jù)分析話,那么你需要去編寫大量的代碼來進行功能定制,然而許多時候還會出現(xiàn)bug或者根本無法工作。在這里有很大的風(fēng)險,我認為業(yè)界目前最重要的應(yīng)該是為互操作性和認證測試創(chuàng)建一個普遍的參考架構(gòu),并希望具體出爐一些正式的標準,比如HDFS版本等相關(guān)標準。