導(dǎo)讀:Yahoo CTO Raymie Stata是領(lǐng)導(dǎo)海量數(shù)據(jù)分析引擎的關(guān)鍵人物。IBM和Hadoop將更多的精力專注在海量數(shù)據(jù)上,海量數(shù)據(jù)正在潛移默化的改變企業(yè)和IT部門。
越來越多的大企業(yè)的數(shù)據(jù)集以及創(chuàng)建需要的一切技術(shù),包括存儲、網(wǎng)絡(luò)、分析、歸檔和檢索等,這些被認(rèn)為是海量數(shù)據(jù)。這些大量信息直接推動了存儲、服務(wù)器以及安全的發(fā)展。同時也是給IT部門帶來了一系列必須解決的問題。
信息技術(shù)研究和分析的公司Gartner認(rèn)為海量數(shù)據(jù)處理應(yīng)該是將大量的不同種類以及結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)通過網(wǎng)絡(luò)匯集到處理器和存儲設(shè)備之中,并伴隨著將這些數(shù)據(jù)轉(zhuǎn)換為企業(yè)的商業(yè)報告。
海量數(shù)據(jù)處理的三個主要因素:大容量數(shù)據(jù)、多格式數(shù)據(jù)和速度
大容量數(shù)據(jù)(TB級、PB級甚至EB級):人們和機器制造的越來越多的業(yè)務(wù)數(shù)據(jù)對IT系統(tǒng)帶來了更大的挑戰(zhàn),數(shù)據(jù)的存儲和安全以及在未來訪問和使用這些數(shù)據(jù)已成為難點。
多格式數(shù)據(jù):海量數(shù)據(jù)包括了越來越多不同格式的數(shù)據(jù),這些不同格式的數(shù)據(jù)也需要不同的處理方法。從簡單的電子郵件、數(shù)據(jù)日志和信用卡記錄,再到儀器收集到的科學(xué)研究數(shù)據(jù)、醫(yī)療數(shù)據(jù)、財務(wù)數(shù)據(jù)以及豐富的媒體數(shù)據(jù)(包括照片、音樂、視頻等)。
速度:速度是指數(shù)據(jù)從端點移動到處理器和存儲的速度。
Kusnetzky集團的分析師Dan Kusnetzky在其博客表示“簡單的說,大數(shù)據(jù)是指允許組織創(chuàng)建、操作和管理的龐大的數(shù)據(jù)集和存儲設(shè)施工具”。這是否意味著將來將會出現(xiàn)比TB和PB更大的數(shù)據(jù)集嗎?供應(yīng)商給出的回應(yīng)是“會出現(xiàn)”。
他們也許會說“你需要我們的產(chǎn)品來管理和組織利用大規(guī)模的數(shù)據(jù),只是想想繁雜大量的維護(hù)動態(tài)數(shù)據(jù)集帶來的麻煩就使人們頭疼“。此外海量數(shù)據(jù)的另外一個價值是它可以幫助企業(yè)在適當(dāng)?shù)臅r機作出正確決策。
從歷史上看,數(shù)據(jù)分析軟件面對當(dāng)今的海量數(shù)據(jù)已顯得力不從心,這種局面正在悄然轉(zhuǎn)變。新的海量數(shù)據(jù)分析引擎已經(jīng)出現(xiàn)。如Apache的Hadoop、LexisNexis的HPCC系統(tǒng)和1010data(托管、海量數(shù)據(jù)分析的平臺供應(yīng)商)的以云計算為基礎(chǔ)的分析服務(wù)。
101data的高級副總裁Tim Negris表示海量數(shù)據(jù)的收集以及存放和利用海量數(shù)據(jù)實際上完全是兩回事。在做任何事前需要大量(準(zhǔn)備數(shù)據(jù))的工作是像Oracle和大多數(shù)數(shù)據(jù)庫廠商所面臨的難題之一。我們正是要消除這個難題,并把數(shù)據(jù)直接交到分析師的手中。Hadoop和HPCC系統(tǒng)做到了這一點。這三個平臺都著眼于海量數(shù)據(jù)并提供支持。
開源的Hadoop已經(jīng)在過去5年之中證明了自己是市場中最成功的數(shù)據(jù)處理平臺。目前Cloudera的首席執(zhí)行官和Apache基金會的Doug Cutting是Hadoop的創(chuàng)始人,他曾在Yahoo工作過。
Hadoop將海量數(shù)據(jù)分解成較小的更易訪問的批量數(shù)據(jù)并分發(fā)到多臺服務(wù)器來分析(敏捷是一個重要的屬性,就像你更容易消化被切成小塊的食物)Hadoop再處理查詢。
“Gartner和IDC的分析師認(rèn)為海量數(shù)據(jù)的處理速度和處理各種數(shù)據(jù)的能力都是Hadoop吸引人們的地方”。Cloudera的產(chǎn)品副總裁Charles Zedlewski說到。
在Cutting和他的Yahoo團隊提出Hadoop項目之后,在Yahoo IT系統(tǒng)測試并廣泛使用了很多年。隨后他們將Hadoop發(fā)布到開源社區(qū),這使得Hadoop逐漸產(chǎn)品化。
在Cutting和Yahoo在開發(fā)、測試并內(nèi)部運行代碼時,他們了解到使用起來還是很復(fù)雜的。這導(dǎo)致他們馬上意識到如果在未來提供周邊服務(wù)(例如提供直觀的用戶界面、定制部署和附加功能軟件)可賺取更多的資金。
在2009年Cloudera作為一家獨立公司開始運營,公司產(chǎn)品采用開源并產(chǎn)品化Hadoop分析引擎和Cloudera企業(yè)版(Cloudera Enterprise整合了更多的工具,包括Hive、HBase、Sqoop、Oozie、Flume、Avro、Zookeeper、Pig和Cloudera Desktop)。
Cloudera得到了大量投資者的青睞,這其中包括VMware的創(chuàng)始人和前首席執(zhí)行官Diane Greene、Flickr的聯(lián)合創(chuàng)始人Caterina Fake、MySQL前首席執(zhí)行官Marten Mickos、Linkedln總裁Jeff Weiner和Facebook CFO Gideon Yu。
自從Cloudera成立以來,只有少數(shù)的頂級公司和初創(chuàng)公司免費提供他們基于Hadoop開放源代碼架構(gòu)制作的自己的版本。
這是一場真正的企業(yè)科技的競爭。就像在一場接力賽中,所有選手都必須使用同一種類型的接力棒(Hadoop的代碼)。企業(yè)競爭主要集中在處理數(shù)據(jù)的速度、敏捷性和創(chuàng)造性上。這場競爭是迫使大多數(shù)企業(yè)在海量數(shù)據(jù)分析市場有所作為最有效的方法。
IBM提供了基于Hadoop的InfoSphere BigInsights(IBM InfoSphere BigInsights 是用于分析和虛擬化海量數(shù)據(jù)的軟件和服務(wù),這款新產(chǎn)品由 Apache Hadoop 提供技術(shù)支持。)基本版和企業(yè)版。但公司有更大的計劃。
IBM CEO Sam Palmisano表示IBM正在將新一代數(shù)據(jù)分析作為公司的研發(fā)重點,IBM在此項目上投資了1億美元。IBM院士和計算機科學(xué)研究室主任Laura Haas表示IBM實驗室的研究遠(yuǎn)遠(yuǎn)超出了海量數(shù)據(jù)的范圍,并已經(jīng)著手”Exadata“分析研究。Watson就是IBM在數(shù)據(jù)海量數(shù)據(jù)研究的成果,Watson將用于更多用途,包括衛(wèi)生保健、科學(xué)研究等。
其他Hadoop版本
MapR發(fā)布了一個分布式文件系統(tǒng)和MapReduce引擎,MapR還與存儲和安全的領(lǐng)導(dǎo)廠商EMC合作向客戶提供了Greenplum HD企業(yè)版Hadoop存儲組件 。EMC Hadoop的另一個獨特之處在于它沒有采用官方版本的Apache代碼,而是采用Facebook的Hadoop代碼,后者在可擴展性和多站點部署上進(jìn)行了優(yōu)化。
另一家廠商 Platform Computing,Platform提供了與Apache Hadoop MapReduce編程模型完全兼容的分布式分析平臺,并支持多種分布式文件系統(tǒng)。
SGI(Silicon Graphics International )提供基于SGI Rackable和CloudRack服務(wù)器產(chǎn)品實施服務(wù)的Hadoop優(yōu)化解決方案。
戴爾也開始出售預(yù)裝該開源數(shù)據(jù)處理平臺的服務(wù)器。 該產(chǎn)品成本隨支持選項不同而異,基礎(chǔ)配置價格在11.8萬美元至12.4萬美元之間,包含為期一年的Cloudera支持和更新,6個PowerEdge C2100服務(wù)器(2個管理節(jié)點,1個邊緣節(jié)點和3個從站節(jié)點,以及6個戴爾PowerConnect 6248交換機)。
替代品浮出水面。包括1010data的云服務(wù)、LexusNexis公司的Risk,該系統(tǒng)在10年間幫助LexusNexis公司分析大量的客戶數(shù)據(jù),并在金融業(yè)和其他重要的行業(yè)中應(yīng)用。LexusNexis最近還宣布要在開源社區(qū)分享其核心技術(shù)以替代Hadoop。LexisNexis公司發(fā)布一款開源的數(shù)據(jù)處理方案,該技術(shù)被稱為HPCC系統(tǒng)。
HPCC可以管理、排序并可在幾秒鐘內(nèi)分上億條記錄。HPCC提供兩種數(shù)據(jù)處理和服務(wù)的方式——Thor Data Refinery Cluster和Roxy Rapid Data Delivery Cluster。Escalante表示如此命名是因為其能像Thor(北歐神話中司雷、戰(zhàn)爭及農(nóng)業(yè)的神)一樣解決困難的問題,Thor主要用來分析和索引大量的Hadoop數(shù)據(jù)。而Roxy則更像一個傳統(tǒng)的關(guān)系型數(shù)據(jù)庫或數(shù)據(jù)倉庫,甚至還可以處理Web前端的服務(wù)。
LexisNexis CEO James Peck表示我們認(rèn)為在當(dāng)下這樣的舉動是對的,同時我們相信HPCC系統(tǒng)會將海量數(shù)據(jù)處理提升到更高高度。
在2011年6月Yahoo和硅谷風(fēng)險投資公司Benchmark Capital周二聯(lián)合宣布,他們將聯(lián)合成立一家名為Hortonworks的新公司,接管被廣泛應(yīng)用的數(shù)據(jù)分析軟件Hadoop的開發(fā)工作。
據(jù)一些前Yahoo員工透露,從商業(yè)角度來看Hortonworks將保持獨立運營,并發(fā)展其自身的商業(yè)版。
在轉(zhuǎn)型時期,Yahoo CTO Raymie Stata成為關(guān)鍵人物,他將負(fù)責(zé)公司所有IT項目的發(fā)展。Stata表示相對于Yahoo,在Hortonworks我們會投入更多的精力在Hadoop的工作和相關(guān)技術(shù)上,我們認(rèn)為應(yīng)加大對Hadoop的投資。我們會將一些關(guān)鍵人員指派到Hortonworks公司,但這既不是裁員也不是分拆。這是在加大對Hadoop的投入。Yahoo將繼續(xù)為Hadoop的發(fā)展做出更大的貢獻(xiàn)。
Stata解釋說,Yahoo一直有一個夢想,就是將Hadoop變?yōu)榇髷?shù)據(jù)分析軟件的行業(yè)標(biāo)準(zhǔn)。但是這必須將Hadoop商業(yè)化。Stata表示創(chuàng)建Hortonworks的主要原因是因為Yahoo已經(jīng)看到了未來企業(yè)分析(感謝Hadoop 6年以來的發(fā)展)的未來,并知道該怎樣去做。我們看到海量數(shù)據(jù)分析將很快成為企業(yè)非常普遍的需求。
我們將Hadoop部署在企業(yè)之中,我不認(rèn)為所有人都否定這樣的解決方案。我們要通過Hadoop為我們的股東創(chuàng)造價值。如果某一天Hadoop成為海量數(shù)據(jù)處理的行業(yè)標(biāo)準(zhǔn),這將是對我們最好的獎賞。