毋庸置疑,迪士尼是一個(gè)巨大的娛樂公司,但是當(dāng)它涉及到大數(shù)據(jù)平臺(tái),這位娛樂巨頭看起來更像是一個(gè)初創(chuàng)公司。很多小公司,依靠堅(jiān)強(qiáng)的意志和不凡的智慧,憑借一個(gè)小小的團(tuán)隊(duì),使用Hadoop、NoSQL數(shù)據(jù)庫(kù)和其他開源技術(shù),完全能夠創(chuàng)造出一個(gè)特有的大數(shù)據(jù)平臺(tái)。無論結(jié)果是更好或者更壞,這樣的大公司在進(jìn)軍大數(shù)據(jù)領(lǐng)域,意味著這是一種完全不同規(guī)則的“玩法”。
迪斯尼大數(shù)據(jù)技術(shù)和服務(wù)解決方案團(tuán)隊(duì)的負(fù)責(zé)人Arun Jacob,在上周四的波士頓的IE集團(tuán)大數(shù)據(jù)創(chuàng)新峰會(huì)上,介紹了迪斯尼的大數(shù)據(jù)平臺(tái)。不像其他的公司,迪斯尼選擇打造大數(shù)據(jù)平臺(tái)是從零開始,絕對(duì)不是從一個(gè)軟件供應(yīng)商那里購(gòu)買軟件。雖然高昂的成本是一個(gè)很重要的因素,但是最關(guān)鍵的還是靈活性的問題,這是作出最終決定的根本原因。
減量化,重復(fù)利用,再循環(huán)
為了保證給公司帶來最大的價(jià)值,迪士尼大數(shù)據(jù)平臺(tái),凝結(jié)了每個(gè)員工的心血,它是每個(gè)人的一切,這是一項(xiàng)艱巨的任務(wù)。最初的時(shí)候,Jacob表示,“我們把我們自己當(dāng)做是一個(gè)小型的咨詢機(jī)構(gòu),僅僅是我們有東西要賣。”不過當(dāng)一個(gè)部門想要使用該平臺(tái)開發(fā)一個(gè)特定功能的時(shí)候,Jacob立刻行動(dòng)了起來。
從架構(gòu)上來說,通過這個(gè)平臺(tái)和具有特定目的的組件,它能夠?qū)β窂綌?shù)據(jù)進(jìn)行重構(gòu),或者說能夠非常容易地替換組件,如果有更好的話。迪士尼大數(shù)據(jù)平臺(tái)是基于Hadoop,Cassandra和MongoDB進(jìn)行開發(fā)的。運(yùn)營(yíng)團(tuán)隊(duì)可以使用該平臺(tái)來進(jìn)行查看、分析和索引的錯(cuò)誤消息,應(yīng)用程序開發(fā)人員可以得到他們需要的高吞吐量,低延遲的數(shù)據(jù)訪問,而分析團(tuán)隊(duì)有他們需要的高延遲數(shù)據(jù)的訪問。

然而,盡管Jacob也想使用一套開源軟件來降低成本,他確實(shí)有資本可以奢侈一下,這是大多數(shù)創(chuàng)業(yè)公司玩不起的——外包和不定期的新產(chǎn)品的預(yù)算。當(dāng)他需要Hadoop集群的支持,他完全可以打電話給Cloudera。當(dāng)需要部署Solandra(基于Solr和Cassandra的一個(gè)開放的源代碼搜索引擎),他完全可以購(gòu)買的企業(yè)版的DataStax基于Cassandra的產(chǎn)品,但是他沒有這么做。
靈活性是不是免費(fèi)的
Solandra的事件,實(shí)際上是為了權(quán)衡是不是需要使用免費(fèi)的開源軟件。“你可以為開源項(xiàng)目工作到深夜,你可以通過學(xué)習(xí)來運(yùn)行它們,但是這沒有任何任何意義。”Jacob表示,如果你愿意投入時(shí)間和精力,這些東西是完全可以克服的。
然而迪士尼這種規(guī)模的公司,有更多的問題必須要被克服。Jacob表示,在部署的過程中,雖然可以按自己的方式來解決容錯(cuò)、高可用性和安全性的問題,但是最終還是需要找出一種方式來實(shí)現(xiàn)這些東西。
適合大眾的才是最好的
雖然可以把系統(tǒng)建立在所有的人都能夠使用的開源軟件上,不過這也意味著沒有一個(gè)足夠的框架來構(gòu)建一個(gè)可擴(kuò)展的和穩(wěn)定的系統(tǒng),而且該系統(tǒng)還必須滿足成千上萬的各種類型和各種水平的內(nèi)部開發(fā)人員的需求。Jacob表示,對(duì)一個(gè)擁有六個(gè)人的創(chuàng)業(yè)公司來說,大家學(xué)習(xí)Hadoop的一個(gè)月,然后開始使用它進(jìn)行部署大數(shù)據(jù)平臺(tái),這是非常容易實(shí)現(xiàn)的。但是對(duì)于一個(gè)大企業(yè)來說,這絕對(duì)是不可行的。
他的團(tuán)隊(duì)讓部署變得容易
為了消除企業(yè)用戶不能加載他們的數(shù)據(jù)到系統(tǒng)中的借口,他們只需要把文件以指向用戶定制的界面。Jacob表示,迪士尼的數(shù)據(jù)平臺(tái),雖然以每天5TB的數(shù)據(jù)劇增,但是仍然有很多其他類型的數(shù)據(jù)需要存儲(chǔ)。因?yàn)樗麄円呀?jīng)對(duì)技術(shù)進(jìn)行了封裝,Jacob的團(tuán)隊(duì)并沒有談及過多關(guān)于Hadoop和MongoDB的問題,僅僅是提及了分析和查詢的部分。數(shù)據(jù)平臺(tái)使用很多種的編程語言來構(gòu)建客戶端的框架結(jié)構(gòu),所以開發(fā)者可以跟平臺(tái)進(jìn)行交互,就無需編寫REST風(fēng)格的API調(diào)用。