Grega Kespret是這家波士頓公司的分析總監(jiān),他說:“我們經(jīng)歷了許多嘗試和錯誤。比較有挑戰(zhàn)的是要設(shè)計一套架構(gòu)滿足業(yè)務(wù)需求,但還不能過度設(shè)計。”他提醒說,如果你做了,可能會以一片混亂而告終。
最開始的時候,Celtra公司通過網(wǎng)站訪問者和S3中的其它可跟蹤事件收集廣告交互數(shù)據(jù),然后使用Spark作為ETL引擎(抽取、轉(zhuǎn)換和加載)聚合信息,分析MySQL中的運營數(shù)據(jù)用于報表。但是,原始的事件數(shù)據(jù)是很難分析的。Celtra公司增加了一套獨立的基于Spark的分析系統(tǒng),但是仍然需要該公司的數(shù)據(jù)分析師們團結(jié)一致去清理和驗證事件數(shù)據(jù),這個過程的工作是很容易出錯的。
在2015年底的時候,Kespret和他的團隊經(jīng)過各種嘗試最終放棄了其它技術(shù),選擇了Snowflake作為事件數(shù)據(jù)存儲系統(tǒng),然后把數(shù)據(jù)按用戶會話進行組織之后會存儲到MySQL,這樣數(shù)據(jù)分析師用起來更方便。
Snowflake系統(tǒng)在去年四月份投入生產(chǎn)使用,比該軟件軟發(fā)布較早一點。Kespret說,下一步是要在Snowflake中存儲數(shù)據(jù),評估第二步ETL過程,然后處理數(shù)據(jù)存儲到另一套MySQL數(shù)據(jù)庫中。
大數(shù)據(jù)開發(fā)的“狂野西部日”
Hadoop合作設(shè)計者Doug Cutting認(rèn)為,技術(shù)選擇方案過多導(dǎo)致了構(gòu)建大數(shù)據(jù)架構(gòu)過程的復(fù)雜化。對于許多希望利用Hadoop及其同生技術(shù)的用戶組織,“這真像是狂野西部時期的泡沫”。Cutting現(xiàn)在是Hadoop供應(yīng)商Cloudera公司的首席架構(gòu)師。
不過Cutting認(rèn)為,大數(shù)據(jù)系統(tǒng)的益處也正體現(xiàn)于此——這種多樣性帶來了架構(gòu)靈活性,支持各種新的分析應(yīng)用,而且IT成本更低。因此,費一番周折實現(xiàn)集成也是值得的。他認(rèn)為大多數(shù)問題是因為對這些開源軟件的開發(fā)和部署流程不熟悉引起的。他說:“Hadoop很快就不會令人生畏,人們會習(xí)慣使用它的。”
或許是這樣吧,不過雅虎公司(據(jù)聲稱是最大的Hadoop用戶群)的IT經(jīng)理們表示,他們并沒有完全消除壓力。Cutting曾在雅虎總部工作(位于美國加州Sunnyvale),那時候Hadoop在2006年剛啟動。雅虎這家web搜索和互聯(lián)網(wǎng)服務(wù)公司是該技術(shù)的第一家生產(chǎn)環(huán)境用戶。目前,該公司(雅虎)的大數(shù)據(jù)環(huán)境有40個集群,混雜了HBase、Spark、Storm實時處理引擎和其它Hadoop相關(guān)技術(shù)。
Sumeet Singh是雅虎公司負(fù)責(zé)云計算和大數(shù)據(jù)平臺產(chǎn)品開發(fā)的高級總監(jiān)。他說,總的來說,圍繞Hadoop建立的巨大技術(shù)生態(tài)體系對用戶是有利的。Singh表示,Hadoop這個開源框架加速了技術(shù)開發(fā)的步伐,使IT團隊可以集中精力規(guī)劃和創(chuàng)造對他們公司有用的工具,而不必自己完成所有工作。“我知道有許多開源項目,不過不是每個人都能廣泛接觸采納,這其中會有真正明確獲益的贏家。”
大數(shù)據(jù)的世界并不總是陽光明媚的,Singh說:“總會有各種問題隨之而來”,他的頭腦快要被各種開源框架和大數(shù)據(jù)框架涉及的數(shù)不清的技術(shù)撐爆了。