在Gartner的發(fā)展規(guī)律周期(hype cycle)中,大數(shù)據(jù)還在節(jié)節(jié)高升,一個(gè)全新的大數(shù)據(jù)服務(wù)供應(yīng)商類別又誕生了。這一消息對(duì)MetaScale是最不陌生的了。該公司在今年四月進(jìn)入大眾視野,是Sears Holdings的全控股子公司。
MetaScale位于美國(guó)伊利諾斯州的霍夫曼斯特市,是一家在基于云計(jì)算的模型中運(yùn)營(yíng)的管理大數(shù)據(jù)服務(wù)供應(yīng)商。也就是說(shuō),MetaScale可以向那些準(zhǔn)備采用大數(shù)據(jù)分析技術(shù)但又沒(méi)有相關(guān)架構(gòu)或者能力的客戶,提供不同程度的足夠的所需支持。
在本文中,記者編輯就大數(shù)據(jù)的挑戰(zhàn)和市場(chǎng)趨勢(shì)話題,對(duì)MetaScale的創(chuàng)始人兼CEO、同時(shí)也是Sears的CTO Phil Shelley進(jìn)行了采訪。
記者:目前企業(yè)面臨的大數(shù)據(jù)方面的挑戰(zhàn)有哪些?您能否對(duì)大數(shù)據(jù)管理和大數(shù)據(jù)分析進(jìn)行分別闡述?
Shelley:首先,從大數(shù)據(jù)管理方面來(lái)看,我們現(xiàn)在處于一個(gè)全新的門檻。任何IT行業(yè)的資深人士都知道,Holy Grail想要把所有數(shù)據(jù)都匯集到同一個(gè)地方,這對(duì)系統(tǒng)要求非常高。當(dāng)然了,他們沒(méi)能實(shí)現(xiàn)愿望,結(jié)果還是用ETL復(fù)制數(shù)據(jù);這個(gè)復(fù)制工作非常龐大,不同的系統(tǒng)用作不同的用途,將數(shù)據(jù)放到不同的地方。因此,數(shù)據(jù)管理一直以來(lái)都讓人頭疼。不過(guò),現(xiàn)在有了改變。現(xiàn)在已經(jīng)可以將數(shù)據(jù)模型放到一個(gè)單一的地方,企業(yè)中所有的交易信息、歷史記錄都在同一個(gè)地方。這樣一來(lái),你就可以實(shí)實(shí)在在地對(duì)企業(yè)進(jìn)行管理、制造模型、設(shè)計(jì)數(shù)據(jù)架構(gòu),從真正意義上提高數(shù)據(jù)的使用效率。數(shù)據(jù)的重復(fù)使用十分重要;有了這些技術(shù)以后,終于可以實(shí)現(xiàn)了。
在把數(shù)據(jù)集中到一處之后,你就有了使用它們的各種新的可能性,因?yàn)镠adoop可以保存海量的歷史記錄。還不僅僅是保存,它還可以在不用移動(dòng)數(shù)據(jù)的情況下對(duì)其進(jìn)行分析。當(dāng)你的企業(yè)涉及數(shù)以P計(jì)的數(shù)據(jù)時(shí),你真的沒(méi)有辦法移動(dòng)它們進(jìn)行分析。以前的老辦法是使用ETL將數(shù)據(jù)移動(dòng)到一個(gè)分析平臺(tái)上,現(xiàn)在行不通了。因此,與過(guò)去相比,能夠擁有一個(gè)既能存儲(chǔ)數(shù)據(jù)又能對(duì)其進(jìn)行分析的平臺(tái)真是一大進(jìn)步了。
記者:那么,也就是說(shuō)您是把工具帶到數(shù)據(jù)中去,而不是將數(shù)據(jù)轉(zhuǎn)移到工具上來(lái)?
Shelley:在目前所有的大數(shù)據(jù)技術(shù)中,也有一些新興的工具可以配置圖形前端和分析前端,這樣你就能在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行查詢和分析,而不是復(fù)制它們,你只需提取那么一小部分你真正需要的數(shù)據(jù),也就是結(jié)果集。這是一種全新的顛覆性的思維方式,人們適應(yīng)它還需要一段時(shí)間。
記者:我聽(tīng)到過(guò)很多說(shuō)法--“邏輯數(shù)據(jù)倉(cāng)庫(kù)”、“混合數(shù)據(jù)生態(tài)系統(tǒng)”等等,這些概念強(qiáng)調(diào)的都是把數(shù)據(jù)放到最合適的地方。這和您說(shuō)的是一回事吧,對(duì)嗎?
Shelley:是的,只不過(guò)有些地方我說(shuō)的更具體一點(diǎn)。有些人會(huì)說(shuō),把數(shù)據(jù)放到合適的地方;那么如果這么說(shuō),你就會(huì)有太多包含大量數(shù)據(jù)片段的系統(tǒng)。由于ETL所花費(fèi)的時(shí)間和成本,我不會(huì)支持這一說(shuō)法。但我絕對(duì)擁護(hù)工具的生態(tài)系統(tǒng)。如果你需要高速的SQL分析,那么Hadoop一定不合適,這一點(diǎn)毋庸置疑。把多少數(shù)據(jù)放到什么樣的地方、什么時(shí)候放、怎么放--這些問(wèn)題都需要仔細(xì)規(guī)劃,否則就會(huì)產(chǎn)生某些地方數(shù)據(jù)太多、某些地方空余太大的情況。如果那樣的話,你又回到了使用ETL時(shí)遇到的問(wèn)題--移動(dòng)數(shù)據(jù)。在企業(yè)數(shù)據(jù)架構(gòu)方面的考慮尤其得慎重,需要合理地將系統(tǒng)與Hadoop結(jié)合,這至關(guān)重要。不過(guò)話說(shuō)回來(lái),我也不太相信太多的其他操作數(shù)據(jù)存儲(chǔ)和邏輯數(shù)據(jù)集市,因?yàn)槟菢又粫?huì)增加復(fù)雜度。隨著數(shù)據(jù)變得越來(lái)越大,你沒(méi)辦法那樣做,也沒(méi)必要那樣做。