“大數(shù)據(jù)”的潛力,來(lái)自傳感器、智能設(shè)備、及連接到互聯(lián)網(wǎng)的所有其他設(shè)備的信息源的大爆炸,可能在其最終業(yè)務(wù)影響下升值。但是,采取大數(shù)據(jù)的最大優(yōu)勢(shì),必須按動(dòng)信息獲取和理解它的體系結(jié)構(gòu)上的重新啟動(dòng)按鈕。這將需要建造一個(gè)新的方式獲取、組織和分析數(shù)據(jù)。因?yàn)槿绻藗儑L試將其用于商業(yè)智能的傳統(tǒng)機(jī)制,如數(shù)據(jù)倉(cāng)庫(kù)和傳統(tǒng)的數(shù)據(jù)分析技術(shù) ,那么大數(shù)據(jù)毫無(wú)作用。
重新思考資源庫(kù)
現(xiàn)在,基于最近一直在做的研究中迸發(fā)的大量新想法,我們需要稍稍猜測(cè)一下新架構(gòu)可能的樣子。 (關(guān)于本人對(duì)此話題的更多思考,請(qǐng)見(jiàn)CITO研究關(guān)于問(wèn)題的聲明《為大數(shù)據(jù)準(zhǔn)備》)第一站是資源庫(kù)。 Pentaho的首席技術(shù)官詹姆斯·迪克森,提出構(gòu)建大數(shù)據(jù)的新概念,即從廣闊世界連接的設(shè)備的數(shù)據(jù)。迪克森認(rèn)為CIO們應(yīng)該想到一個(gè)“數(shù)據(jù)湖”而不是“數(shù)據(jù)倉(cāng)庫(kù)”。二者的區(qū)別在于:在數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)在錄入時(shí)提前分類,以便規(guī)定如何分析,這對(duì)在線分析處理的確有用。在線分析處理以最佳形式存儲(chǔ)數(shù)據(jù),以支持特定類型的分析。
問(wèn)題是,在大數(shù)據(jù)世界,我們不清楚當(dāng)可用源數(shù)組最初被接受時(shí)數(shù)據(jù)的價(jià)值。我們可能知道我們要回答的一些問(wèn)題,但在一定程度上,不去回答發(fā)生了的問(wèn)題沒(méi)有任何意義。因此,以“最佳”形式存儲(chǔ)數(shù)據(jù)以供日后分析毫無(wú)意義。相反,迪克森的建議是將數(shù)據(jù)存儲(chǔ)在大量、易用、保管費(fèi)便宜的資源庫(kù)上。一旦有問(wèn)題需要解答,可有充裕的時(shí)間組織和篩選數(shù)據(jù)塊,找到問(wèn)題的答案。
Pentaho創(chuàng)建了一個(gè)數(shù)據(jù)組織優(yōu)化系統(tǒng),將數(shù)據(jù)存放在“數(shù)據(jù)湖”中,這允許客戶使用Hadoop篩選數(shù)據(jù)并提取可以回答問(wèn)題的數(shù)據(jù)塊。從本質(zhì)上講,Hadoop取代了OLAP(在線分析處理)的功能——存儲(chǔ)回答特定問(wèn)題的數(shù)據(jù)。
但是,Hadoop只是管理數(shù)據(jù)湖的一種方法。還有其他新形式的數(shù)據(jù)庫(kù),和其他新方法來(lái)組織大型數(shù)據(jù)。
標(biāo)簽,篩選和排序
Pervasive的Data Rush(數(shù)據(jù)涌現(xiàn))提供了另一種方法:數(shù)據(jù)篩選。Data Rush是一種編程工具包,它能創(chuàng)建高度并行的應(yīng)用程序,克服篩選大量數(shù)據(jù)的挑戰(zhàn)。使用Data Rush時(shí),你必須編寫(xiě)程序,這比配置Hadoop困難,但它篩選數(shù)據(jù)的速度和價(jià)值值得你用于某些應(yīng)用程序。
另一種方法是監(jiān)視在特定事件時(shí)到達(dá)“數(shù)據(jù)湖”的數(shù)據(jù)流,復(fù)雜事件處理(CEP)引擎也可以篩選甫一進(jìn)入存儲(chǔ)器或之后要進(jìn)行分析所需的數(shù)據(jù)。
ThingWorx,創(chuàng)始于賓夕法尼亞州,使用一個(gè)配以標(biāo)簽的圖形數(shù)據(jù)庫(kù)結(jié)構(gòu),以便提供甫進(jìn)入數(shù)據(jù)庫(kù)的數(shù)據(jù)(元數(shù)據(jù))信息的最大數(shù)量。數(shù)據(jù)一到達(dá)其圖形數(shù)據(jù)湖,就會(huì)被標(biāo)記其來(lái)源,收集時(shí)間,或任何其他可能會(huì)很有趣的標(biāo)簽;也可在數(shù)據(jù)到達(dá)以后添加標(biāo)簽。之后,當(dāng)用戶需要分析數(shù)據(jù),他們既可以利用這些標(biāo)簽,也可以利用圖形數(shù)據(jù)庫(kù)中陳列的數(shù)據(jù)間的關(guān)系,這些關(guān)系代表了數(shù)據(jù)的邏輯組合。這允許用戶提供數(shù)據(jù)的層次結(jié)構(gòu),所以,如果有幾十個(gè)數(shù)據(jù)流的設(shè)備抽出,用戶可以查看這些設(shè)備,無(wú)論是作為單個(gè)設(shè)備或整體設(shè)備,因?yàn)閳D形數(shù)據(jù)庫(kù)允許設(shè)備以任意方式概括。
拖動(dòng)數(shù)據(jù)湖
一旦數(shù)據(jù)湖是可操作的,用戶需要想方設(shè)法遍歷數(shù)據(jù)湖,并確定“活在”湖中的信息的價(jià)值。新搜索引擎也已成功開(kāi)發(fā),并專門用于查詢駐留在數(shù)據(jù)湖的數(shù)據(jù)類型。這些搜索引擎從根本上不同于在數(shù)據(jù)倉(cāng)庫(kù)中使用的搜索引擎。在數(shù)據(jù)倉(cāng)庫(kù)中,訪問(wèn)的主要模式是關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)范例,其中的數(shù)據(jù)結(jié)構(gòu)在數(shù)據(jù)庫(kù)設(shè)計(jì)時(shí)就已經(jīng)預(yù)先確定。有了數(shù)據(jù)湖和大數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)更加靈活。
事實(shí)上,有許多新的不同的結(jié)構(gòu)進(jìn)入市場(chǎng),這決定了搜索時(shí)的數(shù)據(jù)結(jié)構(gòu)而非存儲(chǔ)時(shí)的數(shù)據(jù)結(jié)構(gòu)。這意味著通過(guò)數(shù)據(jù)湖的過(guò)程很像用戶在Google上查詢,查看結(jié)果集并決定,“啊,這里有一個(gè)我感興趣的領(lǐng)域”。在接下來(lái)的搜索,您可以使用該字段,并可能創(chuàng)造和識(shí)別其他字段,同時(shí)進(jìn)行交互搜索并擴(kuò)展大數(shù)據(jù)結(jié)構(gòu)性質(zhì)。
此外,您一搜索,就創(chuàng)建了大數(shù)據(jù)的不同來(lái)源之間的關(guān)系。
通過(guò)這種類型的分析,大數(shù)據(jù)實(shí)際上變得有用。認(rèn)識(shí)到這一點(diǎn),供應(yīng)商已躍升至提供相關(guān)的解決方案。前面討論的Data Rush技術(shù)可以創(chuàng)建應(yīng)用程序,通過(guò)編程篩選大數(shù)據(jù)。
最簡(jiǎn)單的方法是用Splunk技術(shù),它有其自身的搜索語(yǔ)言,允許您通過(guò)大數(shù)據(jù)搜索,找出有用的查詢類型,并表達(dá)你對(duì)搜索時(shí)的數(shù)據(jù)結(jié)構(gòu)的理解。采用Splunk,數(shù)據(jù)和搜索結(jié)構(gòu)得以保持,并作為未來(lái)用戶的基礎(chǔ)。
ThingWorx也有類似的的方法。 ThingWorx使用工具SQUEAL™(搜索、查詢、分析),允許您通過(guò)使用標(biāo)簽和圖形數(shù)據(jù)庫(kù)結(jié)構(gòu)搜索數(shù)據(jù),并分析結(jié)果,以確定事物是否重要。采用Splunk和ThingWorx,您可以篩選新采集到的數(shù)據(jù),以確定重要的信息或事件。 (關(guān)于ThingWorx架構(gòu)的更多信息,請(qǐng)參閱CITO研究最近發(fā)表的白皮書(shū)《連接的平臺(tái)的誕生》)
消除IT瓶頸
最后,為了使其有用,IT必須盡可能簡(jiǎn)單地確定“數(shù)據(jù)湖”中什么東西比較重要,用以回答特定問(wèn)題集。我們的目標(biāo)是提取一個(gè)可分析的數(shù)據(jù)集,使用任何相同的可視化或解析工具,用于其他數(shù)據(jù)類型。在渠道終端,大數(shù)據(jù)不會(huì)看上去如此不同,而將是一個(gè)混合的、不斷改良的、歸結(jié)的重要數(shù)據(jù)集,但用于較小的重要數(shù)據(jù)集的數(shù)據(jù)采集和存儲(chǔ)技術(shù)相差很大。真正的價(jià)值由企業(yè)提供好,這使得大數(shù)據(jù)收集的排序和審訊變得盡可能簡(jiǎn)單,讓IT不再是瓶頸。
數(shù)據(jù)湖已經(jīng)被證明是用于商業(yè)洞察的可行辦法,通過(guò)營(yíng)銷人員和業(yè)務(wù)分析師管理并掌握從機(jī)數(shù)據(jù)和業(yè)務(wù)情報(bào)的深刻見(jiàn)解,Splunk發(fā)展迅猛。ThingWorx,在其早期的客戶端實(shí)現(xiàn)中,也通過(guò)采集和保存關(guān)于更多數(shù)據(jù)的知識(shí)而蓬勃發(fā)展,除此之外,還展現(xiàn)了圖形數(shù)據(jù)庫(kù)外的數(shù)據(jù)不太可能采用的數(shù)據(jù)間關(guān)系。這些都只是能處理大數(shù)據(jù)的少數(shù)技術(shù),他們都是通過(guò)創(chuàng)建這些新的架構(gòu),使大數(shù)據(jù)變得有用。最先創(chuàng)建這些架構(gòu)的公司必將脫穎而出,成為勝利者。
丹·伍茲是CITO研究——關(guān)注CTO和CIO需要——的CTO(首席技術(shù)官)及編輯。他為多家他筆下的公司提供咨詢服務(wù)。關(guān)于CIO和CTO將如何發(fā)展的更多內(nèi)容,請(qǐng)登陸CITOResearch.com。
【中云網(wǎng)獨(dú)家編譯,如需轉(zhuǎn)載,請(qǐng)注明文章出處“中云網(wǎng)”及網(wǎng)址鏈接?!?/em>