讓我們突破管理數(shù)量之龐大這一點(diǎn),考察一下大數(shù)據(jù)基礎(chǔ)設(shè)施方面仍存在著某些不足,其是否是基于Hadoop的、或者是基于ADBMS,又或者是兩者的組合。企業(yè)尋求最大限度地提高大數(shù)據(jù)的商業(yè)價(jià)值必須有效地解決這些問題。
如下三個(gè)建議,幫助您的企業(yè)最大限度地提高大數(shù)據(jù)的商業(yè)價(jià)值:
第一、縮小商業(yè)用戶和大數(shù)據(jù)之間存在的差距
目前的實(shí)現(xiàn)需要許多相同的組件,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)/商務(wù)智能(DW/BI)系統(tǒng),包括建立必要的數(shù)據(jù)模式和SQL查詢。這些通常是不能直接訪問的大規(guī)模并行處理(產(chǎn)量)的分布式文件系統(tǒng),如Hadoop,路線數(shù)據(jù)批處理模式。連同正常的延時(shí)與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)的,這可能會(huì)導(dǎo)致影響實(shí)時(shí)決策的盲點(diǎn)。
第二、在同一時(shí)間管理多個(gè)源
數(shù)據(jù)管理系統(tǒng)通常在同一時(shí)間管理一個(gè)來(lái)源的數(shù)據(jù)。因此,復(fù)雜關(guān)系數(shù)據(jù)類型之間往往錯(cuò)過。信息管理和分析隔離作為一種(非常大的)倉(cāng)可以產(chǎn)生只有一個(gè)子集,并存在潛在產(chǎn)生的問題多于答案的可能。一個(gè)完整的信息圖片將結(jié)合企業(yè)其他相關(guān)記錄的大數(shù)據(jù)實(shí)現(xiàn)。企業(yè)必須重新考慮他們的孤立大數(shù)據(jù),重構(gòu)他們獲取和分析與解決問題所使用的分析方法,以便可以讓統(tǒng)一的數(shù)據(jù)通過。
第三、發(fā)展語(yǔ)境業(yè)務(wù)
非結(jié)構(gòu)化內(nèi)容,如文檔、電子郵件、網(wǎng)頁(yè)內(nèi)容、流暢的文字、SharePoint,通話記錄和調(diào)查,既不分類也不進(jìn)行分析,結(jié)合上下文理解。大多數(shù)大型數(shù)據(jù)系統(tǒng)斷言他們“處理”的數(shù)據(jù)是非結(jié)構(gòu)化的,但他們不執(zhí)行文本分析或真正結(jié)合語(yǔ)境進(jìn)行非結(jié)構(gòu)化的內(nèi)容分析。語(yǔ)境業(yè)務(wù)的理解,有助于發(fā)現(xiàn)新的商業(yè)洞察力,必須開發(fā)。
審查現(xiàn)有的大型數(shù)據(jù)基礎(chǔ)設(shè)施的這些問題證實(shí)了企業(yè)所面臨的挑戰(zhàn)遠(yuǎn)遠(yuǎn)超出IT領(lǐng)導(dǎo)人們的理解和想象。使用上述的技巧,而不只是管理大數(shù)據(jù)作為自己?jiǎn)为?dú)的筒倉(cāng),可以幫助您獲得新的見解和系統(tǒng)數(shù)據(jù)。