到目前為止,你應(yīng)該已經(jīng)清楚理解數(shù)據(jù)的重要性;所以在你做了上面所有步驟后并決定使用Hadoop時(shí),聘請(qǐng)1個(gè)了解業(yè)務(wù)的分析師將會(huì)對(duì)你業(yè)務(wù)產(chǎn)生巨大幫助。
如果數(shù)據(jù)分析師不懂如何從中獲取價(jià)值,那么Hadoop將不會(huì)產(chǎn)生任何作用,不要吝嗇對(duì)業(yè)務(wù)有深刻認(rèn)識(shí)的雇員投資。鼓勵(lì)他們多做實(shí)驗(yàn),并且使用新的方式去分析同一個(gè)數(shù)據(jù),找出使用現(xiàn)有基礎(chǔ)設(shè)施獲利的途徑。
為決策制定使用統(tǒng)計(jì)抽樣
統(tǒng)計(jì)抽樣可以說是非常古老的技術(shù),研究者及數(shù)學(xué)家運(yùn)用它在大體積數(shù)據(jù)上推斷合理的結(jié)論。通過這個(gè)步驟,我們可以大幅度的縮減數(shù)據(jù)體積。取代追蹤數(shù)十億或者數(shù)百萬的數(shù)據(jù)點(diǎn),只需要跟蹤其中數(shù)千或者數(shù)百的數(shù)據(jù)點(diǎn)就可以了。這個(gè)手段雖然不會(huì)給我們提供精準(zhǔn)的結(jié)果,但是卻可以對(duì)大型的數(shù)據(jù)集有一個(gè)高等級(jí)的理解。
提升技術(shù)
你真的已經(jīng)達(dá)到關(guān)系型數(shù)據(jù)庫處理的極限了嗎?
在探索其它領(lǐng)域之前,你更應(yīng)該審視關(guān)系數(shù)據(jù)庫是否可以繼續(xù)處理問題。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)被使用了很長一段時(shí)間,而很多機(jī)構(gòu)已經(jīng)可以使用它管理TB級(jí)的數(shù)據(jù)倉庫。所以在遷往Hadoop之前,不妨考慮以下的方法。