“大數(shù)據(jù)”的能夠帶給企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的誘人條件,包括可以使用其來(lái)解鎖客戶的機(jī)密,了解網(wǎng)站使用情況和業(yè)務(wù)的其他關(guān)鍵要素。但是,一切應(yīng)以謹(jǐn)慎為準(zhǔn):如果沒(méi)有適當(dāng)?shù)臄?shù)據(jù)管理過(guò)程,只是一味的熱情,大數(shù)據(jù)項(xiàng)目可能會(huì)帶來(lái)混亂的麻煩,包括虛假數(shù)據(jù)和意想不到的成本。
數(shù)據(jù)治理的作用便是為了保護(hù)大數(shù)據(jù)。雖然大數(shù)據(jù)通常涉及到大量非結(jié)構(gòu)化信息,許多企業(yè)的IT部門(mén)發(fā)現(xiàn)大數(shù)據(jù)還僅僅只是最近的現(xiàn)象。因此,根據(jù)數(shù)據(jù)管理分析師表示,大數(shù)據(jù)的環(huán)境治理還處在其早期階段,關(guān)于如何有效地進(jìn)行大數(shù)據(jù)的管理還存在諸多廣泛的方法。
“大數(shù)據(jù)是這樣一個(gè)新的領(lǐng)域,到目前為止還沒(méi)有人開(kāi)發(fā)出相關(guān)的管理程序和政策。”Forrester研究公司的分析師BorisEvelson在馬薩諸塞州劍橋說(shuō)。“而且存在的問(wèn)題比答案要多得多。”
一個(gè)根本的問(wèn)題是,大數(shù)據(jù)池更多的是面向數(shù)據(jù)的勘探和發(fā)現(xiàn),而非傳統(tǒng)的商業(yè)智能報(bào)告和分析,Evelson補(bǔ)充說(shuō)。他說(shuō),這帶來(lái)了一個(gè)惡性循環(huán):“數(shù)據(jù)不能被管理直到其被模型化,但又必須在通過(guò)數(shù)據(jù)分析之后才能被模型化。”
數(shù)據(jù)管理程序提供了一個(gè)框架,用于設(shè)置數(shù)據(jù)使用政策和實(shí)施控制,以確保信息保持準(zhǔn)確一致和可以被訪問(wèn)。顯然,在這個(gè)重大挑戰(zhàn)的過(guò)程中,管理大數(shù)據(jù)需要分類(lèi)、建模和數(shù)據(jù)映射,并進(jìn)行數(shù)據(jù)捕獲和儲(chǔ)存,特別是針對(duì)大量非結(jié)構(gòu)化特性的信息。
“為了從大數(shù)據(jù)中獲得有意義的商業(yè)信息,我們需要做各種各樣的準(zhǔn)備工作,類(lèi)似于數(shù)據(jù)的語(yǔ)義分析,然后將其渲染成概念模型或本體的語(yǔ)義分析。”位于新澤西州Holmdel的數(shù)據(jù)管理的顧問(wèn)公司AskGet的總裁馬爾科姆·奇澤姆說(shuō)。
在大數(shù)據(jù)中尋找線索
困難的是,大數(shù)據(jù)治理過(guò)程中的一切是那么的新。“在談到大數(shù)據(jù)時(shí),存在著很大的不成熟,大部分?jǐn)?shù)據(jù)管理者真的可以說(shuō)是毫無(wú)頭緒。”奇澤姆說(shuō)。
大數(shù)據(jù),其中也包括大量的結(jié)構(gòu)性交易數(shù)據(jù),具有特殊的功能。通常用三個(gè)詞來(lái)定義:數(shù)量、種類(lèi)和速度。而Forrester還在其定義中增加了變化性這一特性,而其對(duì)手咨詢公司Gartner則將這一特性定義為復(fù)雜性。
此外,數(shù)據(jù)往往來(lái)自外部來(lái)源,其準(zhǔn)確性并不總是能很容易地驗(yàn)證;同時(shí),文本數(shù)據(jù)的含義和上下文不一定是連貫的。在許多情況下,它存儲(chǔ)在Hadoop的文件系統(tǒng)或NoSQL數(shù)據(jù)庫(kù),而不是傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)。對(duì)于許多企業(yè)來(lái)說(shuō),大數(shù)據(jù)涉及所有有關(guān)的人員:IT經(jīng)理、程序員、數(shù)據(jù)架構(gòu)師、數(shù)據(jù)建模師和數(shù)據(jù)管理專(zhuān)業(yè)人員。
美國(guó)馬薩諸塞州斯托雅典娜IT解決方案的創(chuàng)始人兼顧問(wèn)里克·謝爾曼說(shuō),試圖管理海量大數(shù)據(jù)的最大隱患之一是失去的業(yè)務(wù)優(yōu)先級(jí)的視線。
例如,被企業(yè)抓獲的大部分非結(jié)構(gòu)化數(shù)據(jù)來(lái)自社會(huì)媒體,通常只有一小部分信息是有價(jià)值的,根據(jù)謝爾曼介紹。“試圖管理或控制一切非結(jié)構(gòu)化數(shù)據(jù),將是一個(gè)很大的錯(cuò)誤。”他警告說(shuō),企業(yè)最終可能會(huì)浪費(fèi)時(shí)間和資源在不重要的數(shù)據(jù)上面。
加利福尼亞州紐瓦克GraniteFalls咨詢公司總裁DanetteMcGilvray表示,如果沒(méi)有經(jīng)過(guò)理性的處理,大數(shù)據(jù)對(duì)數(shù)據(jù)管理和治理團(tuán)隊(duì)來(lái)說(shuō)只可能是在消磨時(shí)間。“我們分辨大數(shù)據(jù)是否是值得管理的唯一途徑是:我們必須知道哪些業(yè)務(wù)需要這些數(shù)據(jù)。”McGilvray說(shuō)。“當(dāng)涉及到大數(shù)據(jù),我們?nèi)匀槐仨氂涀∵@一點(diǎn)。”
位于美國(guó)佛羅里達(dá)州奧蘭多的數(shù)據(jù)治理研究有限責(zé)任公司,是一家咨詢和培訓(xùn)公司,其創(chuàng)始人兼總裁格溫·托馬斯建議,傳入數(shù)據(jù)的質(zhì)量判斷應(yīng)該是數(shù)據(jù)管理經(jīng)理的首要任務(wù)之一。她說(shuō),積極進(jìn)行數(shù)據(jù)質(zhì)量檢查,可以節(jié)省很多時(shí)間和減少很多麻煩。
托馬斯說(shuō),新數(shù)據(jù)映射到企業(yè)相關(guān)使用分類(lèi)信息參考數(shù)據(jù)的重要性經(jīng)常被低估。大數(shù)據(jù)與現(xiàn)有參考數(shù)據(jù)的對(duì)齊是“一個(gè)巨大的細(xì)節(jié)問(wèn)題”她說(shuō)。“事實(shí)上,如果這樣做的不對(duì),大數(shù)據(jù)的處理結(jié)果信息可能會(huì)產(chǎn)生誤導(dǎo),不準(zhǔn)確或不完整的。”
為了幫助確保正確的數(shù)據(jù)映射,任務(wù)應(yīng)該被分配到一個(gè)高級(jí)數(shù)據(jù)架構(gòu)師,而不是留給一位不太有經(jīng)驗(yàn)的數(shù)據(jù)建模師或于IT無(wú)關(guān)的人員,托馬斯表示。
奇澤姆說(shuō),數(shù)據(jù)管理經(jīng)理也應(yīng)優(yōu)先與那些經(jīng)常啟動(dòng)大數(shù)據(jù)裝置的程序員和數(shù)據(jù)模型企業(yè)用戶進(jìn)行對(duì)話。不過(guò),這樣的討論應(yīng)該從Hadoop和NoSQL的技術(shù)升值、以及他們與關(guān)系數(shù)據(jù)庫(kù)有何不同、已經(jīng)對(duì)需要一個(gè)統(tǒng)一的方法來(lái)管理的理解開(kāi)始。