前兩天有人在微博發(fā)問,用什么樣的方式講述大數(shù)據(jù)和云計算才能非專業(yè)人士聽的更清楚,其實關(guān)于大數(shù)據(jù)的案例有很多,商業(yè)智能分析也多次提到過關(guān)于數(shù)據(jù)挖掘的價值和意義,只不過在今天看數(shù)據(jù)比以前還多而已,大數(shù)據(jù)并不可怕,可怕的是他的實時分析能力,會讓缺點和真相赤裸裸暴露在人們面前,那么當(dāng)云計算遭遇大數(shù)據(jù)一股腦向企業(yè)涌進的時候,企業(yè)能否駕馭呢?
所謂的大數(shù)據(jù)主要涵蓋3V面向,分別是處理時效(Velocity)、數(shù)據(jù)格式(Variety)與數(shù)據(jù)量(Volume);所以大數(shù)據(jù)并非單一技術(shù),而是眾多技術(shù)項目的集合體,它們的共同目的,都是在一定時間內(nèi)處理完大量的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。唯有駕馭個中關(guān)鍵技術(shù),方能分析處理大數(shù)據(jù),建立商業(yè)應(yīng)用價值。
繼續(xù)訴說Wal-Mart比父親更早知道女兒懷孕的故事。2012年初的某一天,美國明尼蘇達州有一名父親,怒氣沖沖跑到賣場并質(zhì)問主管,為何將帶有嬰兒用品優(yōu)惠券的廣告郵件,寄送給他正在念高中的女兒?此舉是否鼓勵未成年女生懷孕?
然而后來事實證明,這名父親的女兒果真懷孕,賣場并非憑空亂灑廣告郵件。人們不禁好奇,Wal-Mart何以如此神通廣大,竟然能夠隔空挖掘真相?答案就在于大數(shù)據(jù)的實時分析,包括這名女孩搜尋商品的關(guān)鍵詞詞,以及在社交網(wǎng)站所顯露的行為軌跡,其實都已蘊藏豐富價值,足以表明她懷孕的事實,而接下來的時間,她最需要采購哪些商品,答案便呼之欲出。
由此可見,倘若善用巨量資料實時性分析,這些看似枯燥瑣碎的資料,立即就能蛻變?yōu)轲埜粌r值的資產(chǎn),造就無窮無盡的商機。它可以幫助精品服飾業(yè)者,快速洞察顧客的喜好變化,立即形成最佳的生產(chǎn)銷售決策,繼而創(chuàng)造源源不斷的營收增長動能;它可以幫助投信業(yè)者,從Tweets中分析大眾的情緒變化,藉以提高股市行情預(yù)測的精準(zhǔn)度,創(chuàng)造遠遠優(yōu)于同業(yè)的基金投資報酬率。
也難怪各方都對巨量資料趨之若鶩,譬如美國歐巴馬政府即在2012年3月間做成決定,此后將投入高達2億美元的研究與開發(fā)經(jīng)費,藉以改善巨量資料時代中,所需之開發(fā)、搜集、儲存、管理、分享與分析工具與技術(shù),以期利用這些技術(shù)加速科學(xué)及工程上的發(fā)現(xiàn)腳步、強化國家安全,并改善相關(guān)的教育及學(xué)習(xí)模式。
大數(shù)據(jù)為何神乎其神
的確,雖然這些神乎其技的大數(shù)據(jù)應(yīng)用,無不讓企業(yè)心生向往,然而多數(shù)IT主管卻對于個中技術(shù)一半未解,導(dǎo)致影響所屬企業(yè)商業(yè)價值的產(chǎn)出,殊為可惜。
究竟企業(yè)如何基于大數(shù)據(jù)的分析與應(yīng)用需求,提高其技術(shù)整備度?知名研究機構(gòu)Gartner在其發(fā)表的“Hype Cycle for Big Data”當(dāng)中所呈現(xiàn)的巨量資料優(yōu)先矩陣(Priority Matrix for Big Data),即已針對眾多技術(shù)今后的興衰浮沉,進行大致的預(yù)測;如此一來,哪些技術(shù)被定位為“革命性(Transformational)”,亟需密切留意,哪些技術(shù)處于高度(High)發(fā)展的軌道,值得善加運用,而哪些技術(shù)大抵維持中度(Moderate)發(fā)展格局,未來大起的機會不高,若要為此挹注大量投資,恐需再三思考,企業(yè)IT人員心中即有基本的譜圖與脈絡(luò)。
根據(jù)Gartner預(yù)測,從現(xiàn)在起的兩年之內(nèi),率先達到革命性等級的技術(shù),便是字段式數(shù)據(jù)庫(Column Store-DBMS),將呈現(xiàn)高度發(fā)展者,則為預(yù)測分析技術(shù),至于社交媒體監(jiān)控、Web分析等技術(shù),發(fā)展?fàn)顩r持平。如此觀之,舉凡字段式數(shù)據(jù)庫、預(yù)測分析,將會是企業(yè)亟需優(yōu)先布局的標(biāo)的。
探究字段式數(shù)據(jù)庫之所以搶得頭香,其實并不難理解,因為對于數(shù)據(jù)擷取、保存、使用、分享與分析等用途而言,數(shù)據(jù)庫系統(tǒng)皆堪稱是最關(guān)鍵的載體,因此其面對大數(shù)據(jù)的讀寫效率、及近實時(Near Real-Time)運算能力的強弱,肯定需要審慎考慮;在此情況下,傳統(tǒng)以Row為索引存取基礎(chǔ)的數(shù)據(jù)庫,效能顯然不彰,無法承擔(dān)因大數(shù)據(jù)而衍生的大量工作負載(Work Load),倘若不為此做改變,后頭的進階型分析應(yīng)用,可說連想都不必再想了。
當(dāng)然,隨著Hadoop大行其道,連帶使得諸如BigTable、HBase或Cassandra等Key-Value數(shù)據(jù)庫開始抬頭,這些可被統(tǒng)稱為“NoSQL”的數(shù)據(jù)庫,不論是Key-Value Database、In-memory Database、Graph Database或Document Database,都有別傳統(tǒng)關(guān)系數(shù)據(jù)庫結(jié)構(gòu),似乎都更將貼近大數(shù)據(jù)的處理需求,既然如此,何不直接采用NoSQL數(shù)據(jù)庫、而非字段式數(shù)據(jù)庫?
事實上,NoSQL另一層意涵為“Not>