組織應(yīng)當(dāng)如何處理數(shù)據(jù),如何將原始數(shù)據(jù)轉(zhuǎn)化成用于作出決定的信息,我們只是處在完整反思的早期階段。不過,我也相信,“大數(shù)據(jù)”這個(gè)術(shù)語(yǔ)可能是混亂大于實(shí)用。數(shù)據(jù)分析的供應(yīng)商MicroStrategy的首席技術(shù)官杰夫·比德爾(Jeff Bedell),告訴我,“大數(shù)據(jù)”只是一個(gè)時(shí)髦詞語(yǔ),“整個(gè)游戲是引入使人困惑的術(shù)語(yǔ)。”
例如,Gartner對(duì)大數(shù)據(jù)的描述不僅在于數(shù)據(jù)量,還包括其類型,速度和復(fù)雜性。分析師馬克·拜爾(Mark Beyer)在去年秋天的有關(guān)極端信息管理研討會(huì)發(fā)言,表示公司需要建立現(xiàn)代化的信息管理系統(tǒng),該系統(tǒng)要包含合乎邏輯的數(shù)據(jù)倉(cāng)庫(kù)。
相比將“大數(shù)據(jù)”作為一個(gè)事物來談?wù)?,考慮組織如何處理數(shù)據(jù)的各種變化可能更具現(xiàn)實(shí)意義。
當(dāng)然,某些情況下,也有真正的大量數(shù)據(jù)。大型強(qiáng)子對(duì)撞機(jī)每年產(chǎn)生15 PB的數(shù)據(jù)(15,000 TB級(jí)),而即將到來的球面射電望遠(yuǎn)鏡項(xiàng)目預(yù)計(jì)每天將產(chǎn)生數(shù)EB(一百萬TB)的數(shù)據(jù)。但是,這些項(xiàng)目是比較少見的,更多與高性能計(jì)算相關(guān),而非典型的商業(yè)案例。
相比之下,最典型的組織正在處理的數(shù)據(jù)庫(kù),規(guī)模顯著較小,但仍然可以測(cè)量為TB和PB級(jí)。(這仍然是一個(gè)大量數(shù)據(jù)。)這些數(shù)據(jù)可以來自各種來源:跟蹤人們?cè)谝粋€(gè)網(wǎng)站或多個(gè)網(wǎng)站上做什么,分析社會(huì)網(wǎng)絡(luò),或由傳感器產(chǎn)生的數(shù)據(jù)處理。
在談?dòng)嘘P(guān)數(shù)據(jù)造成的結(jié)果在最近的改變之前,回顧一下到現(xiàn)在為止這個(gè)領(lǐng)域的一些大的趨勢(shì),可能會(huì)有所幫助。
數(shù)據(jù)庫(kù)——數(shù)據(jù)的集合的歷史,幾乎與數(shù)字式計(jì)算機(jī)一樣長(zhǎng),特別地,像IBM的大型機(jī)系統(tǒng)上運(yùn)行的IMS產(chǎn)品。早期的數(shù)據(jù)庫(kù)是分層的系統(tǒng),但模型改變并成為標(biāo)準(zhǔn)仍然是關(guān)系模型。這些可追溯至1970年埃德加·F.科德(Edgar F. Codd)一篇題為《大型共享數(shù)據(jù)銀行數(shù)據(jù)的關(guān)系模型》的論文。
今天,每一個(gè)大型組織仍在使用的一個(gè)或多個(gè)這些產(chǎn)品,來存儲(chǔ)他們的交易數(shù)據(jù),如Oracle數(shù)據(jù)庫(kù),IBM的DB2,微軟SQL Server和開源的MySQL(現(xiàn)在仍然是Oracle擁有)。在關(guān)系數(shù)據(jù)庫(kù)之上,已建成各種應(yīng)用程序,包括庫(kù)存,會(huì)計(jì),企業(yè)資源計(jì)劃(ERP),客戶關(guān)系管理(CRM),人力資源應(yīng)用,以及數(shù)以千計(jì)的大型組織定制應(yīng)用程序。
特別是,作為交易的數(shù)量已變得更為復(fù)雜,往往分布在多個(gè)機(jī)器,許多企業(yè)已經(jīng)實(shí)施聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP,也稱為面向交易的處理系統(tǒng))。
在過去幾十年,一個(gè)大的變化,是商業(yè)智能平臺(tái)和數(shù)據(jù)倉(cāng)庫(kù)的出現(xiàn),通常但并不總是一起運(yùn)行。
數(shù)據(jù)倉(cāng)庫(kù)通常存儲(chǔ)來自業(yè)務(wù)系統(tǒng)的數(shù)據(jù)副本,但這些系統(tǒng)本身并不使用于不間斷的業(yè)務(wù)經(jīng)營(yíng)。相反,它們被用于保持?jǐn)?shù)據(jù)的歷史,整合多個(gè)系統(tǒng),往往作為分析應(yīng)用的一個(gè)起點(diǎn)。Teradata公司的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品可能是最有名的,但近年來,甲骨文的Exadata產(chǎn)品線(并購(gòu)SUN所得),和IBM公司(包括其收購(gòu)Netezza公司的資產(chǎn))已經(jīng)獲得更多的重視,以及純軟件廠商,如Greenplum(現(xiàn)在是EMC的一部分)。