一面政策積極利導(dǎo),一面IT廠商加大鼓吹力度,新一輪大數(shù)據(jù)之風(fēng)仍難掩“曲高和寡”的尷尬境地。那么,阻礙大數(shù)據(jù)應(yīng)用快速落地的瓶頸到底在哪里呢?
未來是大數(shù)據(jù)的時代,大數(shù)據(jù)因此成為一項國家的長遠(yuǎn)發(fā)展戰(zhàn)略。近兩年的政策利好,使大數(shù)據(jù)市場再度迎來了新一輪的發(fā)展高潮。像“44ZB(澤字節(jié))”這樣的驚天數(shù)字(業(yè)界流傳的截至2020年全球大數(shù)據(jù)規(guī)模)因此反復(fù)出現(xiàn)在各種大數(shù)據(jù)會場的電子屏上。
一股焦灼的情緒隨之在全產(chǎn)業(yè)漫延,還沒弄明白怎么搭上“互聯(lián)網(wǎng)+”的快車呢,大數(shù)據(jù)又成了另一個新的困擾,一位行業(yè)用戶曾感嘆,“出去不說兩句大數(shù)據(jù)都感覺自己落伍了。”而不少醫(yī)院行業(yè)用戶直接的反應(yīng)就是,“小數(shù)據(jù)還做不好呢,怎么做大數(shù)據(jù)?”
大數(shù)據(jù)離企業(yè)用戶到底有多遠(yuǎn)?
大數(shù)據(jù)該何以計量?
隨著社會信息化發(fā)展邁入3.0,很多企業(yè)對IT的投入和選擇已經(jīng)跨過了過去“高大快上”的盲目決斷做法,轉(zhuǎn)而更為理性和審慎。比如談大數(shù)據(jù),企業(yè)決策者和IT負(fù)責(zé)人最先考慮的是企業(yè)自身的數(shù)據(jù)規(guī)模到底在一個什么量級。
從目前了解的情況看,很多企業(yè),特別是傳統(tǒng)行業(yè)企業(yè)一年的生產(chǎn)和業(yè)務(wù)合并數(shù)據(jù)量級多處于TB、GB的規(guī)模,比如以某一線城市為例,該市級財政部門的數(shù)據(jù)不到8、9個TB、某地鐵運營公司在50多個TB、某高速公司集團(tuán)公司在TB級、某銀行城市分行數(shù)據(jù)也不過TB級、某三甲醫(yī)院是GB級、某大型制造企業(yè)也才是GB級……
誠然,數(shù)據(jù)規(guī)模的現(xiàn)實情況距離產(chǎn)業(yè)預(yù)期相去甚遠(yuǎn),一方面與企業(yè)所處行業(yè)有關(guān),比如電商、運營商或新媒體這類面向公眾2C的企業(yè)數(shù)據(jù)規(guī)模增長較為明顯;再一個也與企業(yè)對數(shù)據(jù)存儲成本的考量密切相關(guān)。比如上述行業(yè)企業(yè)除了應(yīng)國家要求的數(shù)據(jù)存儲年限外,一般企業(yè)數(shù)據(jù)留存也就三年左右,甚至更短。而且對近年數(shù)據(jù)和歷史數(shù)據(jù)采取分開存儲的辦法,比如最新數(shù)據(jù)與近年數(shù)據(jù)在企業(yè)最新、最好的IT平臺留存,三五年以后的歷史數(shù)據(jù)被轉(zhuǎn)至舊系統(tǒng)沉積。
清華大學(xué)數(shù)據(jù)科學(xué)院工業(yè)大數(shù)據(jù)中心總工程師王晨此前在北京工業(yè)大數(shù)據(jù)創(chuàng)新中心成立大會上從技術(shù)、業(yè)務(wù)和基礎(chǔ)三個方面談工業(yè)大數(shù)據(jù)的戰(zhàn)略思考時特別提到數(shù)據(jù)的基礎(chǔ)。他認(rèn)為,“數(shù)據(jù)就像我們今天流過的河,流過去就再也沒有了。很多企業(yè)想做分析,可它的數(shù)據(jù)平臺大概只能存三個月的數(shù)據(jù)。這個不夠!我們至少需要一年春夏秋冬,才能知道一個完整周期,可能有時一年都不夠,需要兩到三年的數(shù)據(jù)。”
如王晨所言,數(shù)據(jù)是企業(yè)開展大數(shù)據(jù)研究和應(yīng)用的基礎(chǔ),應(yīng)對大數(shù)據(jù),我們所需要的數(shù)據(jù)基礎(chǔ)可能不止兩三年,甚至更長久的數(shù)據(jù)積累。再者,不同的行業(yè)企業(yè),其業(yè)務(wù)特點使得需要研究的數(shù)據(jù)周期都存在很大差異。
那么,數(shù)據(jù)基礎(chǔ)又該如何確定?
國家衛(wèi)生計生委科學(xué)技術(shù)研究所副主任技師董敬認(rèn)為,大數(shù)據(jù)如果僅僅比誰的數(shù)據(jù)量大,占的硬盤空間多,是沒有意義的,“應(yīng)該比的是它所承載的內(nèi)容的多少。但這樣做又不好計量,因為計量是需要有相當(dāng)一部分專業(yè)知識的,結(jié)構(gòu)化數(shù)據(jù)后面的定義很長,這個定義很專業(yè),非專業(yè)人士很難理解。所以現(xiàn)在很多數(shù)據(jù)統(tǒng)計比較的是字節(jié)數(shù)。按字節(jié)數(shù)來統(tǒng)計則容易很多,容量也很輕松就上去了,而且還都是真實的。但它到底有多少信息量,這得另議。因此,關(guān)鍵是看這個大數(shù)據(jù)的概念到底要用在哪兒,怎么用。”
分析路徑受限
面對產(chǎn)業(yè)的大數(shù)據(jù)熱,很多企業(yè)用戶,尤其是傳統(tǒng)企業(yè)用戶持觀望態(tài)度的不在少數(shù)。在他們看來,是否要切入大數(shù)據(jù),以及怎么做大數(shù)據(jù),還得先要明確“怎么才算是大數(shù)據(jù)”。
當(dāng)然,市場近兩年也不乏很多大數(shù)據(jù)分析實踐應(yīng)用的案例。但那是否就是真正意義的大數(shù)據(jù)應(yīng)用呢?中國泛海控股集團(tuán)系統(tǒng)運維總監(jiān)王正望表示,一些企業(yè)在其內(nèi)部利用數(shù)據(jù)所做的一些統(tǒng)計分析工作,嚴(yán)格意義上不能稱之為大數(shù)據(jù),而是一些數(shù)據(jù)的聚合,“原因在于一個是樣本不夠;再一個談大數(shù)據(jù),首先是個人相關(guān)維度的東西都應(yīng)該能抓取到,不能只從一個維度或頂多兩個維度,就說自己是大數(shù)據(jù),怎么也得跨兩個維度。”在他看來,所謂大數(shù)據(jù),要能夠不斷注入新的內(nèi)容,“怎么能夠源源不斷地將數(shù)據(jù)匯總過來,滿足人們隨取隨看。當(dāng)然隨時也不是無限制的。”