筆者微信上關注的一個共用帳號“油價早知道”推送了這樣一條信息:“油價早知道友情提示:根據(jù)油價輿情跟蹤分析,6月22日凌晨油價或上調(diào)(概率超過70%),上調(diào)幅度約在100元/噸?!钡诙?,油價早知道繼續(xù)提示油價上調(diào)消息,并且給出上調(diào)幅度0.1元/升,6月21日,油價早知道發(fā)布的消息就已經(jīng)是發(fā)改委發(fā)布的油價提升通知。
油價早知道又一次提前三天預報了油價調(diào)整的信息,從上線以來,他們的預測準確率已經(jīng)超過95%!這是一個典型的大數(shù)據(jù)應用的例子,這也是筆者看到的,在中國落地比較好的一個大數(shù)據(jù)應用的例子。

關于大數(shù)據(jù),從去年開始,在全世界范圍內(nèi)與云計算、物聯(lián)網(wǎng)、3D打印等一起,已經(jīng)成為炙手可熱的話題。但到底什么是大數(shù)據(jù)?大數(shù)據(jù)究竟有些什么特性?我們應該怎樣應用大數(shù)據(jù)?它將給我們的生活帶來什么樣的變化?這些問題的探討一直在進行,很多企業(yè)都在思考,如何在企業(yè)的IT建設中應用大數(shù)據(jù),實現(xiàn)企業(yè)運營的創(chuàng)新。
大數(shù)據(jù)(big data),百度上的定義是:指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。
Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
IBM對于大數(shù)據(jù)特性的4V描述目前普遍為業(yè)界所接受:(1)Volume,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;(2)Variety,數(shù)據(jù)類型繁多。不止包括傳統(tǒng)的格式化數(shù)據(jù),還包括來自互聯(lián)網(wǎng)的網(wǎng)絡日志、視頻、圖片、地理位置信息等等。(3)Value,價值密度低,商業(yè)價值高。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。(4)Velocity,處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質(zhì)的不同。
如果單純按這四個特征去理解大數(shù)據(jù),也許會把大數(shù)據(jù)理解成為全量數(shù)據(jù)或者叫做全息數(shù)據(jù)。而這樣的數(shù)據(jù)應用,似乎只有在超大型或者大型項目里才能建設起來,而這些與傳統(tǒng)的數(shù)據(jù)倉庫又有什么差別?
最早洞見大數(shù)據(jù)時代發(fā)展趨勢的數(shù)據(jù)科學家之一舍恩伯格給出的三條大數(shù)據(jù)特征或許能夠讓我們更好地理解大數(shù)據(jù)。舍恩伯格的大數(shù)據(jù)特征可以用三個詞語來描述:更多、更亂、相關性。
在這里的更多,是針對研究對象本身,要考慮與對象相關的更多維度的信息,而不是傳統(tǒng)的企業(yè)內(nèi)部信息,例如運營商在研究客戶離網(wǎng)率預測的時候,不僅僅只研究客戶的計費數(shù)據(jù),也可以將客戶的位置信息,甚至是在SNS網(wǎng)上的言論信息等增加進來。所以,大數(shù)據(jù)不一定能做到全量(而誰能夠定義到底全量是什么呢?)而只是逐漸增加的“更多”。
更亂,是采集的數(shù)據(jù)噪音更多,甚至在研究某一問題時會對預測結果擾動較大的數(shù)據(jù)維度。這就需要運用互聯(lián)網(wǎng)的“試錯”思維,不斷研究可能的在采集和數(shù)據(jù)處理過程中形成的噪音,反復實踐,在大數(shù)據(jù)中淘出來最有用的“小數(shù)據(jù)”。上文提到的油價早知道應用中,開發(fā)者體會之一就是在對于SNS的文本信息的上下文處理的不斷算法調(diào)整,剔出的噪音包括其它主題對于油價的干擾等,使得小數(shù)據(jù)集合更加精準。例如,某個相關大V在討論出租車價格問題時說到,如果出租車價格上漲,那么油價也一定是上漲了。人腦對于這樣的語言能夠很快判斷出來,主題是在講出租車價格問題,而機器就很難明白這一點。如果從這樣的句子中得到油價上漲的信息,則對于整個油價判斷就是一個干擾。
相關性,是找到數(shù)據(jù)之間的相關性,對研究對象的發(fā)展進行更好的預測。Google的工程師能夠比美國官方衛(wèi)生部門更早地預測流行性感冒的例子就是一個很好的說明。Google的數(shù)據(jù)工程師不是病理專家,他們不可能知道流行性感冒的原因是什么,但是他們能夠通過與流行性感冒相關的一些信息表現(xiàn),預測到流行性感冒的即將到來。
從上述三個特征及舉例來看,大數(shù)據(jù)應用,不只是國家戰(zhàn)略,企業(yè)戰(zhàn)略這樣的大應用,它恰恰可以通過無數(shù)的與我們生活息息相關的“小應用”來不斷推動發(fā)展,從高高的神壇中走下來,走入真正的市場應用。
更多詳細信息,請您微信關注“計算網(wǎng)”公眾號: