另外,先不說(shuō)數(shù)據(jù)的意義如何,單從海量數(shù)據(jù)的堆積來(lái)看,想要做好大數(shù)據(jù)分析處理也并非一件容易的事情。
目前,我們對(duì)大數(shù)據(jù)所能采取的分析處理辦法,不外乎兩種方式:一種是數(shù)據(jù)轉(zhuǎn)換,即先將異構(gòu)數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)后,再利用結(jié)構(gòu)化數(shù)據(jù)時(shí)代成熟的分析工具去處理;一種是無(wú)需轉(zhuǎn)換,直接對(duì)異構(gòu)數(shù)據(jù)進(jìn)行分析處理,后者面臨的最大問(wèn)題是,已存的分析工具主要都是針對(duì)結(jié)構(gòu)化數(shù)據(jù)的,對(duì)異構(gòu)數(shù)據(jù)的分析工具也有,但尚不成熟。直白的說(shuō)就是以現(xiàn)有技術(shù)水平還無(wú)法對(duì)大數(shù)據(jù)進(jìn)行理想化、成熟地分析。
董敬認(rèn)為,現(xiàn)在談的大數(shù)據(jù)實(shí)際是拓展的異構(gòu)數(shù)據(jù)。而異構(gòu)數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)是有本質(zhì)區(qū)別的。“結(jié)構(gòu)化數(shù)據(jù)是數(shù)學(xué)的、數(shù)字的,它是yes和no的關(guān)系,很明確。我們所有東西都是要進(jìn)行數(shù)學(xué)描述的,不會(huì)將‘白砂糖’三個(gè)字打進(jìn)去。而是先得定義1=白砂糖,2=紅砂糖,然后把1和2輸進(jìn)去,才能進(jìn)行計(jì)算。所以,結(jié)構(gòu)化數(shù)據(jù)不只是占用硬盤空間數(shù),它從分析方法到信息承載量,都很成熟。”
他認(rèn)為,客觀講,異構(gòu)數(shù)據(jù)的信息量沒(méi)有結(jié)構(gòu)化數(shù)據(jù)的多。比如“白砂糖”三個(gè)字,按字節(jié)算是六個(gè)字節(jié)。但在結(jié)構(gòu)化數(shù)據(jù)里,比如它等于2,2只有一個(gè)字節(jié),卻代表了“白砂糖”這樣六個(gè)字節(jié)承載的內(nèi)容。物理上看節(jié)省了五個(gè)字節(jié),所以它貯存的效益更高。另外,因?yàn)榻Y(jié)構(gòu)化數(shù)據(jù)直接可以帶各種各樣的線性模型,只要一上數(shù)據(jù)公式就能出結(jié)果。
“而現(xiàn)在的異構(gòu)數(shù)據(jù)主要是一些音、視頻和圖形圖象。這些內(nèi)容除結(jié)構(gòu)化數(shù)據(jù)能夠承載的東西外,要對(duì)它們進(jìn)行分析會(huì)相對(duì)復(fù)雜一些,需要人機(jī)輔助。而且異構(gòu)數(shù)據(jù)所承載的信息量,如一段視頻、一張圖片或一張照片,都只是反應(yīng)一件事,就是一個(gè)字節(jié)。要想形成大數(shù)據(jù)很容易,只要不做結(jié)構(gòu)化數(shù)據(jù),幾天就能形成大數(shù)據(jù),這幾天的數(shù)據(jù)量比做結(jié)構(gòu)化數(shù)據(jù)的人幾十年做的數(shù)據(jù)量都多。但那只是字節(jié)數(shù),它承載的信息量可能沒(méi)什么。”
他指出,對(duì)異構(gòu)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化分析,需要用到線性分析模型,但前提必須將其轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)。當(dāng)然,對(duì)異構(gòu)數(shù)據(jù)進(jìn)行轉(zhuǎn)換不是一個(gè)簡(jiǎn)單的編碼那么容易。因?yàn)楹芏喈悩?gòu)數(shù)據(jù)并非一個(gè)固化的狀態(tài),而是一個(gè)動(dòng)態(tài)的。所以,先得制定一套評(píng)價(jià)它、固化它的尺度或者標(biāo)準(zhǔn),然后在整個(gè)分析過(guò)程中用這個(gè)標(biāo)準(zhǔn)來(lái)衡量所有過(guò)程或行為。
首發(fā)集團(tuán)副總工程師兼信息化辦公室主任徐志斌認(rèn)為,“像我們一年大概路上會(huì)有幾億筆交易,其中交易車輛信息包括了路上的視頻信息。這些信息形成我們的樣本優(yōu)勢(shì)。所以我們希望通過(guò)機(jī)器學(xué)習(xí),看能否從現(xiàn)有一些圖片里針對(duì)我們自身需求進(jìn)行提取,來(lái)做一些特征分析。”但他表示,“采用傳統(tǒng)算法想要做這樣的事情效果不是太理想。”
目前國(guó)際上視頻技術(shù)也有比較前沿的研究方向,即如何就視頻數(shù)據(jù)去做濃縮。這樣做的目的,一個(gè)是,比如晚上沒(méi)車的數(shù)據(jù)有8個(gè)小時(shí),通過(guò)濃縮,最終可能只留1個(gè)小時(shí)的數(shù)據(jù),能夠降低成本;第二個(gè),相當(dāng)于是從視頻數(shù)據(jù)里進(jìn)行一些目標(biāo)、特征或事件行為的提取。此外,業(yè)內(nèi)對(duì)視頻數(shù)據(jù)分析也有不做結(jié)構(gòu)化轉(zhuǎn)換,直接以圖定圖模式去處理的,“這種應(yīng)用更多的是做一些分析,比如在路上行駛的車輛,可以定位到這輛車在某個(gè)時(shí)間段里的行駛軌跡、路徑等。”
徐志斌認(rèn)為,現(xiàn)階段先考慮將視頻數(shù)據(jù)從非結(jié)構(gòu)化轉(zhuǎn)成結(jié)構(gòu)化數(shù)據(jù),將大量所需特征提取出來(lái)后再做留存,這種方式處理不光是縮減量很大,也只有到這個(gè)階段可能才適合留存下來(lái)再去做數(shù)據(jù)的挖掘分析。
顯然,在對(duì)異構(gòu)數(shù)據(jù)分析處理尚未有特別有效的解決辦法之前,我們大談大數(shù)據(jù)分析應(yīng)用時(shí)就不得不警惕產(chǎn)業(yè)泡沫的滋長(zhǎng)。
一如中國(guó)工程院孫家廣院士曾提醒的那樣,談大數(shù)據(jù),有一個(gè)數(shù)據(jù)希望引人注意,“我們傳統(tǒng)數(shù)據(jù)是字符數(shù)據(jù),但現(xiàn)在的大數(shù)據(jù)99%都是新媒體,像視頻、音頻這樣的數(shù)據(jù),字符數(shù)據(jù)占用量不足0.1%。所以,在這個(gè)形勢(shì)下必須要對(duì)大數(shù)據(jù)進(jìn)行研究,過(guò)去傳統(tǒng)數(shù)據(jù)里的字符數(shù)據(jù)已經(jīng)過(guò)時(shí)了。”形勢(shì)如此緊迫,相比過(guò)早的談?wù)摯髷?shù)據(jù)分析應(yīng)用,我們是否該將更多的目光先轉(zhuǎn)向解決異構(gòu)數(shù)據(jù)的分析處理研究上來(lái)呢?(李玲玲)