大數(shù)據(jù)分布存儲(chǔ)和冗余備份用得比較多的還是這個(gè),它把數(shù)據(jù)通過(guò)冗余配置來(lái)提高可靠性,這樣的話(huà),簡(jiǎn)易服務(wù)器仍然可以在一個(gè)低的價(jià)錢(qián)下,低的成本下得到比較可靠的服務(wù)。我們通過(guò)調(diào)度再分組組合,這是我們需要的結(jié)果。這是一個(gè)圖比較形象的說(shuō)明左邊是數(shù)據(jù)的來(lái)源,當(dāng)然每個(gè)來(lái)源可能都有各種各樣的數(shù)據(jù),需要進(jìn)行認(rèn)識(shí),進(jìn)行分類(lèi)提取,我們可以看到把它分到不同的地方,這樣一來(lái),我們的數(shù)據(jù)挖掘才可能簡(jiǎn)化我們挖掘的工作。
我再舉個(gè)例子,這是在無(wú)錫,對(duì)太湖的污染狀況傳感器數(shù)據(jù)分析,它使用了很多種傳感器,有硝酸鹽、有氨氮的、溶解氧的、水溫的,但是并不是所有的傳感器獲得的數(shù)據(jù)都是等同對(duì)待的。我們可以看到各類(lèi)數(shù)據(jù)都一樣。但是太湖的藍(lán)藻爆發(fā)強(qiáng)度有關(guān)的,首先是溶解氧,然后是水溫,基于氨氮、硝酸鹽的關(guān)聯(lián)沒(méi)那么大,所有的數(shù)據(jù)是需要加權(quán)處理的,根據(jù)它的影響角度不同,我們給它的值也不一樣,只有這樣才可以反映出我們最終的分析結(jié)果。
另外,還是以太湖為例,我們不但有地基系統(tǒng)的水質(zhì)探測(cè)的傳感器,有衛(wèi)星探測(cè)傳感器,還有人工采集傳感器,多種數(shù)據(jù)要放到數(shù)據(jù)采集以后,要進(jìn)行利用已知的湖泊模型,還要把歷史數(shù)據(jù)拿出來(lái)對(duì)比,然后才能判斷這些數(shù)據(jù)是不是可能產(chǎn)生藍(lán)藻。這個(gè)判斷后臺(tái)需要用到3S技術(shù),云計(jì)算技術(shù),數(shù)據(jù)中心與數(shù)據(jù)挖掘,所以我們講究的是要一元數(shù)據(jù)協(xié)同處理。大數(shù)據(jù)最難的是非結(jié)構(gòu)化數(shù)據(jù),圖象、照片、視頻是非結(jié)構(gòu)化的,目前計(jì)算識(shí)別圖象視頻還是有一定難度的,谷歌前幾年的做法是計(jì)算機(jī)識(shí)別貓,有15%—20%的識(shí)別率,一般的非結(jié)構(gòu)化數(shù)據(jù)需要把它轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),然后再來(lái)進(jìn)行處理。我覺(jué)得非結(jié)構(gòu)化數(shù)據(jù)本身要進(jìn)行收集、規(guī)律、組織,然后再解釋?zhuān)庉?,再通過(guò)上下文的關(guān)聯(lián)增進(jìn)理解。
不過(guò)目前對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理已經(jīng)有了一定的進(jìn)展,這是一個(gè)照片,照片本身來(lái)計(jì)算機(jī)是看不出來(lái)是什么的,谷歌的工程師已經(jīng)在照片旁邊附加了一段文字,他通過(guò)一定的算法來(lái)分析。他說(shuō)一群人在室外的市場(chǎng)上購(gòu)物,在水果攤上有很多蔬菜,將來(lái)計(jì)算機(jī)掃描的時(shí)候只要掃描這個(gè)摘要就行了,不需要關(guān)注照片是什么樣子。也就是說(shuō)把非結(jié)構(gòu)化的照片變成結(jié)構(gòu)化的文字,那么我們?cè)倏慈绻愠霾畹蕉砹_斯,或者到俄羅斯旅游,現(xiàn)在會(huì)俄文的人不多了,不要緊,你拿手機(jī)拍下來(lái),直接上到云端搜索,它會(huì)用英文或者中文顯示,谷歌聲稱(chēng)現(xiàn)在有26種語(yǔ)言可以顯示,也就是說(shuō)照片里面的文字通過(guò)用掃描文件還是掃描不出來(lái)的。實(shí)際上所有的非結(jié)構(gòu)化數(shù)據(jù)都可以轉(zhuǎn)成結(jié)構(gòu)化數(shù)據(jù)來(lái)處理,比如說(shuō)通常視頻都會(huì)有音頻和字幕,用語(yǔ)音識(shí)別的辦法把音頻抽出來(lái)可以轉(zhuǎn)成文字,在這方面科大迅飛已經(jīng)做得相當(dāng)不錯(cuò)了。另外,很多視頻里頭還會(huì)嵌入文字的字幕。對(duì)一些照片、標(biāo)語(yǔ)里的文字也可以?huà)呙?,非結(jié)構(gòu)化數(shù)據(jù)也是可以轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)處理的。
我們?cè)賮?lái)看這是大數(shù)據(jù)進(jìn)行的,右邊的屏幕上打出聲音翻譯成了中文。這里面沒(méi)有同聲傳譯,它是基于微軟掌握的大數(shù)據(jù)技術(shù)、神經(jīng)網(wǎng)絡(luò)技術(shù)、機(jī)器學(xué)習(xí)技術(shù)以及上百萬(wàn)素材,一邊講話(huà)一邊翻譯成中文,這是大數(shù)據(jù)應(yīng)用,同時(shí)反過(guò)來(lái)大數(shù)據(jù)需要應(yīng)用的人工智能技術(shù)非結(jié)構(gòu)化數(shù)據(jù)的處理。
這是醫(yī)療大數(shù)據(jù)虛擬化的應(yīng)用。大數(shù)據(jù)究竟會(huì)用到什么樣的技術(shù),IDC公司在去年說(shuō),2015年富媒體、音視頻和圖象的分析在未來(lái)5年會(huì)增長(zhǎng)100%,在北美有板數(shù)公司報(bào)告在大數(shù)據(jù)分析項(xiàng)目里已經(jīng)使用了富媒體數(shù)據(jù)。也就是說(shuō)雖然是非結(jié)構(gòu)化的,但是在大數(shù)據(jù)里頭分析還是很有用處的。
另外,數(shù)據(jù)即服務(wù),過(guò)去有IaaS、PaaS,現(xiàn)在有DaaS,就是將大數(shù)據(jù)作為服務(wù),現(xiàn)在DaaS已經(jīng)成為云平臺(tái)和大數(shù)據(jù)分析提供商的戰(zhàn)略供應(yīng)鏈。
還有物聯(lián)網(wǎng)是下一個(gè)數(shù)據(jù)分析應(yīng)用的熱點(diǎn),在今后五年,物聯(lián)網(wǎng)的數(shù)據(jù)分析市場(chǎng)會(huì)年增30%,另外2015年是認(rèn)知和機(jī)器學(xué)習(xí)應(yīng)用迅速增長(zhǎng)的一年。
大數(shù)據(jù)分析在企業(yè)的應(yīng)用,目前來(lái)看,大部分企業(yè)是把大數(shù)據(jù)分析用于客戶(hù)分析,然后是運(yùn)營(yíng)分析,然后是誠(chéng)信分析,還有10%是新產(chǎn)品和業(yè)務(wù)創(chuàng)新,另外10%是企業(yè)數(shù)據(jù)倉(cāng)庫(kù)優(yōu)化。大數(shù)據(jù)支出最大的產(chǎn)業(yè),一是離散制造,二是銀行,三是流程制造。
大數(shù)據(jù)在供應(yīng)鏈里頭也有很好的使用,包括供應(yīng)鏈的規(guī)劃、分析和挖掘,電子數(shù)據(jù)交換,貿(mào)易管理、倉(cāng)庫(kù)與分銷(xiāo)中心管理。大數(shù)據(jù)在供應(yīng)鏈的應(yīng)用場(chǎng)景在供應(yīng)鏈的可視化數(shù)據(jù)56%,位置和映射數(shù)據(jù)47%,產(chǎn)品和可追溯數(shù)據(jù)42%,溫度與產(chǎn)品流數(shù)據(jù)24%,RFID數(shù)據(jù)18%。