目前發(fā)達(dá)國家已開始了大數(shù)據(jù)的戰(zhàn)略部署,但國內(nèi)絕大多數(shù)的大數(shù)據(jù)沒經(jīng)過有效的價(jià)值挖掘,正處于起步階段。相關(guān)分析顯示,中國大數(shù)據(jù)市場(chǎng)規(guī)模將從2011年的7760萬美元增長(zhǎng)到2016年的6.17億美元,未來5年的復(fù)合增長(zhǎng)率達(dá)51.4%。專家表示,大數(shù)據(jù)的挖掘利用對(duì)提升政府管理職能和企業(yè)的決策能力、創(chuàng)新發(fā)展模式都將產(chǎn)生深遠(yuǎn)影響,企業(yè)應(yīng)加快大數(shù)據(jù)的戰(zhàn)略部署,搶占大數(shù)據(jù)應(yīng)用的先機(jī)。
在近日召開的廣東互聯(lián)網(wǎng)大會(huì)上,中國工程院院士鄔賀銓援用大量的科學(xué)數(shù)據(jù)與案例表明大數(shù)據(jù)就是生產(chǎn)資料,大數(shù)據(jù)引發(fā)的產(chǎn)業(yè)變革已經(jīng)開始。
大數(shù)據(jù)就是新財(cái)富
贏周刊:現(xiàn)在各行各業(yè)都在談大數(shù)據(jù),我們應(yīng)該怎樣理解大數(shù)據(jù)?
鄔賀銓:大數(shù)據(jù)是指無法在容許的時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)規(guī)模的標(biāo)準(zhǔn)是持續(xù)變化的,當(dāng)前泛指單一數(shù)據(jù)集的大小在數(shù)據(jù)TB和數(shù)據(jù)PB之間。比如安全監(jiān)控的數(shù)據(jù)量,現(xiàn)在視頻監(jiān)控?cái)z像頭廣泛應(yīng)用于國內(nèi)多個(gè)城市的主要道路、熱點(diǎn)地區(qū)、地鐵和居民小區(qū)的安全監(jiān)視,在北京差不多就有80萬個(gè),在北京只要一個(gè)人去了公共場(chǎng)所,一天至少被拍8次以上。
企業(yè)數(shù)據(jù)也不少,全世界企業(yè)存儲(chǔ)數(shù)據(jù)總數(shù)達(dá)到2.2ZB,未來年增67%。10KB大約相當(dāng)于一張?zhí)顫M了文本的單頁紙,如果采用疊紙的方法,100的TB的堆積相當(dāng)于帝國大廈的高度。淘寶在2010年就已有3.7億會(huì)員、在線商品8.8億件,每天交易超過數(shù)千萬筆,其單日數(shù)據(jù)產(chǎn)生量超過50TB,存儲(chǔ)量40PB;僅是(今年)11月11日就接受2.15億用戶購物,處理交易1.058億筆,峰值時(shí)達(dá)9萬筆/分鐘。
贏周刊:大數(shù)據(jù)有哪些應(yīng)用價(jià)值?
鄔賀銓:大數(shù)據(jù)的應(yīng)用非常廣泛。IBM日本公司的經(jīng)濟(jì)指標(biāo)預(yù)測(cè)系統(tǒng),從互聯(lián)網(wǎng)新聞中搜索影響制造業(yè)的480項(xiàng)經(jīng)濟(jì)數(shù)據(jù),計(jì)算出采納經(jīng)理人指數(shù)(PMI)預(yù)測(cè)值。印第安納大學(xué)者利用Google提供的心情分析工具,對(duì)270萬用戶在2008年3-12月所張貼的970萬條留言,挖掘出用戶的心情。
這是一個(gè)企業(yè)涉及到管理部門、開發(fā)部門、銷售部門、支持部門、服務(wù)部門的應(yīng)用,過去這些部門之間的關(guān)聯(lián)是不夠的,現(xiàn)在通過大數(shù)據(jù)分析,可以把一些部門關(guān)聯(lián)起來,可以大改善企業(yè)管理效率40%-60%,傳統(tǒng)企業(yè)有一個(gè)數(shù)據(jù)倉庫已經(jīng)很不錯(cuò)了,但僅僅有數(shù)據(jù)倉庫是不夠的,需要從中挖掘內(nèi)容,提取服務(wù)。
大數(shù)據(jù)在農(nóng)業(yè)應(yīng)用也很重要,硅谷有一個(gè)氣候公司,從美國氣象局等的數(shù)據(jù)庫中獲得幾十年的天氣數(shù)據(jù),將各地降雨、氣溫和土壤狀況及歷年農(nóng)作物產(chǎn)量做成精密圖標(biāo),從而預(yù)測(cè)任一農(nóng)場(chǎng)的明年產(chǎn)量,向農(nóng)戶出售個(gè)性化保險(xiǎn),如果出現(xiàn)未能預(yù)測(cè)的惡劣天氣損壞莊稼,氣候公司將及時(shí)賠付。
什么顧客最會(huì)買東西?婦女。哪個(gè)顧客群是黃金(1663.80,0.10,0.01%)顧客?孕婦。有個(gè)公司找出一些特點(diǎn),孕婦一般買一些沒有刺激性的化妝品,還有補(bǔ)鈣等的保健品,根據(jù)這些(能)判斷一個(gè)婦女是不是懷孕了。他們把一些孕婦產(chǎn)品廣告夾在普通的廣告宣傳單中送到顧客那里,向細(xì)分顧客群銷售。
大數(shù)據(jù)的一個(gè)經(jīng)典案例是,沃爾瑪通過對(duì)消費(fèi)者購物行為等非結(jié)構(gòu)化數(shù)據(jù)分析,了解顧客購物習(xí)慣后發(fā)現(xiàn),年輕爸爸一般買尿不濕的時(shí)候,通常要犒勞一下自己買一下啤酒,因此將這兩個(gè)商品放在一起來賣效果很好。
華爾街(的)德溫特資本市場(chǎng)公司分析全球3.4億微博賬戶流言,判斷民眾情緒。人們高興時(shí)會(huì)買股票,而焦慮時(shí)會(huì)拋售股票。(他們)依此決定公司股票的買入或賣出,該公司今年第一季度獲得7%的收益率。最近,我國很多中小企業(yè)從銀行貸不了款,因?yàn)樗麄儧]有擔(dān)保,阿里公司根據(jù)淘寶網(wǎng)上的改易情況篩選出財(cái)務(wù)健康和誠信企業(yè),從而不需要擔(dān)保貸款,目前已放貸300多億元,壞賬率僅0.3%,可見淘寶的篩選是很準(zhǔn)確的。
運(yùn)營商擁有大量的手機(jī)數(shù)據(jù),通過對(duì)手機(jī)數(shù)據(jù)的挖掘,不針對(duì)個(gè)人面是遮掩與群體行為,可以從中分析,實(shí)時(shí)動(dòng)態(tài)的流動(dòng)人口來源和分布情況,出行和實(shí)時(shí)交通流信息及擁塞情況,物品熱銷情況等等。
奧巴馬剛剛競(jìng)選成功,他的團(tuán)隊(duì)通過社交網(wǎng)絡(luò)和微博收集選民的愛好和關(guān)注,利用軟件分析并建立選民檔案。例如某個(gè)選民在Facebook或者Twitter上的大部分帖子都是關(guān)于環(huán)保和醫(yī)療成本的,就可以通過電子郵件發(fā)一條源自奧巴馬專門談?wù)摥h(huán)境問題的信息讓該選民有理由支持總統(tǒng)連任,同時(shí)還可以從選民那里得到新的反饋。