一、我國的大數(shù)據(jù)戰(zhàn)略
近年來,對大數(shù)據(jù)的定義較為多樣。第462次香山會議 (2013年5月29日—31日)提出了大數(shù)據(jù)通俗的定義:大數(shù)據(jù)是數(shù)字化生存時代的新型戰(zhàn)略資源,是驅(qū)動創(chuàng)新的重要因素,正在改變?nèi)祟惖纳a(chǎn)和生活方式。大數(shù)據(jù)是來源眾多、類型多樣、大而復(fù)雜、具有潛在價值,但難以在期望時間內(nèi)處理和分析的數(shù)據(jù)集。
我國的“十三五”規(guī)劃綱要提出實施國家大數(shù)據(jù)戰(zhàn)略,把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源,全面實施促進(jìn)大數(shù)據(jù)發(fā)展行動,加快推動數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用,助力產(chǎn)業(yè)轉(zhuǎn)型升級和社會治理創(chuàng)新。
大數(shù)據(jù)的高效采集、有效整合、融合利用可以提高國家宏觀調(diào)控、市場監(jiān)管、社會治理和公共服務(wù)的精準(zhǔn)性和有效性;依托政府?dāng)?shù)據(jù)建立統(tǒng)一的大數(shù)據(jù)共享交換平臺,對加快推進(jìn)跨部門數(shù)據(jù)資源共享共用具有較強(qiáng)的實踐意義。因此,急需加快深化政府?dāng)?shù)據(jù)和社會數(shù)據(jù)關(guān)聯(lián)分析,建設(shè)國家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺,推動政府信息系統(tǒng)和公共數(shù)據(jù)互聯(lián)開放共享;研究制定數(shù)據(jù)開放、保護(hù)等法律法規(guī),制定政府信息資源管理辦法;深化大數(shù)據(jù)在各行業(yè)的創(chuàng)新應(yīng)用,探索與傳統(tǒng)產(chǎn)業(yè)協(xié)同發(fā)展新業(yè)態(tài)新模式,加快完善大數(shù)據(jù)產(chǎn)業(yè)鏈;加快海量數(shù)據(jù)采集、存儲、清洗、分析發(fā)掘、可視化、安全與隱私保護(hù)等領(lǐng)域關(guān)鍵技術(shù)攻關(guān);促進(jìn)大數(shù)據(jù)軟硬件產(chǎn)品發(fā)展。完善大數(shù)據(jù)產(chǎn)業(yè)公共服務(wù)支撐體系和生態(tài)體系,加強(qiáng)標(biāo)準(zhǔn)體系和質(zhì)量技術(shù)基礎(chǔ)建設(shè)。
在當(dāng)前的國內(nèi)經(jīng)濟(jì)、政策背景下,中國科學(xué)院大數(shù)據(jù)挖掘與知識管理重點實驗室采用先進(jìn)的數(shù)據(jù)挖掘技術(shù)解決當(dāng)前社會眾多現(xiàn)實問題,使其真正做到普惠民眾。目前,在大數(shù)據(jù)支持下,我國已經(jīng)成功建立全國個人信用評分系統(tǒng),正在建設(shè)新一代居民身份證等一系列重要的個人信息、信用系統(tǒng)。未來的大數(shù)據(jù)還將繼續(xù)深入涉足醫(yī)療、生物、航天、金融等社會的各行各業(yè)。
二、大數(shù)據(jù)發(fā)展現(xiàn)狀與潛力
數(shù)據(jù)挖掘的技術(shù)應(yīng)用有其較為普適的流程。在具體實際操作中,我們對來自經(jīng)濟(jì)、社會方面的大數(shù)據(jù)進(jìn)行收集,基于Hadoop、Magreduce對大數(shù)據(jù)進(jìn)行儲存與處理,然后利用最優(yōu)化大數(shù)據(jù)挖掘技術(shù)進(jìn)行大數(shù)據(jù)挖掘(理論與算法);在大數(shù)據(jù)的數(shù)據(jù)處理、分析和挖掘?qū)用嫔?,大?shù)據(jù)應(yīng)該既要全體,又要抽樣,大數(shù)據(jù)的抽樣比小數(shù)據(jù)的抽樣更具有普適性;大數(shù)據(jù)應(yīng)從粗糙中尋求精確;大數(shù)據(jù)應(yīng)從相關(guān)關(guān)系中把握因果關(guān)系與必然關(guān)系。隨后利用大數(shù)據(jù)智能知識管理,進(jìn)行大數(shù)據(jù)知識生成,最后基于大數(shù)據(jù)科學(xué)分析的高層政策建議,將大數(shù)據(jù)技術(shù)應(yīng)用于社會與經(jīng)濟(jì)層面。
大數(shù)據(jù)具有4V基本特征:體量大(Volume)、數(shù)據(jù)類型繁多(Variety)、價值密度低(Value)、處理迅速(Velocity)。隨著經(jīng)濟(jì)社會的健康發(fā)展,大數(shù)據(jù)近些年來呈現(xiàn)出指數(shù)級增長趨勢。根據(jù)IDC調(diào)查的研究報告顯示:2012年全球信息化資料量為2.8ZB (澤字節(jié)),其中美國約占全球數(shù)據(jù)量的32%,西歐占19%,中國占13%,印度占4%,其他市場合占32%;2020年全球的數(shù)據(jù)資料存儲量將達(dá)到40ZB(澤字節(jié)),中國將占全球數(shù)據(jù)產(chǎn)量的22%;40ZB (澤字節(jié))的數(shù)據(jù)量約等于地球上沙灘上所有沙??偤偷?7倍。
在現(xiàn)實生活中,大數(shù)據(jù)的應(yīng)用非常廣泛。例如,在商業(yè)環(huán)境中,通過大數(shù)據(jù)分析,快銷行業(yè)可以更全面地了解客戶的信息,從而準(zhǔn)確預(yù)測客戶的需求,合理安排商品擺放格局;電信行業(yè)可以更好地分析用戶使用習(xí)慣及特征,從而準(zhǔn)確預(yù)測可能流失的客戶,推出更有吸引力的套餐方案;保險行業(yè)可以更準(zhǔn)確掌握客戶健康情況、駕駛水平等相關(guān)信息。其中,大數(shù)據(jù)發(fā)揮顯著作用較為典型的領(lǐng)域是互聯(lián)網(wǎng)行業(yè)和金融行業(yè)。
目前中國大型的商業(yè)銀行和保險公司的數(shù)據(jù)量已經(jīng)超過100TB,中國金融行業(yè)已經(jīng)形成共識——數(shù)據(jù)是一種重要的資產(chǎn)。中國金融行業(yè)已步入大數(shù)據(jù)時代的初期階段,并且呈現(xiàn)快速發(fā)展勢頭,未來的金融業(yè)將開展新一輪圍繞大數(shù)據(jù)的IT建設(shè)投資。優(yōu)秀的數(shù)據(jù)分析能力是當(dāng)今金融市場創(chuàng)新的關(guān)鍵,資本管理、交易執(zhí)行、安全和反欺詐等相關(guān)的數(shù)據(jù)洞察力,成為金融企業(yè)運(yùn)作和發(fā)展的核心競爭力。目前,以大數(shù)據(jù)為代表的新型技術(shù)將在兩個層面改造金融業(yè)。伴隨著大數(shù)據(jù)應(yīng)用、技術(shù)革新及商業(yè)模式創(chuàng)新,金融業(yè)中的銀行和券商也迎來巨大的轉(zhuǎn)變。金融交易形式的電子化和數(shù)字化,如支付電子化、渠道網(wǎng)絡(luò)化、信用數(shù)字化;金融交易結(jié)構(gòu)的變化,如交易中介脫媒化、服務(wù)中介功能弱化。對于風(fēng)險投資,一個較可行的做法是,在開始時做出定性假設(shè),在中間的決策部分讓定量數(shù)據(jù)支持和檢驗假設(shè),最后得出定性結(jié)論。其中,定量數(shù)據(jù)部分運(yùn)用數(shù)據(jù)挖掘技術(shù),可以為投資決策提供有力的分析支持。