分析一下目前產業(yè)生態(tài)、產業(yè)結構的研究,其實對于什么是大數(shù)據(jù)的產業(yè),什么是大數(shù)據(jù)的市場,這個市場跟我們之前所說的云計算市場區(qū)隔在哪里?現(xiàn)在大家并沒有明確的區(qū)分或者看法。
因為這里面涉及到數(shù)據(jù)的產權界定,因為這些數(shù)據(jù)是來自于用戶、來自于網絡,這里可能包括用戶的隱私,這是一個非常復雜的過程,后面我們還會討論這些問題。
后面對大數(shù)據(jù)的發(fā)展政策做了一點思考,其實現(xiàn)在世界上很多國家在不斷推動政府公共數(shù)據(jù)的開放,最早從美國,奧巴馬上臺之后他對信息產業(yè)的推動策略,從他的數(shù)據(jù)開放透明政策可以看出,在這方面是非常激進的。09年開始把政府的數(shù)據(jù)逐漸開放出來,現(xiàn)在已經有超過一千多個應用在上面使用。在之后,很多國家加入到了政府數(shù)據(jù)開放和所謂透明政府中來。
總結一下,這些國家的政府數(shù)據(jù)開放有三個特點:第一是統(tǒng)一門戶,中國北京、廣東也開始有統(tǒng)一門戶數(shù)據(jù)開放開始出現(xiàn)。第二是機器可識別的數(shù)據(jù)接口。第三是多個部門參與。像美國有175個部門把數(shù)據(jù)放在里面共享。
其實,政府的策略不僅在于簡單的數(shù)據(jù)開放,我們也可以看到政府在大數(shù)據(jù)技術發(fā)展方面所起到的作用。這里面舉個例子,從2012年開始,美國投了2億美元發(fā)展大數(shù)據(jù)戰(zhàn)略,主要投入到了基礎研究領域,大家可能對于Hadoop這種類型計算的模式都比較清楚,現(xiàn)在UC伯克利已經開發(fā)了一整套的解決方案,包括上層的內存處理計算模型,都是由UC伯克利提出來的,但NSSA有個要求要把它變成開源的平臺,使得這個技術能夠向產業(yè)間擴散?,F(xiàn)在,大家都認為這個模式將來會替代Hadoop傳統(tǒng)的計算模型,實際現(xiàn)在已經有很多企業(yè)支持這樣的做法,包括國內的華為。
大數(shù)據(jù)的開放包括著一個很大的問題就是隱私保護,傳統(tǒng)模式下有6個對隱私保護的基礎原本,現(xiàn)在在安裝應用的時候我就會告訴你我會收集什么信息,你是不是同意,但大數(shù)據(jù)的世界里原來的原則不再適用了,包括你怎么描繪一個人,怎么認定這是他的隱私數(shù)據(jù),這是非常難的。包括描述你個人的信息,實際上現(xiàn)在騰訊給每個用戶有5-6個標簽去描述他,我們可以想像,對于自己的親朋好友,我們說用20個詞去形容他,這對大部分人來說都很困難。但是,騰訊用了幾千個緯度描述一個人。就等于說,互聯(lián)網比我們自己還了解我們自己。所以,2013年的時候世界經濟論壇也發(fā)布了一個報告,要把個人數(shù)據(jù)里的價值釋放出來,怎么釋放?就是在于對隱私保護模式的改變,從收集環(huán)節(jié)的限制到使用環(huán)節(jié)進行限制。
可以在用戶不知情的情況下收集數(shù)據(jù),這可能是在大數(shù)據(jù)時代不可避免的。但問題是,在使用環(huán)節(jié)怎么限制數(shù)據(jù)的使用,怎么不去泄露用戶的隱私,怎么不進行隱私數(shù)據(jù)的濫用,等等。
對我們國家來說,其實政府非常重視大數(shù)據(jù)的發(fā)展,在今年的政府工作報告里也多次提到大數(shù)據(jù)這樣的關健詞,把大數(shù)據(jù)跟集成電路、新能源等等,并列為引領未來發(fā)展的關鍵領域。
我們也對政府對大數(shù)據(jù)的定位總結了這三點:第一,大數(shù)據(jù)對環(huán)境的重大作用,包括隱私保護的法律環(huán)境,數(shù)據(jù)挖掘的制度設計。第二是大數(shù)據(jù)分析能力的建設。第三,政府在大數(shù)據(jù)里面,通過政府的數(shù)據(jù)開放和數(shù)據(jù)應用,這會使社會其它領域起到表率作用。
以上就是我演講的主要內容,也非常希望跟大家分享我們的研究成果,謝謝大家!
以上內容根據(jù)現(xiàn)場速記整理。