1996年雅虎上市的時(shí)候,谷歌還沒(méi)成立,谷歌上市的時(shí)候FaceBook還沒(méi)有成立,所以我們可以推測(cè)FaceBook今年上市了,帶領(lǐng)大數(shù)據(jù)創(chuàng)新的公司還沒(méi)有成立。
演講PPT大數(shù)據(jù)的創(chuàng)新難點(diǎn)
什么不是大數(shù)據(jù)?我可以斬釘截鐵的說(shuō),數(shù)據(jù)大不等于大數(shù)據(jù),大多數(shù)人把數(shù)據(jù)大稱(chēng)之為大數(shù)據(jù),過(guò)去多少K,后來(lái)多少兆,現(xiàn)在用T了。人家早等著呢,后面還有20多個(gè)名字呢,這種簡(jiǎn)單的數(shù)量的增長(zhǎng)真的是量變和質(zhì)變嗎?量本身有差距嗎?現(xiàn)有的設(shè)備、技術(shù)方法所能處理的多數(shù)是數(shù)據(jù)大,不是大數(shù)據(jù)。數(shù)據(jù)挖掘、精細(xì)化運(yùn)營(yíng)、精準(zhǔn)廣告、個(gè)性化服務(wù)、推廣這些不是未來(lái)大數(shù)據(jù)服務(wù)商業(yè)模式的主要部分。你可以想像他做的精細(xì)化運(yùn)營(yíng)的成本,大概能夠抵消精細(xì)化營(yíng)銷(xiāo)的收入,基本上是零。不會(huì)產(chǎn)生推倒重來(lái),重新玩的效果。這是現(xiàn)在最常見(jiàn)的大數(shù)據(jù)定義,三V定義,多樣性、體量、速度。我按照那個(gè)邏輯先給一個(gè)操作化定義,比如說(shuō)多樣性,什么叫做多樣性,姓名、身高,這是不斷描述一個(gè)人的精細(xì)化而已,“多”不是多樣,所以我說(shuō)第一個(gè)數(shù)據(jù)來(lái)源多樣,剛才我們領(lǐng)導(dǎo)也專(zhuān)門(mén)講過(guò)這個(gè)問(wèn)題。大數(shù)據(jù)必然是開(kāi)放式的,必然是公共的。一家公司不管多大,我們騰訊算中國(guó)最大的,你還得知道,他的數(shù)據(jù)有相當(dāng)?shù)耐|(zhì)性。有相當(dāng)?shù)木窒扌裕邢喈?dāng)一個(gè)角度下的介入,如果跨出去會(huì)好很多,比如說(shuō)騰訊和百度,現(xiàn)在兩大公司,你們兩家公司數(shù)據(jù)百分之百兌換、共享,那就有意思了。
現(xiàn)在美國(guó)政府搞的數(shù)據(jù)開(kāi)放政策,40幾個(gè)國(guó)家了,美國(guó)和英國(guó)非常有意思,都反映了只有我們?cè)诂F(xiàn)實(shí)世界打不破的界限,在數(shù)據(jù)層面我們打破了。大的數(shù)據(jù)來(lái)源才可能多樣性,我后面會(huì)仔細(xì)講這件事情,數(shù)據(jù)種類(lèi)的多樣性,數(shù)據(jù)形式在變,有文字、語(yǔ)音、圖表、圖片、視頻,信息和數(shù)據(jù)是有差別的,有定義的信息是數(shù)據(jù),但是有相當(dāng)我們現(xiàn)在不可解的東西,不能稱(chēng)之為數(shù)據(jù),只是信息而已。數(shù)據(jù)對(duì)象的多樣性,個(gè)人信息、個(gè)人數(shù)據(jù),商業(yè)服務(wù)數(shù)據(jù),社會(huì)公共數(shù)據(jù),還有自然界的,物質(zhì)世界的數(shù)據(jù),只有考察多樣性是從這個(gè)意義上理解,而不是自己一家一戶(hù)的事越搗越細(xì),這個(gè)數(shù)據(jù)才有生命性。大數(shù)據(jù)的多樣性越高,潛在的價(jià)值就越大。
體量很簡(jiǎn)單,我們現(xiàn)在討論大數(shù)據(jù),起碼是以TB為基本計(jì)量單位,我在美國(guó)上學(xué)的時(shí)候,打工、吃飯做數(shù)據(jù)分析,那個(gè)時(shí)候基本上一個(gè)G就束手無(wú)策了,現(xiàn)在TB是一個(gè)可以做的,成本也不是那么高,現(xiàn)有很多廠商都有解決方案了,是不是再過(guò)一段要PB,說(shuō)不定?,F(xiàn)在你看FaceBook一張嘴就說(shuō)每天500T的數(shù)據(jù),谷歌說(shuō)我是三個(gè)P的數(shù)據(jù),就是體量的概念。還有一個(gè)概念我是很看重的,數(shù)據(jù)之間的關(guān)系和復(fù)雜性,這種極其復(fù)雜的做建模的,做數(shù)據(jù)挖掘的應(yīng)該有體會(huì),有一陣子谷歌找我希望我去,當(dāng)時(shí)2008年底,他們的模型是模型群了,大模型矩陣,62000個(gè),之間可以任意聯(lián)系,張三、李四建無(wú)數(shù)的模,這個(gè)概念應(yīng)該放在體量的概念上,關(guān)系復(fù)雜性這個(gè)也放在體量之下。大數(shù)據(jù)體量越大,潛在的價(jià)值越大。
還有一個(gè)速度,我寫(xiě)的兩篇都用到摩爾定律,其實(shí)摩爾定律在大數(shù)據(jù)上仍然有效,一個(gè)方向是數(shù)據(jù)種類(lèi)每年翻番,數(shù)據(jù)體量每年翻番。后面基本上就是摩爾定律的變種了,單位數(shù)據(jù)獲取的成本每年減半,單位數(shù)據(jù)每年存儲(chǔ)的成本每年減半,單位數(shù)據(jù)利用的成本每年減半,如果那邊也翻番,成本也翻番,那個(gè)是不可能的。大數(shù)據(jù)增長(zhǎng)速度越高,潛在價(jià)值就越大。
大數(shù)據(jù)認(rèn)識(shí)有幾個(gè)誤區(qū),第一個(gè)只是從量上說(shuō),你看數(shù)據(jù)增長(zhǎng)了,這樣說(shuō)你是沒(méi)法劃線的,沒(méi)法說(shuō)清楚普通數(shù)據(jù)和大數(shù)據(jù)的區(qū)別哪,一個(gè)T和一個(gè)P數(shù)據(jù)本質(zhì)有什么差別??jī)H僅因?yàn)榇??惠普說(shuō)沒(méi)有問(wèn)題,我這出了一個(gè)P和一個(gè)T一樣,解決了。
脫離產(chǎn)業(yè)發(fā)展和社會(huì)進(jìn)步的大背景,討論大數(shù)據(jù)無(wú)法說(shuō)明其重要性。只要你干這件事,技術(shù)可以作為已知,總有人給你找到辦法,隱私權(quán)啊,算法啊,一定有辦法。把大數(shù)據(jù)這個(gè)事情作為技術(shù)問(wèn)題來(lái)探討,很難證明它有投資價(jià)值。我們互聯(lián)網(wǎng)歷史上第一波的明星,即使現(xiàn)在活著的公司,也比不上真正挖金子的。所以不能脫離產(chǎn)業(yè)發(fā)展,不能脫離社會(huì)進(jìn)步,尤其是這次大數(shù)據(jù)有點(diǎn)像互聯(lián)網(wǎng)剛開(kāi)始,互聯(lián)網(wǎng)很多年了,互聯(lián)真正啟動(dòng)是美國(guó)戈?duì)枎ь^。去年美國(guó)政府出了大數(shù)據(jù)國(guó)家戰(zhàn)略,美國(guó)政府帶頭先搞,凡是用了聯(lián)邦政府一分錢(qián)的,單位必須公布數(shù)據(jù),推廣到所有的發(fā)達(dá)國(guó)家,現(xiàn)在推廣到相當(dāng)一部分不發(fā)達(dá)國(guó)家,肯尼亞、菲律賓這樣的國(guó)家都開(kāi)始搞這一套,所以我們必須開(kāi)始考慮大數(shù)據(jù)背后的社會(huì)、經(jīng)濟(jì)、更加廣泛的利益。