中國IDC圈6月13日報道,越來越多程序員也涌入大數(shù)據(jù)行業(yè),但是仔細(xì)問一些從業(yè)人員什么是大數(shù)據(jù)?鮮有人知道?就算知道的,最常引用Victor的4V理論,大量(Volume),快速(Velocity),種類多(Variety),價值(Value),但究竟多大是大?多快是快?幾種算種類多?每個人都有自己的觀點(diǎn)。最核心的問題還不在數(shù)量和種類,而是價值(Value)。什么是大數(shù)據(jù)的價值?如何體現(xiàn)它的價值?如何衡量它的價格 ?它能夠變現(xiàn)么?如何來變現(xiàn)卻是大數(shù)據(jù)的核心問題。
做大數(shù)據(jù)的同學(xué),外面看起來像是紅樓夢的大觀園一樣,外表光鮮亮麗,身在其中的人,才知道各有各的無奈。大數(shù)據(jù)的處理通常分為,數(shù)據(jù)收集,數(shù)據(jù)清洗,數(shù)據(jù)加工,數(shù)據(jù)應(yīng)用,數(shù)據(jù)可視化。數(shù)據(jù)收集同學(xué)總是抱怨數(shù)據(jù)源Garbage in, Garbage out的感覺,數(shù)據(jù)清洗的同學(xué)總有沙里淘金的感覺,數(shù)據(jù)加工的同學(xué)也經(jīng)常受兩頭氣,相比來說,做數(shù)據(jù)可視化的同學(xué)比較幸運(yùn),可以找到很多炫酷的感覺,但有不是大數(shù)據(jù)的主流技術(shù)。最難受的是做大數(shù)據(jù)應(yīng)用/變現(xiàn)的同學(xué),不得不靠著忽悠行走江湖。
觀點(diǎn)一 :大數(shù)據(jù)的信息熵值低
1948年,香農(nóng)提出信息熵的概念,可以用于表述信息的價值,信息熵高的言簡意賅,信息熵低的冗余拖沓。目前,很多大數(shù)據(jù)的來源都是一些系統(tǒng)的Log,圖片,視頻等。特別是日志系統(tǒng)數(shù)據(jù),數(shù)據(jù)越來越多,越來越大,其中大部分是固定模板的數(shù)據(jù),區(qū)分度差,信息量并沒有隨著數(shù)據(jù)的增加而線性增加。另外舉個例子,之前我們使用膠卷照片的,我們會選擇重要的場景,珍惜每一個照片,設(shè)計好角度和光圈,現(xiàn)在有數(shù)據(jù)相機(jī)了,內(nèi)存近乎無限大了,大家肆無忌憚的自拍,哪怕都是同一個角度,大家照的廢片也是一把一把的。同一類型的數(shù)據(jù)多了,信息熵也就降低了。
觀點(diǎn)二:大數(shù)據(jù)不是銀彈,而是螞蟻效應(yīng)
大數(shù)據(jù)應(yīng)用常見,多見于推薦系統(tǒng),業(yè)務(wù)流程優(yōu)化,醫(yī)療,性能優(yōu)化,預(yù)測,金融交易等,這些業(yè)務(wù)在傳統(tǒng)的做法上,已經(jīng)十分依賴于數(shù)據(jù)了,雖然以前不叫大數(shù)據(jù),但是也都是數(shù)據(jù)驅(qū)動的業(yè)務(wù)。數(shù)據(jù)的規(guī)模和種類增多,處理方法的增多,會漸漸提高這些應(yīng)用的精準(zhǔn)性,這種提高一定是漸漸的,一點(diǎn)一滴的。也許一天兩天感覺不錯來的,但是經(jīng)過多年的持續(xù)改進(jìn),這種效果是顯而易見的。
舉個例來說,語音識別起始于60年代,基于小型詞匯庫,在90年代,IBM推出的ViaVoice是語音識別的一個里程碑,基于復(fù)雜隱式馬爾科夫模型(HMM)或者神經(jīng)網(wǎng)絡(luò)算法更加成熟,數(shù)據(jù)也是基于大量的詞匯庫,語料庫。新聞聯(lián)播曾經(jīng)就是ViaVoice中文版本的重要訓(xùn)練語庫。雖然用了更大的語料庫,效果有改進(jìn),但是還無法達(dá)到實用的程度。2009年以后,借助于互聯(lián)網(wǎng)語料庫的進(jìn)一步豐富,數(shù)據(jù)料的增長,遠(yuǎn)遠(yuǎn)超過算法的改進(jìn)程度。語音識別在準(zhǔn)確性和實用性得到很大的提升,用戶也不斷使用語音識別反饋更多的數(shù)據(jù)。以至于,谷歌公司人工智能方面的專家彼得·諾維格(Peter Norvig) ,和他的同事在一篇題為《數(shù)據(jù)的非理性效果》(The Unreasonable Effectiveness of Data)的文章中寫道,“大數(shù)據(jù)基礎(chǔ)上的簡單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效。”。大數(shù)據(jù)正在一步一步的解決一些科技應(yīng)用難題,例如自動駕駛,人工智能等。
觀點(diǎn)三:大數(shù)據(jù)不解釋因果關(guān)系,只關(guān)心相關(guān)性
《大數(shù)據(jù)時代》中定義了大數(shù)據(jù)的第三個特征,“不是因果關(guān)系,而是相關(guān)關(guān)系”。沃爾瑪通過數(shù)據(jù)挖掘,發(fā)現(xiàn)蛋撻和颶風(fēng)產(chǎn)品有很多關(guān)聯(lián)性,并且放在一起銷售提高銷售量。沒有人清楚其中的因果關(guān)系,當(dāng)然,也可能有人牽強(qiáng)的解釋,美國人喜歡颶風(fēng)時期躲在家里吃蛋撻,通過數(shù)據(jù)我們獲得了相關(guān)性,但是卻不理解其中因果關(guān)系。我突然想起來自于《三體》的降維攻擊:很多時候我們在二維世界的相關(guān)性,是無法在二維世界進(jìn)行解釋因果的,也許只有在三維或者多維世界才能夠解釋因果關(guān)系,而這種因果關(guān)系無法直接理解,只能進(jìn)行歸納成相關(guān)關(guān)系。
觀點(diǎn)四:大數(shù)據(jù)資源公司最佳變現(xiàn)是被收購,最直接變現(xiàn)渠道是廣告和泛征信
很多專業(yè)大數(shù)據(jù)服務(wù)公司的發(fā)展都不走上市之路(注意不包括大數(shù)據(jù)技術(shù)公司),因為他們對于變現(xiàn)的能力和可持續(xù)性都有很多顧慮,他們也面臨高風(fēng)險的用戶隱私挑戰(zhàn),因此很多大數(shù)據(jù)資源公司的PR工作,遠(yuǎn)遠(yuǎn)多于具體落地的數(shù)據(jù)服務(wù)工作。因此,各個專業(yè)大數(shù)據(jù)公司都忙于各種行業(yè)洞察報告和排行榜,數(shù)據(jù)可視化的工作一個比一個炫麗,一個比一個追熱點(diǎn)。談到大數(shù)據(jù)公司的變現(xiàn),很多公司會提到“數(shù)據(jù)服務(wù)”,實際上數(shù)據(jù)服務(wù)的市場相對穩(wěn)定,并沒有因為大數(shù)據(jù)公司的發(fā)展而市場膨脹,