進入2014年,大數(shù)據(jù)正從紅遍媒體的概念炒作逐漸落地為生財?shù)漠a(chǎn)業(yè)。如雨后春筍冒出的大數(shù)據(jù)服務(wù)商,在中國市場上展開了激烈角逐。從“中國大數(shù)據(jù)服務(wù)商綜合服務(wù)水平TOP100排行榜”(以下簡稱榜單)中,已經(jīng)可以隱約看出中國“大數(shù)據(jù)云圖”的雛形。
中美大數(shù)據(jù)云圖比較
相比美國同類榜單,高居首位的10Gen僅列第43,而大數(shù)據(jù)股明星Tableau僅列第45,而Marketo干脆沒上榜。這讓我們注意到榜單標的服務(wù)范圍是中國,而非美國。
我去年到美國與《大數(shù)據(jù)云圖》的作者芬雷布交流時,已經(jīng)注意到,中美大數(shù)據(jù)產(chǎn)業(yè)布局存在巨大差異。在一年時間里,中國大數(shù)據(jù)的產(chǎn)業(yè)版塊正發(fā)生巨大變化;對比大數(shù)據(jù)云圖2.0版(2013版)與3.0版(2014版),美國的產(chǎn)業(yè)也在急劇變動。
美國大數(shù)據(jù)云圖3.0版將產(chǎn)業(yè)版塊重新劃分為六塊,分別為數(shù)據(jù)源、開源、跨平臺基礎(chǔ)設(shè)施/分析、基礎(chǔ)設(shè)施、分析、應(yīng)用。其中“分析”領(lǐng)域的熱點是數(shù)據(jù)可視化、非結(jié)構(gòu)化數(shù)據(jù);“基礎(chǔ)設(shè)施”領(lǐng)域的熱點是NoSQL和NewSQL數(shù)據(jù)庫;“應(yīng)用”領(lǐng)域的熱點是廣告優(yōu)化和營銷。
比較中美“大數(shù)據(jù)云圖”,可以看出以下特點:
第一,在“數(shù)據(jù)源”領(lǐng)域,中美各有特色,中國互聯(lián)網(wǎng)平臺數(shù)據(jù)源和行業(yè)數(shù)據(jù)源建設(shè)已經(jīng)起步,但本地數(shù)據(jù)(語用數(shù)據(jù)、情境數(shù)據(jù))仍有待加強。
第二,“開源”、“跨平臺基礎(chǔ)設(shè)施/分析”和“基礎(chǔ)設(shè)施”三個領(lǐng)域,美國處于壟斷地位。
榜單中位列前15的均是美國廠商,且多跨“跨平臺基礎(chǔ)設(shè)施/分析”和“基礎(chǔ)設(shè)施”兩個領(lǐng)域。中國一些廠商認為美國相關(guān)技術(shù)專業(yè)性太強,不利于普及,更傾向短平快技術(shù)應(yīng)用。但一些企業(yè)堅持在這些重要領(lǐng)域耕耘,如商業(yè)智能軟件(用友軟件,久其軟件) ; 數(shù)據(jù)中心 建設(shè)與維護(天璣科技、銀信科技、榮之聯(lián)等);
第三,中國廠商絕大多數(shù)集中于“應(yīng)用”與“分析”領(lǐng)域。前者如廣告優(yōu)化與營銷(阿里巴巴、騰訊等),金融、汽車、政府、健康、教育、安全等行業(yè)應(yīng)用;后者如數(shù)據(jù)處理、分析環(huán)節(jié)、綜合處理(拓爾思、美亞柏科等),語音識別(科大訊飛),識頻識別(海康威視、大華股份、華平股份、中威電子、國騰電子)。在應(yīng)用領(lǐng)域,中美熱點相似度較高,都包括廣告優(yōu)化、營銷、金融、產(chǎn)業(yè)、政府、健康、教育、安全等。
如果以上是對榜單的結(jié)構(gòu)分類分析,接下來要按價值分類進行分析。
中國大數(shù)據(jù)云圖價值分析
對大數(shù)據(jù)進行價值分類,可分為“風(fēng)動”(客體價值)、“幡動”(主客體價值)、“心動”(主體價值)三類。這是六祖壇經(jīng)的價值分類法。
1、風(fēng)動類的大數(shù)據(jù),是工程師眼中的大數(shù)據(jù),看到是技術(shù)。典型代表是3V、4V說。林林總總的這方面定義,可以用一個詞概括,這就是“復(fù)雜”。大數(shù)據(jù)本質(zhì)上是復(fù)雜性數(shù)據(jù)。
從這個方向觀察,中美企業(yè)差距較大。榜上前10名基本都是屬于“跨平臺基礎(chǔ)設(shè)施/分析”的美國廠家。其中HP今年剛被列入美國“大數(shù)據(jù)云圖”(3.0版),如今赫然列在第4。而以硬件加強大數(shù)據(jù),7.4億投Cloudera異軍突起,HADOOP的CDH平臺占中國一半的英特爾列在第2,卻至今不在美國榜單。顯然這是美國榜單出了問題,而中國這個榜單跟進比較及時超前。
未來發(fā)展,中國企業(yè)需要回到圖靈初衷,找到復(fù)雜性數(shù)據(jù)的感覺(而不光是象谷歌那樣迷信數(shù)學(xué)算法),沿跨“科技-人文”二元的“數(shù)據(jù)科學(xué)”方向發(fā)展。 華為與倫敦帝國理工學(xué)院共建數(shù)據(jù)科學(xué)創(chuàng)新實驗室 ,是積極跡象。
工程師撲向復(fù)雜性數(shù)據(jù),就象小孩子撲向玩具一樣,只關(guān)心是與不是這種事實評價,并不關(guān)心好與壞這種價值評價。商務(wù)或政務(wù)的代理人關(guān)心的是技術(shù)應(yīng)用于人之后產(chǎn)生的價值,因此要把客體與主體聯(lián)接起來。
2、幡動類的大數(shù)據(jù),是業(yè)務(wù)代理人眼中的大數(shù)據(jù),看到的是工具和能力。以美國政府的定義為代表。林林總總的這方面定義,可以用一個詞概括,這就是“洞察”。
數(shù)據(jù)越復(fù)雜,成本越高,是遲鈍(又稱工業(yè)?。?,為不好;數(shù)據(jù)越復(fù)雜,成本越低,叫靈活(SMART),是好。洞察,就是指“穿透信息迷霧”。這是當(dāng)數(shù)據(jù)進入澤字節(jié)(ZB)時代后,避免信息垃圾填埋,反而能保持“清清楚楚明明白白真真切切”的能力。