描述大千萬物的信息,也可以被整齊的平鋪嗎?我們太習(xí)慣于用平面表結(jié)構(gòu)去組織、存儲(chǔ)和處理信息。當(dāng)我們面對(duì)一張機(jī)票,會(huì)把航班起飛降落時(shí)間,地點(diǎn),班次,機(jī)型等等一系列預(yù)定義好的信息作為一個(gè)個(gè)字段,平鋪到一張整齊的表格里,字段們會(huì)因?yàn)闃I(yè)務(wù)而越變越多,表格也越來越臃腫而稀疏,但是,始終不會(huì)有空余的字段去記錄我們因?yàn)楹桨嘌诱`而暴躁的情緒。
我們已經(jīng)習(xí)慣用僵化的橫豎線條去劃分這個(gè)紛繁復(fù)雜的世界,沒辦法塞進(jìn)表格的都拋棄掉,或者留個(gè)索引扔到另一個(gè)大垃圾堆里(mass storage). 我們更愿意花精力去思考如何處理這個(gè)不斷長大的大表,切割它,買更大的機(jī)器存放計(jì)算它,于是我們成長為高薪的DBA。我們也樂于改變表的格式去組織數(shù)據(jù),或是在在表與表之間跳來跳去,于是我們成長為同樣高薪的OCP。
但今天我們還是面對(duì)的太多棘手的問題,發(fā)現(xiàn)關(guān)系型數(shù)據(jù)庫,竟然,最不能表達(dá)的就是關(guān)系。
而不用借助淘寶或京東的數(shù)據(jù)庫。
Google在互聯(lián)網(wǎng)世界利用鏈入鏈出關(guān)系評(píng)估網(wǎng)頁質(zhì)量,我們也可以使用電話記錄中的呼入呼出關(guān)系數(shù)據(jù),用矩陣計(jì)算我們的關(guān)系,評(píng)估出"人脈"。在中國,你的成功不取決于你擁有什么,而是你認(rèn)識(shí)誰。在抵押轉(zhuǎn)向信用的互聯(lián)網(wǎng)金融時(shí)代,可度量的社會(huì)資本必然是新的數(shù)據(jù)金礦,而能夠挖掘這一金礦的人才,已經(jīng)從Oracle時(shí)代的DBA,轉(zhuǎn)向大數(shù)據(jù)的data scientist.
當(dāng)我們用矩陣、用向量重新建立大數(shù)據(jù)公理,我們發(fā)現(xiàn)還使用Hadoop去優(yōu)化SQL的行為多么的無趣,有紛繁的人類行為數(shù)據(jù)可以服務(wù)于新金融的風(fēng)險(xiǎn)與信用;有海量的交通行為數(shù)據(jù)等待著去動(dòng)態(tài)規(guī)劃,建設(shè)智慧城市;有無數(shù)生產(chǎn)線上的傳感器數(shù)據(jù)等待著邏輯回歸建立生產(chǎn)的最佳實(shí)踐,實(shí)現(xiàn)制造業(yè)的產(chǎn)業(yè)升級(jí);以Hadoop分布式計(jì)算和機(jī)器學(xué)習(xí)所代表的大數(shù)據(jù),無異于讓數(shù)學(xué)家發(fā)現(xiàn)了無理數(shù)。真正的大數(shù)據(jù)人已經(jīng)不再沉迷于扁平的DB表世界里,
運(yùn)營商要根據(jù)通話記錄計(jì)算朋友圈,一張表描述了我有五百個(gè)朋友。那么朋友的朋友呢?循環(huán)嵌套的平面表結(jié)構(gòu)造成了大量數(shù)據(jù)冗余,2度,3度以上的關(guān)系結(jié)構(gòu)很難表達(dá)計(jì)算,更別說傳播關(guān)系,強(qiáng)弱程度了。
我們有必要重新思考,如何利用新的方式組織表達(dá)信息了。歷史在重演,其實(shí)這樣的思維轉(zhuǎn)變,在2500年前就已經(jīng)發(fā)生過,就是代數(shù)和幾何的關(guān)系。
古希臘的畢達(dá)哥拉斯學(xué)派,認(rèn)為數(shù)字能夠表達(dá)一切,長度重量,高度,溫度,個(gè)數(shù),序數(shù),萬物皆數(shù),一切都可以被計(jì)算。所有的數(shù)都可以寫下來,可以密密麻麻的擠在一個(gè)數(shù)軸上表達(dá)。直到有一天,一個(gè)叫希帕索斯的孩子,他發(fā)現(xiàn)如果一個(gè)直角三角形兩邊都是1,那么它的斜邊,無法用有理數(shù)來表達(dá),那么這個(gè)數(shù),怎么可能擠上那個(gè)密密麻麻的數(shù)軸呢。這個(gè)聰明的孩子最終被忠實(shí)的信徒們推下海淹死了,但是用幾何圖形表達(dá)的無理數(shù)所引發(fā)的數(shù)學(xué)危機(jī),卻推動(dòng)了古希臘的數(shù)學(xué)基礎(chǔ)轉(zhuǎn)向幾何,以幾何為基礎(chǔ)使數(shù)學(xué)的公理化成為可能。
現(xiàn)代文明不允許有下一個(gè)被淹死的希帕索斯,大數(shù)據(jù)的今天允許我們使用更新穎的方式組織處理數(shù)據(jù),行為關(guān)系、語義、視覺。躺在平面表里的數(shù)據(jù)人要站起來,從SQL語法里跳出來,我們來到了矩陣和向量的空間。
行為關(guān)系,我們可以用矩陣表達(dá),NxNxN的矩陣計(jì)算非常適合計(jì)算機(jī)分布處理;自然語言可以用向量計(jì)算,文章中數(shù)萬個(gè)詞匯如同一根根長在刺猬身上不同方向的刺,需要理解Dior在文章中描述的是性感還是優(yōu)雅?只需要計(jì)算一下這兩個(gè)詞匯向量的余弦距離。
世界不再是平的,大數(shù)據(jù)讓我們用新的方式去存儲(chǔ)、組織和計(jì)算信息。
回到我們曾經(jīng)在數(shù)據(jù)庫中苦惱的關(guān)系計(jì)算,我們可以在圖傳播中輕易知道誰是真正的意見領(lǐng)袖,是坐擁千萬粉絲數(shù)量的影視明星,還是被不斷轉(zhuǎn)發(fā)擴(kuò)散的活躍草根。
這樣的大量一度傳播卻沒有在二度傳播中形成圈落的圖計(jì)算結(jié)果,也能幫助我們定位快遞員,從而進(jìn)一步找到頻繁網(wǎng)購的人群,這一切只需要計(jì)算我們的電話記錄,新的空間已經(jīng)打開,知識(shí)和創(chuàng)新在新參照系里,蘊(yùn)育著大爆發(fā)。(本文作者天云大數(shù)據(jù)CEO 雷濤)