1. 大數(shù)據(jù)實(shí)質(zhì)
大數(shù)據(jù)的實(shí)質(zhì)是什么?雖然目前國內(nèi)外都還沒有統(tǒng)一的定義或認(rèn)識,但從狹義的字面來理解的話,它應(yīng)該與小數(shù)據(jù)相對應(yīng),大數(shù)據(jù)意指數(shù)據(jù) 量特別巨大,超出了我們常規(guī)的處理能力,必須引入新的科學(xué)工具和技術(shù)手段才能夠進(jìn)行處理的數(shù)據(jù)集合。(所謂的小數(shù)據(jù)指的是數(shù)據(jù)規(guī)模比較小,用我們的傳統(tǒng)工 具和方法足以進(jìn)行處理的數(shù)據(jù)集合)。比如牛頓時(shí)代的各門自然科學(xué),其數(shù)據(jù)量都不大,第谷觀測了20年的天文數(shù)據(jù),開普勒很快用手工就處理完畢,并從中發(fā)現(xiàn) 了開普勒定律。后來,隨著科學(xué)的發(fā)展,數(shù)據(jù)量有了比較大的增加,為了處理這些當(dāng)時(shí)看來的“大數(shù)據(jù)”,統(tǒng)計(jì)學(xué)家創(chuàng)造了抽樣方法,由此解決了數(shù)據(jù)處理難題。
現(xiàn)在的大數(shù)據(jù)卻是所謂的海量數(shù)據(jù),各種數(shù)據(jù)的差別又特別巨大,用抽樣方法也難于處理,只能用現(xiàn)在的數(shù)據(jù)挖掘和云計(jì)算、云存儲(chǔ)等新技術(shù)才能解決。從廣義來說, 大數(shù)據(jù)指的是一種新的數(shù)據(jù)世界觀,它將世界上的一切事物都看作是由數(shù)據(jù)構(gòu)成的,一切皆可“量化”,都可以用編碼數(shù)據(jù)來表示。這就是舍恩伯格所說的:“大數(shù) 據(jù)是人們獲得新認(rèn)知、創(chuàng)造新價(jià)值的源泉;大數(shù)據(jù)還是改變市場、組織機(jī)構(gòu),以及政府與公民關(guān)系的方法。”
2. 大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)的特點(diǎn)被人總結(jié)為4個(gè)“V”:
第一,Volume(大量),即數(shù)據(jù)數(shù)量巨大。從TB級別,躍升到PB級別。
第二,Variety(多樣),即數(shù)據(jù)類型繁多。除了標(biāo)準(zhǔn)化的結(jié)構(gòu)化編碼數(shù)據(jù)之外,還包括網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等非結(jié)構(gòu)化或無結(jié)構(gòu)數(shù)據(jù)。
第三,Value(價(jià)值),即商業(yè)價(jià)值高,但價(jià)值密度低。在數(shù)據(jù)的海洋中不斷尋找,才能掏出一些有價(jià)值的東西,可謂“沙里淘金”。
第四,Velocity(高速),即處理速度快,實(shí)時(shí)在線。各種數(shù)據(jù)基本上實(shí)時(shí)、在線,并能夠進(jìn)行快速的處理、傳送和存儲(chǔ),以便全面反映對象的當(dāng)下狀況。
3. 大數(shù)據(jù)的哲學(xué)基礎(chǔ):同構(gòu)關(guān)系——大數(shù)據(jù)的數(shù)理哲學(xué)基礎(chǔ)
大數(shù)據(jù)可認(rèn)為是人類的認(rèn)識和實(shí)踐,也就是一個(gè)數(shù)據(jù)搜索、處理、挖掘和創(chuàng)造的過程。大數(shù)據(jù)方法揭示的因果關(guān)系是常規(guī)性的,數(shù)據(jù)反映的 是具有同構(gòu)關(guān)系的兩個(gè)序列關(guān)系信息,一個(gè)對象的運(yùn)動(dòng)軌跡,通過另一個(gè)序列的載體編碼來表述。
認(rèn)識者獲得的不是對象本身的絕對映像,而是離開了對象,從對象 中抽象出來的、關(guān)于對象運(yùn)動(dòng)軌跡的數(shù)據(jù)。從這一角度看,同構(gòu)關(guān)系是大數(shù)據(jù)的數(shù)理哲學(xué)基礎(chǔ)。反映宇宙中形形色色事物的多樣化屬性和規(guī)律的大數(shù)據(jù),這些結(jié)構(gòu)性 和非結(jié)構(gòu)性的數(shù)據(jù),都統(tǒng)一表現(xiàn)為數(shù)字形式,以0和1按邏輯 關(guān)系編碼,而且具有可逆性。這表明,統(tǒng)一的宇宙中的一切事物之間都存在著具有時(shí)空一致性的同構(gòu)關(guān)系。
這種關(guān)系意味著任何事物的屬性和規(guī)律,只要通過適當(dāng)?shù)?編碼,都可以通過統(tǒng)一的數(shù)字信號表達(dá)出來;換句話說,一種事物的屬性和規(guī)律,可以通過數(shù)據(jù)的媒介,表現(xiàn)在另一種事物運(yùn)動(dòng)序列中。(見圖一)

對象的結(jié)構(gòu)數(shù)據(jù)與人的感覺映像的結(jié)構(gòu)數(shù)據(jù)是一致的,更嚴(yán)格地說,是同構(gòu)的。
4. 大數(shù)據(jù)研究方法的變革
4.1 大數(shù)據(jù)與傳統(tǒng)模型有很大區(qū)別
在物質(zhì)形式的模型中,模型來源屬于天然存在物的便是天然模型,模型來源屬于人工制造物的便是人工模型。
在思維形式的模型中,根據(jù)模 型不同的特點(diǎn)分為:理想模型、數(shù)學(xué)模型、理論模型以及半經(jīng)驗(yàn)半理論模型。理想模型強(qiáng)調(diào)的是模型的抽象性,數(shù)學(xué)模型強(qiáng)調(diào)的是模型的數(shù)學(xué)基礎(chǔ),理論模型強(qiáng)調(diào)的 是模型的理論基礎(chǔ),而半經(jīng)驗(yàn)半理論模型強(qiáng)調(diào)的是模型的來源,既包含理論成分,又包含經(jīng)驗(yàn)成分。
就它們的區(qū)別而言,首先,大數(shù)據(jù)模型并不具有物質(zhì)形式,因此 并非物質(zhì)形式的科學(xué)模型;其次,大數(shù)據(jù)模型是根據(jù)海量數(shù)據(jù)以及算法得出,無理論介入,因此也非理論模型;再次,大數(shù)據(jù)模型從海量的數(shù)據(jù)出發(fā),通過復(fù)雜的計(jì)算,最終得出復(fù)雜的模型,都是具體的數(shù)據(jù)運(yùn)算,并無抽象過程;最后,大數(shù)據(jù)模型雖涉及算法,但大數(shù)據(jù)模型與數(shù)學(xué)模型的得出過程不同,數(shù)學(xué)模型是通過尋找研究問題與數(shù)學(xué)結(jié)構(gòu)的對應(yīng)關(guān)系而確定,大數(shù)據(jù)模型則是通過尋找海量數(shù)據(jù)與算法的對應(yīng)關(guān)系而確定。