從過(guò)去來(lái)看,我們都知道互聯(lián)網(wǎng)改變了我們的交流方式,越年輕的人越適應(yīng)這種交流的習(xí)慣,發(fā)個(gè)郵件、微博、微信討論一下。大數(shù)據(jù)是否會(huì)改變我們的經(jīng)濟(jì)社會(huì)生活?我前面提到這樣一些例子。又有人講,有了百度或谷歌,可以讓我們熟悉用戶的瀏覽行為。有了淘寶網(wǎng)和亞馬遜,我們可以了解用戶的購(gòu)物習(xí)慣。有了微博這樣的內(nèi)容,對(duì)于思維習(xí)慣和階段性社會(huì)的認(rèn)識(shí)會(huì)有不同的反映。這是改變我們生活的一個(gè)方面。
從另一個(gè)角度來(lái)說(shuō),是不是大數(shù)據(jù)有可能會(huì)改變科學(xué)研究的途徑?昨天李院士做了非常好的報(bào)告。過(guò)去研究有三種模式,理論研究、實(shí)驗(yàn)驗(yàn)證加仿真或者是計(jì)算為主。現(xiàn)在開(kāi)始有人提出是不是從過(guò)去以計(jì)算為主的到數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)。大數(shù)據(jù)是否能夠成為人類在科學(xué)研究領(lǐng)域的新方式或者是新途徑?如果這種方式可以在今后的發(fā)展中有所利用,我們的思維方式會(huì)發(fā)生變化:
第一種,人理解由于數(shù)據(jù)外部的4V特征,使得我們?cè)诖髷?shù)據(jù)處理的研究手段和方法觀念上有所變化,比如說(shuō)數(shù)據(jù)量大。過(guò)去統(tǒng)計(jì)特征的方法不完全適用,因?yàn)樗枰鶆?。就像炒菜一樣,我們把容易成熟、不容易成熟的按照?yōu)先次序放入。假設(shè)鍋受熱均勻,當(dāng)你覺(jué)得一盤(pán)菜快熟的時(shí)候,可能用嘗一嘗的辦法,嘗一嘗就是采樣的概念,你估計(jì)它熟了,然后上桌。除非你經(jīng)驗(yàn)非常強(qiáng),估計(jì)3、5分鐘,可以通過(guò)看顏色的方式判斷。我們的假定,采樣是重要的,一切是均勻的。
第二種就是過(guò)去從精確到非精確,當(dāng)你想買(mǎi)一雙球鞋,你未必跑遍北京市所有的鞋店。也就是說(shuō)我們需要的不完全是精確計(jì)算、比較價(jià)格、式樣,各方面全部走過(guò)了以后才能做決定。而是根據(jù)你對(duì)目標(biāo)和趨勢(shì)的判斷所下的結(jié)論。
第三種就是從因果到關(guān)聯(lián)關(guān)系。剛才講到的谷歌公司發(fā)現(xiàn)的流感,他們可能不知起所以然,但他們把這種趨勢(shì)和可能的相關(guān)性建立起來(lái)。就像一個(gè)名醫(yī)一樣,如果看到藥典來(lái)配方支持病人的解決方案的話,是一種方式。但很多是基于他的經(jīng)驗(yàn),未必完全知道為什么同樣的癥狀對(duì)他要配這樣的藥。
在這些背景下,大數(shù)據(jù)處理的思維模式可能發(fā)生變化,是否也會(huì)引導(dǎo)我們研究的變化?如何處理大數(shù)據(jù),就變成一個(gè)重要的問(wèn)題。因此,從上面的討論,我個(gè)人覺(jué)得外顯的大數(shù)據(jù)的4V特征可能要進(jìn)行計(jì)算模式的變化,究竟會(huì)有什么影響?