過去有十多個人對這些內(nèi)容的研究獲得了圖靈獎,但都是對算法的研究。過去是假設(shè)X不重要,主要研究F?,F(xiàn)在X發(fā)生極具變化,是否會影響F和整個F(X),對軟件和算法會不會有新的變化?過去研究的問題,計算機(jī)能處理的都是可判定問題,也是可判定當(dāng)中的易解性問題。但是,現(xiàn)在的情況,大數(shù)據(jù)下,我舉一個小的例子,讀取硬盤世界上最快的線性掃描一個TB要1.9天,一個EB要5年多。從這里來看,百度一天處理的網(wǎng)頁數(shù)據(jù)有10PB,就相當(dāng)于要有小于3天的時間才能把它輸入進(jìn)來,都不用說后面的處理和應(yīng)用。所以是不可能的。
在這里面就有一個基本問題,在過去能解的問題、易解的問題,在數(shù)據(jù)規(guī)模大的情況下是不可解的:
1. 這樣一個新的問題出現(xiàn)了。過去五十年的復(fù)雜性理論會遇到新的挑戰(zhàn)。第二個問題就是以前的算法不能再近似,原因就是研究F找到F’,X到新的X’又有新的問題出現(xiàn),也同樣出現(xiàn)了數(shù)據(jù)量、算法效率和結(jié)果的考慮。過去研究當(dāng)中有一種新的情況是研究好算法。
這張圖是12年前的,在小數(shù)據(jù)下算法好壞是有差別的。當(dāng)數(shù)據(jù)量增加到1千倍的時候,算法的好壞差距發(fā)生了調(diào)轉(zhuǎn)。所以簡單有效和對問題有應(yīng)用價值的算法變得更重要,也許我們有很多新的問題出現(xiàn),因為時間的關(guān)系,我只就今天計算的科學(xué)問題跟各位交流。
2. 關(guān)于可表示的問題。如此多的數(shù)據(jù),過去的方法也有很多新的困難出現(xiàn)。