- 我覺(jué)得就是所謂的近似性,從4V到3I,以數(shù)據(jù)的計(jì)算來(lái)看。近似性就是傳統(tǒng)的精確處理不再適用,允許在解的一定范圍區(qū)間內(nèi)追求近似解。就是我前面提到的,當(dāng)你買(mǎi)一雙鞋的時(shí)候,不會(huì)跑遍北京所有的鞋店,而是根據(jù)你對(duì)一定目標(biāo)的理解和趨勢(shì)的判斷。
- 增量性。數(shù)據(jù)是源源不斷的動(dòng)態(tài)的變化,傳統(tǒng)是有一個(gè)封閉的假設(shè),所有數(shù)據(jù)都齊全了再計(jì)算。因此,在大數(shù)據(jù)動(dòng)態(tài)變化特征當(dāng)中需要有增量計(jì)算。同時(shí),李院士昨天提到,過(guò)去的計(jì)算是系統(tǒng)還原法,給定問(wèn)題A,把A變成A1一直到AN。A1到AN的有效解決,代表A的解決?,F(xiàn)在完全變化了,因?yàn)閱?wèn)題單元的數(shù)據(jù)不足,需要偏差處理。第二,處理問(wèn)題的方式是要采取歸納的方式,因?yàn)槎鄶?shù)據(jù)之間的隱含關(guān)系很重要。就像微博,這里用音頻,那邊用視頻,還有用文字,同樣的表達(dá)方式還有所不同,跨越不同的區(qū)域,甚至是完全無(wú)關(guān)的區(qū)域。因此,如何有效地歸納,也是一個(gè)重要的問(wèn)題。
從大數(shù)據(jù)到大數(shù)據(jù)的計(jì)算,我們把外部4V的數(shù)據(jù)表象特征理解3I的計(jì)算屬性,這是我對(duì)這個(gè)問(wèn)題的基本認(rèn)識(shí)。
大數(shù)據(jù) vs. 算法
為什么說(shuō)研究大數(shù)據(jù)要先從計(jì)算的角度來(lái)看?因?yàn)槲覀兌记宄?jì)算是計(jì)算機(jī)科學(xué)的本質(zhì)。我們實(shí)際上做計(jì)算機(jī)的,就是一直在解一個(gè)公式G=F(X)。F就是算法或者軟件程序,X就是輸入和數(shù)據(jù),G就是一個(gè)程序給定的輸入,處理完以后相應(yīng)的結(jié)果。