大數(shù)據(jù)的本質(zhì)
首先我們必須承認(rèn)世界的不確定性,這樣我們就不會(huì)采用確定性的思維方式去面對(duì)一個(gè)不確定性的世界。當(dāng)我們了解到信息或者說(shuō)數(shù)據(jù)能夠消除不確定性之后,便能理解為什么大數(shù)據(jù)的出現(xiàn)能夠解決那些智能的問(wèn)題,因?yàn)楹芏嘀悄軉?wèn)題從根本上來(lái)講無(wú)非是消除不確定性的問(wèn)題。對(duì)于前面提到的大數(shù)據(jù)的三個(gè)特征,即數(shù)據(jù)量大、多維度和完備性。在這個(gè)基礎(chǔ)之上,我們就能夠講清楚大數(shù)據(jù)的本質(zhì)。
先談?wù)剶?shù)據(jù)量的問(wèn)題。在過(guò)去,由于數(shù)據(jù)量不夠,即使使用了數(shù)據(jù),依然不足以消除不確定性,因此數(shù)據(jù)的作用其實(shí)很有限,很多人忽視它的重要性是必然的。在那種情況下,哪個(gè)領(lǐng)域先積攢下足夠多的數(shù)據(jù),它的研究進(jìn)展就顯得快一些。具體到機(jī)器智能方面,語(yǔ)音識(shí)別是最早獲得比較多數(shù)據(jù)的領(lǐng)域,因此數(shù)據(jù)驅(qū)動(dòng)的方法從這個(gè)領(lǐng)域產(chǎn)生也就不足為奇了。
關(guān)于大數(shù)據(jù)多維度的重要性問(wèn)題,可以從兩個(gè)角度來(lái)看待它。第一個(gè)視角是「互信息」,為了獲得相關(guān)性通常需要多個(gè)維度的信息。比如我們要統(tǒng)計(jì)「央行調(diào)整利息」和「股市波動(dòng)」的相關(guān)性,只有歷史上央行調(diào)整利息一個(gè)維度的信息顯然是不夠的,需要上述兩個(gè)維度的信息同時(shí)出現(xiàn)。第二個(gè)視角是所謂的「交叉驗(yàn)證」,我們不妨看這樣一個(gè)例子:夏天的時(shí)候,如果我們感覺很悶熱,就知道可能要下雨了。也就是說(shuō),「空氣濕度較高」和「24 小時(shí)內(nèi)要下雨」之間的互信息較大。但是,這件事并非很確定,因?yàn)橛行r(shí)候濕度大卻沒(méi)有下雨。不過(guò),如果結(jié)合氣壓信息、云圖信息等其他維度的信息,也能驗(yàn)證「24 小時(shí)內(nèi)要下雨」這件事,那么預(yù)測(cè)的準(zhǔn)確性就要大很多。
最后,我們從信息論的角度來(lái)看看數(shù)據(jù)完備性的重要性。在大數(shù)據(jù)時(shí)代,在某個(gè)領(lǐng)域里獲得數(shù)據(jù)的完備性還是可能的。比如在過(guò)去把全國(guó)所有人的面孔收集全是一件不可想象的事情,但是今天這件事情完全能做到。當(dāng)數(shù)據(jù)的完備性具備了之后,就相當(dāng)于訓(xùn)練模型的數(shù)據(jù)集合和使用這個(gè)模型的測(cè)試集合是同一個(gè)集合,或者是高度重復(fù)的。在這種情況下,就不會(huì)出現(xiàn)覆蓋不了很多小概率事件的災(zāi)難。
這樣數(shù)據(jù)驅(qū)動(dòng)才具有普遍性,而不再是時(shí)靈時(shí)不靈的方法論。
由此可見,大數(shù)據(jù)的科學(xué)基礎(chǔ)是信息論,它的本質(zhì)就是利用信息消除不確定性。雖然人類使用信息由來(lái)已久,但是到了大數(shù)據(jù)時(shí)代,量變帶來(lái)質(zhì)變,以至于人們忽然發(fā)現(xiàn),采用信息論的思維方式可以讓過(guò)去很多難題迎刃而解。
互聯(lián)網(wǎng)公司的爭(zhēng)奪和大數(shù)據(jù)應(yīng)用
今天,各個(gè)搜索引擎都有一個(gè)度量用戶點(diǎn)擊數(shù)據(jù)和搜索結(jié)果相關(guān)性的模型,通常被稱為「點(diǎn)擊模型」。隨著數(shù)據(jù)量的積累,點(diǎn)擊模型對(duì)搜索結(jié)果排名的預(yù)測(cè)越來(lái)越準(zhǔn)確,它的重要性也越來(lái)越大。今天,它在搜索排序中至少占 70%~80% 的權(quán)重,也就是說(shuō)搜索算法中其他所有的因素加起來(lái)都不如它重要。換句話說(shuō),在今天的搜索引擎中,因果關(guān)系已經(jīng)沒(méi)有數(shù)據(jù)的相關(guān)性重要了。
當(dāng)然,點(diǎn)擊模型的準(zhǔn)確性取決于數(shù)據(jù)量的大小。對(duì)于常見的搜索,比如「虛擬現(xiàn)實(shí)」,積累足夠多的用戶點(diǎn)擊數(shù)據(jù)并不需要太長(zhǎng)的時(shí)間。但是,對(duì)于那些不太常見的搜索(通常也被稱為長(zhǎng)尾搜索),比如「畢加索早期作品介紹」,需要很長(zhǎng)的時(shí)間才能收集到「足夠多的數(shù)據(jù)」來(lái)訓(xùn)練模型。一個(gè)搜索引擎使用的時(shí)間越長(zhǎng),數(shù)據(jù)的積累就越充分,對(duì)于這些長(zhǎng)尾搜索就做得越準(zhǔn)確。微軟的搜索引擎在很長(zhǎng)的時(shí)間里做不過(guò) Google 的主要原因并不在于算法本身,而是因?yàn)槿狈?shù)據(jù)。同樣的道理,在中國(guó),搜狗等小規(guī)模的搜索引擎相對(duì)百度最大的劣勢(shì)也在于數(shù)據(jù)量上。
當(dāng)整個(gè)搜索行業(yè)都意識(shí)到點(diǎn)擊數(shù)據(jù)的重要性后,這個(gè)市場(chǎng)上的競(jìng)爭(zhēng)就從技術(shù)競(jìng)爭(zhēng)變成了數(shù)據(jù)競(jìng)爭(zhēng)。這時(shí),各公司的商業(yè)策略和產(chǎn)品策略就都圍繞著獲取數(shù)據(jù)、建立相關(guān)性而開展了。后進(jìn)入搜索市場(chǎng)的公司要想不坐以待斃,唯一的辦法就是快速獲得數(shù)據(jù)。
比如微軟通過(guò)接手雅虎的搜索業(yè)務(wù),將必應(yīng)的搜索量從原來(lái) Google 的 10% 左右陡然提升到 Google 的 20%?30%,點(diǎn)擊模型估計(jì)得準(zhǔn)確了許多,搜索質(zhì)量迅速提高。但是即使做到這一點(diǎn)還是不夠的,因此一些公司想出了更激進(jìn)的辦法,通過(guò)搜索條(Toolbar)、瀏覽器甚至輸入法來(lái)收集用戶的點(diǎn)擊行為。這種辦法的好處在于它不僅可以收集到用戶使用該公司搜索引擎本身的點(diǎn)擊數(shù)據(jù),而且還能收集用戶使用其他搜索引擎的數(shù)據(jù),比如微軟通過(guò)舊瀏覽器收集用戶使用 Google 搜索時(shí)的點(diǎn)擊情況。