這樣一來,如果一家公司能夠在瀏覽器市場(chǎng)占很大的份額,即使它的搜索量很小,也能收集大量的數(shù)據(jù)。有了這些數(shù)據(jù),尤其是用戶在更好的搜索引擎上的點(diǎn)擊數(shù)據(jù),一家搜索引擎公司可以快速改進(jìn)長(zhǎng)尾搜索的質(zhì)量。當(dāng)然,有人詬病必應(yīng)的這種做法是「抄」Google 的搜索結(jié)果,其實(shí)它并沒有直接抄,而是用 Google 的數(shù)據(jù)改進(jìn)自己的點(diǎn)擊模型。這種事情在中國市場(chǎng)上也是一樣,因此,搜索質(zhì)量的競(jìng)爭(zhēng)就成了瀏覽器或者其他客戶端軟件市場(chǎng)占有率的競(jìng)爭(zhēng)。雖然在外人看來這些互聯(lián)網(wǎng)公司競(jìng)爭(zhēng)的是技術(shù),但更準(zhǔn)確地講,它們是在數(shù)據(jù)層面競(jìng)爭(zhēng)。
很多時(shí)候,落后與先進(jìn)的差距,不是購買一些機(jī)器或者引進(jìn)一些技術(shù)就能夠彌補(bǔ)的,落后最可怕的地方是思維方式的落后。西方在近代走在了世界前列,很大程度上靠的是思維方式全面領(lǐng)先。
機(jī)械思維曾經(jīng)是改變了人類工作方式的革命性的方法論,并且在工業(yè)革命和后來全球工業(yè)化的過程中起到了決定性的作用,今天它在很多地方依然能指導(dǎo)我們的行動(dòng)。如果我們能夠找到確定性(或者可預(yù)測(cè)性)和因果關(guān)系,這依然是最好的結(jié)果。但是,今天我們面臨的復(fù)雜情況,已經(jīng)不是機(jī)械時(shí)代用幾個(gè)定律就能講清楚的了,不確定性,或者說難以找到確定性,是今天社會(huì)的常態(tài)。在無法確定因果關(guān)系時(shí),數(shù)據(jù)為我們提供了解決問題的新方法,數(shù)據(jù)中所包含的信息可以幫助我們消除不確定性,而數(shù)據(jù)之間的相關(guān)性在某種程度上可以取代原來的因果關(guān)系,幫助我們得到我們想知道的答案,這便是大數(shù)據(jù)思維的核心。
大數(shù)據(jù)思維和原有機(jī)械思維并非完全對(duì)立,它更多的是對(duì)后者的補(bǔ)充。在新的時(shí)代,一定需要新的方法論,也一定會(huì)產(chǎn)生新的方法論。
在有大數(shù)據(jù)之前,我們尋找一個(gè)規(guī)律常常是很困難的,經(jīng)常要經(jīng)歷「假設(shè)——求證——再假設(shè)——再求證」這樣一個(gè)漫長(zhǎng)的過程,而在找到規(guī)律后,應(yīng)用到個(gè)案上的成本可能也是很高的。但是,有了大數(shù)據(jù)之后,這一類問題就變得簡(jiǎn)單了。
比如通過對(duì)大量數(shù)據(jù)的統(tǒng)計(jì)直接找到正常用電模式和納稅模式,然后圈定那些用電模式異常的大麻種植者,或者有嫌疑的偷漏稅者。由于這種方法采用的是機(jī)器學(xué)習(xí),依靠的是機(jī)器智能,大大降低了人工成本,因此執(zhí)行的成本非常低。在美國有大量類似的報(bào)道,在各種媒體上都可以看到。
在大數(shù)據(jù)出現(xiàn)之前,并非我們得不到信息直接的關(guān)聯(lián)性,而是需要花費(fèi)很長(zhǎng)的時(shí)間才能收集到足夠多的數(shù)據(jù),然后再花費(fèi)更長(zhǎng)的時(shí)間來驗(yàn)證它,這也是過去大部分傳統(tǒng)的企業(yè)對(duì)于細(xì)節(jié)數(shù)據(jù)的收集和處理不是很重視的原因,相比之下他們更看重經(jīng)驗(yàn)和宏觀數(shù)據(jù)。但是到了大數(shù)據(jù)時(shí)代,這些企業(yè)的觀念也在慢慢轉(zhuǎn)變。
亞馬遜的優(yōu)勢(shì)在于它擁有顧客全面的信息。比如張三上周買了一臺(tái)數(shù)碼相機(jī),之前他還購買了幾個(gè)玩具,同一個(gè)地址的李四前兩天買了嬰兒用的浴液。那么可以聯(lián)想到張三和李四是一家人,他們有個(gè)出生不久的嬰兒,張三買數(shù)碼相機(jī)或許是為了給孩子照相。他們或許會(huì)對(duì)在線沖印照片(并做成賀年卡),或者電子相框有興趣。如果將他們的地址和美國個(gè)人住宅信息網(wǎng)站 zillow.com 聯(lián)系起來,很容易了解到他們的住房?jī)r(jià)值,進(jìn)而估計(jì)出他們的收入。這些條件是沃爾瑪不具備的。亞馬遜的第三個(gè)優(yōu)勢(shì)在于它的任何市場(chǎng)策略都能馬上實(shí)現(xiàn),比如它能夠隨時(shí)捆綁商品,并且隨時(shí)調(diào)整價(jià)格進(jìn)行促銷;而美國所有的實(shí)體店,調(diào)整價(jià)格都需要在晚上關(guān)門之后進(jìn)行,因此即使它們數(shù)據(jù)挖掘的速度和亞馬遜一樣快(當(dāng)然這是不可能的),在市場(chǎng)上的反應(yīng)也跟不上亞馬遜這樣的電商公司。
前面的幾個(gè)例子無一不是先從大數(shù)據(jù)找到普遍規(guī)律,然后再應(yīng)用于每一個(gè)具體的用戶,并且影響到每一個(gè)具體的操作。以抓毒品種植和偷漏稅為例,警察局或者稅務(wù)局首先需要根據(jù)大數(shù)據(jù)了解用電或者納稅普遍的模式,然后要準(zhǔn)確地估算出每一個(gè)地址正常的模式,這樣就能夠發(fā)現(xiàn)每一個(gè)異常的情況。
對(duì)于互聯(lián)網(wǎng)公司的那些應(yīng)用也如此,那些公司可以對(duì)每一個(gè)用戶提供不同的服務(wù),甚至做到每一次的服務(wù)都不相同。比如電商公司在用戶瀏覽打印機(jī)或者電動(dòng)牙刷時(shí),如果發(fā)現(xiàn)他們?cè)陂喿x產(chǎn)品介紹和評(píng)價(jià),那么可能用戶尚未完成購買,推薦相應(yīng)的產(chǎn)品給用戶是合理的;而當(dāng)用戶完成購買后,再搜索或?yàn)g覽這些產(chǎn)品,推薦給用戶打印機(jī)墨盒或電動(dòng)牙刷頭等耗材,就比推薦那些耐用產(chǎn)品本身更合理了。經(jīng)常在亞馬遜上購物的人對(duì)這一點(diǎn)會(huì)有體會(huì),不僅不同的人看到的網(wǎng)頁內(nèi)容是不一樣的,而且同一個(gè)人今天和昨天看到的內(nèi)容也是不一樣的,尤其是在完成一些購買行為之后。這種精細(xì)到每一次交易,甚至每一次內(nèi)容展示的服務(wù),在過去是想都不敢想的,但是靠大數(shù)據(jù)今天這已經(jīng)變成了可能,而且它還代表著未來商業(yè)的趨勢(shì)。