大數(shù)據(jù)可能是現(xiàn)在最炙手可熱的技術(shù)名詞了。熱就意味著有泡沫,有值得反思的地方。Quartz的Christopher Mims 5月6日發(fā)表了一篇文章,名為“大多數(shù)數(shù)據(jù)都不大,假裝大數(shù)據(jù)其實(shí)是瞎浪費(fèi)錢”,有理有據(jù),推薦一讀。以下為譯文:
如果你現(xiàn)在還沒有加入大數(shù)據(jù)的陣營(yíng), 那你想辦法弄到一些。畢竟, 競(jìng)爭(zhēng)需要大數(shù)據(jù)。如果你的數(shù)據(jù)量很小, 你將被競(jìng)爭(zhēng)對(duì)手徹底打敗。
作為顧問和 IT公司向企業(yè)推銷的另一個(gè)大項(xiàng)目,在大數(shù)據(jù)背后的猜想還存在很多問題。幸運(yùn)的是,誠(chéng)實(shí)的大數(shù)據(jù)實(shí)踐者(又稱數(shù)據(jù)科學(xué)家)從不放下懷疑態(tài)度, 并提出了一系列對(duì)大數(shù)據(jù)大肆宣傳感到厭倦的理由。如下:
理由一,即使像Facebook和Yahoo!這樣的互聯(lián)網(wǎng)巨頭也并非總是處理大數(shù)據(jù),Google風(fēng)格工具的應(yīng)用是不合適的。
Facebook和雅虎運(yùn)行其巨型集群機(jī)(功能強(qiáng)大的服務(wù)器集合)來處理數(shù)據(jù)。必須要進(jìn)行集群處理是大數(shù)據(jù)的標(biāo)志之一。畢竟,在家用PC就能處理的數(shù)據(jù)不能稱為大數(shù)據(jù)。將業(yè)務(wù)拆分為小業(yè)務(wù),使用一系列的計(jì)算機(jī)來處理每個(gè)小業(yè)務(wù)的必要性,是類似Google計(jì)算世界上每一個(gè)網(wǎng)頁(yè)排名的大數(shù)據(jù)問題典型特點(diǎn)。
現(xiàn)在看來,對(duì)于Facabook和Yahoo!來說,每個(gè)業(yè)務(wù)都是用同樣規(guī)模的集群機(jī)是不必要的。比如Facebook的情況,工程師提交給集群機(jī)的大多數(shù)任務(wù)都是