如今,大多數(shù)人認(rèn)為在大數(shù)據(jù)時(shí)代,人們總是有足夠多的信息來(lái)建立強(qiáng)大的分析,然而事實(shí)并非如此。在某些情況下,即便是大量的數(shù)據(jù)也仍然不支持基本預(yù)測(cè)的正常進(jìn)行。很多時(shí)候,我們并沒(méi)有太多可以做到的事情,除了承認(rèn)事實(shí)和堅(jiān)持基本知識(shí)。這是大數(shù)據(jù)不能被用來(lái)預(yù)測(cè)的挑戰(zhàn),似乎也是一個(gè)不可能的悖論,但是卻引來(lái)人們探討為什么會(huì)是這樣。
情景1:大數(shù)據(jù),小宇宙
舉一個(gè)例子,當(dāng)事物很少卻有大量的數(shù)據(jù)時(shí),很難找到有意義的模式。以一家航空公司的制造商為例,如今,每架飛機(jī)每小時(shí)運(yùn)行產(chǎn)生上千兆字節(jié)的數(shù)據(jù)。諸如發(fā)動(dòng)機(jī)在不同條件下操作,分析這些操作數(shù)據(jù)有很多好處。然而這對(duì)于一些分析行為來(lái)說(shuō)可能很困難,如預(yù)測(cè)性維護(hù)。這是為什么?
人們意識(shí)到,即使是最大的飛機(jī)制造商,每年也只能生產(chǎn)出幾百架飛機(jī)。在考慮不同模型的時(shí)候,一年中可能只有幾十個(gè)模型被生產(chǎn)出來(lái)??v使飛機(jī)全部裝滿傳感器,也很難開(kāi)發(fā)有意義的預(yù)測(cè)部件故障模型。為什么?因?yàn)橹挥袔资驇装偌茱w機(jī),樣品的數(shù)量太小。
特別是對(duì)于新飛機(jī)來(lái)說(shuō),這種情況還會(huì)加劇一些問(wèn)題的出現(xiàn)(例如發(fā)動(dòng)機(jī)或發(fā)動(dòng)機(jī)部件之類(lèi)的故障率較低)。因此,盡管可以在幾年的操作中收集PB的數(shù)據(jù),但是可能沒(méi)有足夠的飛機(jī)來(lái)創(chuàng)建足夠大的事件池,從而構(gòu)建真正有效的預(yù)測(cè)模型。當(dāng)然,人們可以監(jiān)測(cè)數(shù)據(jù),尋找支持調(diào)查或干預(yù)的異常模式,但是這不是一個(gè)預(yù)測(cè)模型。
情景2:大數(shù)據(jù),大宇宙,令人難以置信的罕見(jiàn)事件
還有其它情況,那就是有大量的人或事物需要分析大量的數(shù)據(jù)。然而,當(dāng)事件非常罕見(jiàn)時(shí),仍然可能遇到一種情況,即沒(méi)有足夠的樣本來(lái)構(gòu)建真正有效的預(yù)測(cè)模型。這并不是說(shuō),人們?cè)诜治鰯?shù)據(jù)和理解行為的各個(gè)方面沒(méi)有很多價(jià)值。它只是說(shuō),有可能不能建立有效的預(yù)測(cè)模型。
讓我們考慮一下計(jì)算機(jī)芯片的生產(chǎn)情況。全球每年產(chǎn)生數(shù)億甚至數(shù)十億片芯片,并且其速度在不斷加快。幾十年前,一千個(gè)或一萬(wàn)個(gè)的數(shù)量級(jí)缺陷可能是可以接受的。對(duì)于當(dāng)今的芯片產(chǎn)品,其缺陷可能需要更接近百萬(wàn)級(jí)。曾經(jīng)有客戶提出,汽車(chē)行業(yè)面臨著壓力,需要將芯片缺陷率降低到十億分之一或更低。這是為什么?主要是因?yàn)槿绻麑?shí)現(xiàn)這種低錯(cuò)誤率,并且人們可以假設(shè)導(dǎo)致有缺陷芯片存在的原因,則對(duì)于任何特定的一組原因,其發(fā)生任何缺陷的實(shí)例會(huì)變少,人們可能沒(méi)有足夠的樣本來(lái)分析,但能夠產(chǎn)生良好的模型以預(yù)測(cè)這些失敗可能發(fā)生的時(shí)間和地點(diǎn)。人們考慮到芯片技術(shù)將隨著時(shí)間的推移而過(guò)時(shí),在短短幾年內(nèi)被更新的產(chǎn)品所替代,因此,這可能是一個(gè)持續(xù)時(shí)間比較久的問(wèn)題。
不要絕望,做好準(zhǔn)備
請(qǐng)記住,在這里提出的問(wèn)題并不是什么規(guī)則,而只是樣本。然而,隨著人們收集數(shù)據(jù)的來(lái)源越來(lái)越多,企業(yè)開(kāi)始考慮用越來(lái)越多的因素來(lái)分析業(yè)務(wù),這些異常樣本肯定會(huì)出現(xiàn)在組織內(nèi)部。重要的是,人們只需要關(guān)注一個(gè)非常小的宇宙來(lái)分析,或者通過(guò)一個(gè)令人難以置信的稀有事件來(lái)分析。更糟糕的是,這種罕見(jiàn)事件是小宇宙中的。假設(shè)只考慮數(shù)據(jù)與業(yè)務(wù)問(wèn)題相關(guān)的情況,而那些不相關(guān)的數(shù)據(jù)將永遠(yuǎn)不會(huì)增加價(jià)值,無(wú)論其數(shù)量多么大或多么小。
當(dāng)人們不確定自己的數(shù)據(jù)是否是有效預(yù)測(cè)時(shí),請(qǐng)確保在用于開(kāi)發(fā)數(shù)據(jù)的復(fù)雜分析之前投入更多精力,其評(píng)估可能是可行的。在某些情況下,人們可能需要解決基本分析問(wèn)題。然而,重要的是要記住,這種情況應(yīng)該比沒(méi)有任何數(shù)據(jù)來(lái)分析更好。
(中國(guó)IDC圈獨(dú)家翻譯,未經(jīng)允許,禁止轉(zhuǎn)載?。?/strong>