自從“大數(shù)據(jù)”、“工業(yè)大數(shù)據(jù)”流行起來(lái),就有一種常見(jiàn)的觀點(diǎn):“先把能收集的數(shù)據(jù)收集起來(lái)再說(shuō)”。 也就是說(shuō),不對(duì)數(shù)據(jù)收集做認(rèn)真的策劃,就急著上系統(tǒng)。在筆者看來(lái),這種做法的問(wèn)題很大。
問(wèn)題之一是關(guān)聯(lián)信息容易丟失。比如,產(chǎn)品開(kāi)發(fā)需要很多指標(biāo)的測(cè)試數(shù)據(jù),但每個(gè)實(shí)驗(yàn)室只記錄自己的測(cè)試數(shù)據(jù),卻沒(méi)有把它們串起來(lái)。這就好比,測(cè)血壓的只記錄血壓指標(biāo)、測(cè)體重的只記錄體重指標(biāo),但是沒(méi)有記錄血壓和體重是哪個(gè)人的,兩個(gè)數(shù)據(jù)就丟失了關(guān)聯(lián)關(guān)系。這樣的數(shù)據(jù)收集再多也無(wú)法用來(lái)發(fā)現(xiàn)規(guī)律。
另一個(gè)問(wèn)題是數(shù)據(jù)質(zhì)量難以保證。在很多地方,數(shù)據(jù)收集的目的只是完成某個(gè)特定的任務(wù)(如管理的需要),對(duì)數(shù)據(jù)質(zhì)量的要求不高。但是,搞工業(yè)數(shù)據(jù)分析,往往是為了發(fā)現(xiàn)質(zhì)量問(wèn)題、發(fā)現(xiàn)規(guī)律,對(duì)數(shù)據(jù)質(zhì)量的要求就高了。
分析工業(yè)過(guò)程時(shí),數(shù)據(jù)質(zhì)量非常重要。數(shù)據(jù)質(zhì)量不僅僅是精度問(wèn)題,關(guān)鍵數(shù)據(jù)不能缺失、數(shù)據(jù)對(duì)應(yīng)關(guān)系要準(zhǔn)確、數(shù)據(jù)關(guān)聯(lián)要完整。數(shù)據(jù)質(zhì)量不高,就不能有效地描述和分析我們所關(guān)心的問(wèn)題。有些數(shù)據(jù)不好,就像木桶有了短邊,嚴(yán)重影響后面的使用。
但是,提高數(shù)據(jù)質(zhì)量是需要成本的。不僅是設(shè)備投資,還要加強(qiáng)人工的維護(hù)。如果生產(chǎn)現(xiàn)場(chǎng)的條件差,設(shè)備維護(hù)是相當(dāng)費(fèi)勁的,沒(méi)有大量人力投入是不行的。但是,人力和資金的投入,能帶來(lái)多少效益,卻往往是不確定的。這就讓決策者非常為難。
筆者認(rèn)為:要搞工業(yè)大數(shù)據(jù),事先一定要做好策劃:該收集什么、對(duì)數(shù)據(jù)的要求是什么、哪些數(shù)據(jù)必須聯(lián)系起來(lái)。還要盡量把價(jià)值創(chuàng)造的道理說(shuō)清楚。這時(shí)再推進(jìn)可能容易一些。