2)大數(shù)據(jù)永遠(yuǎn)是物理世界的“小”樣本:以SMT(Surface Mount Technology)生產(chǎn)線為例,最終產(chǎn)品質(zhì)量由工藝參數(shù)、材料特性、生產(chǎn)設(shè)備等上千個參數(shù)共同影響,生產(chǎn)檢測大數(shù)據(jù)僅僅覆蓋了很小的參數(shù)組合空間(curse of dimension)。并且不是所有關(guān)鍵因素都有測量,測量值也不一定能反映分布式參數(shù)系統(tǒng)的全部(比如回流焊的溫度監(jiān)測值并不等于電路板的表面溫度)。工業(yè)數(shù)據(jù)分析更需要利用先驗(yàn)知識縮小搜索空間,同時保持一種“大膽探索、小心求證”的態(tài)度。
3)對分析有直接意義的樣本比例通常很?。汗I(yè)通常是運(yùn)行在設(shè)計(jì)的常態(tài)模式下,對不期望的干擾因素會進(jìn)行很多壓制,造成絕大部分?jǐn)?shù)據(jù)對應(yīng)非常相似的環(huán)境與過程。特別對于故障分析、殘次品因素分析等大數(shù)據(jù)分析,樣本不均衡程度非常高(biased data)。雖然物理系統(tǒng)相對社會系統(tǒng)更容易做一些控制性實(shí)驗(yàn),但由于很多工業(yè)領(lǐng)域控制實(shí)驗(yàn)(比如風(fēng)機(jī)葉片斷裂、油氣管道泄漏等)成本或風(fēng)險太高,實(shí)際上也很難提供足夠的異常情形樣本。
因此,工業(yè)大數(shù)據(jù)的“大”不能僅從數(shù)據(jù)量、數(shù)據(jù)類型、產(chǎn)生速度、質(zhì)量等角度來看,而應(yīng)考慮以下兩個方面。
1)維度之大:風(fēng)力發(fā)電機(jī)組的健康分析應(yīng)該從時間(過去故障記錄、整機(jī)性能演化等)、空間(相同機(jī)型在不同風(fēng)場的表現(xiàn))、環(huán)境(氣象、地理)、業(yè)務(wù)運(yùn)作(設(shè)計(jì)、維修、限電等)等多個維度綜合來看。獨(dú)立看似異常的事件,很多其實(shí)是正常業(yè)務(wù)操作引起的(如風(fēng)機(jī)功率低可能是由于啟動限功率運(yùn)行模式以降低對居民區(qū)的影響)。對于工業(yè)數(shù)據(jù),更應(yīng)構(gòu)建全面的上下文(context model),才有可能分析出一些有價值的結(jié)果。
2)先驗(yàn)知識基礎(chǔ)之大:工業(yè)領(lǐng)域通常有大量的機(jī)理模型、專家經(jīng)驗(yàn)的深厚積累,可以為數(shù)據(jù)分析縮小參數(shù)空間、提供有用的特征變量(如齒輪箱震動的倒譜參數(shù)),數(shù)據(jù)分析也應(yīng)思考如何有這些基礎(chǔ)更好的互動與融合,以期創(chuàng)造更大的價值。