此外,提取出來(lái)的數(shù)據(jù)要經(jīng)過(guò)一系列的處理后方可進(jìn)入分析階段。
那么常見的數(shù)據(jù)處理包含哪些內(nèi)容呢?
首先,對(duì)拿到的數(shù)據(jù),我們要進(jìn)行數(shù)據(jù)清洗——對(duì)數(shù)據(jù)里的重復(fù)項(xiàng)、缺失項(xiàng)、矛盾項(xiàng)以及異常的波峰或者波谷進(jìn)行處理的過(guò)程。對(duì)于重復(fù)項(xiàng)去重的方法有很多,在此就不做贅述。缺失數(shù)據(jù)最常見的處理方法是用平均數(shù)值填補(bǔ),這個(gè)平均可以是所有數(shù)據(jù)的算術(shù)平均值,也可以是一段時(shí)間內(nèi)的平均值等。而矛盾項(xiàng)指的是錯(cuò)誤的數(shù)據(jù),如原本應(yīng)該都是1位的數(shù)字,提取到的數(shù)據(jù)中卻出現(xiàn)了不是一位的數(shù)字、姓名的字段里出現(xiàn)了郵箱等等,這個(gè)時(shí)候要檢查是數(shù)據(jù)提取時(shí)出現(xiàn)的錯(cuò)誤還是數(shù)據(jù)錄入時(shí)的錯(cuò)誤,如果是提取時(shí)的錯(cuò)誤并且錯(cuò)誤對(duì)結(jié)果分析的影響較大時(shí),應(yīng)該及時(shí)反饋給相關(guān)負(fù)責(zé)人。
采集到的數(shù)據(jù)要尤其注意波峰和波谷,因?yàn)檫@往往是問(wèn)題分析的關(guān)鍵所在。一般來(lái)說(shuō)數(shù)據(jù)產(chǎn)生波峰或波谷的原因有獲得了額外的推廣機(jī)會(huì)、系統(tǒng)出現(xiàn)了故障、統(tǒng)計(jì)有bug等等。
其次要對(duì)數(shù)據(jù)做進(jìn)一步的加工。因?yàn)樘崛〕鰜?lái)的數(shù)據(jù)可能不是適合直接拿來(lái)分析的,這個(gè)時(shí)候往往就會(huì)用到一些函數(shù)和工具。
經(jīng)過(guò)上述的清洗、加工步驟,得到了可以用以進(jìn)行初步分析的數(shù)據(jù)。針對(duì)這些數(shù)據(jù)做進(jìn)一步的處理,以期進(jìn)行深入的分析。