總體上來講,數(shù)據(jù)分析挖掘體系可分為數(shù)據(jù)預(yù)處理、分析挖掘、數(shù)據(jù)探索、數(shù)據(jù)展現(xiàn)和分析工具。
▌數(shù)據(jù)預(yù)處理
•數(shù)據(jù)預(yù)處理包含數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約幾種方法。
•而數(shù)據(jù)清洗包括缺失值處理和異常值處理;
•數(shù)據(jù)集成包括同名同義、異名同義、單位不統(tǒng)一的實體識別和冗余性識別。
•數(shù)據(jù)變化包括函數(shù)變換、規(guī)范化、連續(xù)屬性離散化、屬性溝通和小波變換。
•數(shù)據(jù)規(guī)約包括屬性規(guī)約和數(shù)值規(guī)約。