1)在數(shù)據(jù)可視化項目中給數(shù)據(jù)清洗留出足夠的時間, 特別是在需要處理多個數(shù)據(jù)源, 需要手工錄入或者OCR數(shù)據(jù), 進(jìn)行不同類別的配比, 或者需要處理一些非標(biāo)準(zhǔn)格式時, 需要留出更多的時間。
2)Google Refine (編者:需要翻墻)是一個很好的數(shù)據(jù)清洗工具, 盡管在有些地方, 特別是處理非表格化數(shù)據(jù)時有些不足。 此外, 還有一些數(shù)據(jù)清洗專用的工具如Data Wranger 和 Mr. Data Converter。 不過, 很多的數(shù)據(jù)清洗工作仍然需要你熟悉腳本語言如Python或者需要你在Excel里進(jìn)行一些手工工作。 記得把你的腳本存檔, 你以后肯定用得上。
3)用簡單的一些散點(diǎn)圖或者直方圖來發(fā)現(xiàn)一些超正常范圍的錯誤數(shù)據(jù)。