數(shù)據(jù)可視化是數(shù)據(jù)探索以及數(shù)據(jù)表現(xiàn)的重要方式, 然而, 對于數(shù)據(jù)可視化的開發(fā)者來說, 依然有很多挑戰(zhàn)要去面對。 這些迎接這些挑戰(zhàn)的方法, 則是很多專業(yè)的數(shù)據(jù)可視化開發(fā)者不愿意讓別人知道的秘密。 ClearStory Data的兩位數(shù)據(jù)可視化開發(fā)人員Nate Argrin和 Nick Rabinowitz 在 netmagzine.com上分享了他們總結(jié)出來的數(shù)據(jù)可視化開發(fā)的7個秘密以及在實踐中如何應(yīng)對的方式。 IT經(jīng)理網(wǎng)編譯如下:
秘密一: 現(xiàn)實中的數(shù)據(jù)往往很丑
大部分的數(shù)據(jù)可視化的教程, 都會讓你輕松地從一個原始數(shù)據(jù)集開始。 無論你是學(xué)習(xí)基本的柱狀圖還是力導(dǎo)向的網(wǎng)絡(luò)圖, 你的數(shù)據(jù)都是干凈的,經(jīng)過整理的數(shù)據(jù)。 這些完美的JSON或者CSV文件就像電視里的廚藝節(jié)目中的灶臺那樣干凈整潔。而實際上, 當(dāng)你在處理現(xiàn)實中的真正的數(shù)據(jù)是, 你80%的時間得用來搜尋, 獲取, 載入, 清洗以及轉(zhuǎn)換你的數(shù)據(jù)。
這樣的過程, 有時候可以用自動化的工具來完成。 不過, 差不多任何需要針對兩個以上的數(shù)據(jù)集進(jìn)行清洗的工作總會需要或多或少的人工的工作。有很多工具能夠把XLS文件轉(zhuǎn)化為XML的格式或者把時間戳轉(zhuǎn)換為其他日期格式。但是, 要想把一個公司的內(nèi)部使用的銷售類型與競爭對手進(jìn)行比對, 或者對輸入錯誤進(jìn)行檢查, 或者對不同的Encoding或者OCR產(chǎn)生出來的文字進(jìn)行檢查時, 就只能靠手工來處理了。