不切實際的數(shù)據(jù)精度
在自然科學以外,很少有常規(guī)測量可以得到超過兩位小數(shù)的精度。如果一個擺在你桌子上的數(shù)據(jù)集聲稱顯示一家工廠7位小數(shù)點的排放量,那么幾乎可以肯定它是從其他值估計的。這本來可能不是問題,但估計的透明度很重要,他們往往是錯誤的。
存在令人費解的離群值
我最近創(chuàng)建了一個數(shù)據(jù)集,有關互聯(lián)網(wǎng)上消息傳遞到不同目的地花費的時長。所有的時間都在0.05-0.8秒之間,只有三個例外。這三個都超過了5000秒。這是數(shù)據(jù)生產(chǎn)過程中出現(xiàn)差錯的重要標志。在這個例子中,我編寫代碼的錯誤導致了所有其他消息被發(fā)送和接收時持續(xù)計數(shù)的一些失敗。
像這樣的離群值會大大搞砸你的統(tǒng)計——尤其當使用平均值時。(你可能應該使用中位數(shù)。)每當?shù)玫揭粋€新的數(shù)據(jù)集時,最好看看最大值和最小值,確保它們在合理范圍內(nèi)。如果數(shù)據(jù)能自我解釋,你也可能想要做一些統(tǒng)計上更嚴格的分析,使用標準差或中位數(shù)偏差。
從這里還可以得到一個額外好處,離群值往往是一個找到故事線索很棒的方式。如果互聯(lián)網(wǎng)上確實有一個需要花費5000倍的時間發(fā)送消息的地區(qū),這將是一個驚人的故事。
指數(shù)掩蓋了潛在差異
想要跟隨一個問題趨勢的分析師經(jīng)常創(chuàng)建不同值的指數(shù)以追蹤進展。使用指數(shù)本來沒有問題,它們可以具有很強的解釋力。然而,重要的是要格外小心不同度量相結(jié)合的指數(shù)。
例如,聯(lián)合國性別不平等指數(shù)(GII)包含了與女性平等進展有關的幾個量度。其中一個是“議會中的女性表征”。世界上有兩個國家法律規(guī)定了議會中的性別表征:中國和巴基斯坦。結(jié)果這兩個國家在該指數(shù)上表現(xiàn)得遠好于在其他所有方面都相似的國家。這公平嗎?其實一點也不重要,因為它困擾的是那些不了解這一原因的人。GII和類似的指數(shù)應該始終被用于仔細分析以確保潛在變量不會以意想不到的方式改變指數(shù)。
結(jié)果被P值篡改
P值篡改是人為操縱這個閾值,使結(jié)果被認為具有統(tǒng)計顯著性,這樣研究會顯示出更強的結(jié)論。在這個問題上已經(jīng)有一些很不錯的報告。
如果你要發(fā)布一項研究的結(jié)果,需要理解p值是什么,它有什么含義,然后做出關于結(jié)果是否值得使用的合理決定。許許多多的垃圾研究結(jié)果在出版物上出現(xiàn),就是因為記者不懂p值。
本福德定律失效
本福德定律是指小數(shù)字(1,2,3)出現(xiàn)在一個數(shù)字開頭的頻率遠高于大數(shù)字(7,8,9)。雖然實際上容易被誤用,但理論上本福德定律可以用于檢測會計實踐或選舉結(jié)果中的異常。如果懷疑一個數(shù)據(jù)集創(chuàng)建或修改的目的是為了欺騙,本福德定律是優(yōu)秀的第一次測試,但是在得出數(shù)據(jù)被操縱的結(jié)果之前,你應該總是和專業(yè)人士一起驗證它。
太完美而不真實
還沒有公共輿論的全球數(shù)據(jù)集。沒有人知道生活在西伯利亞的確切人口數(shù)字。犯罪統(tǒng)計數(shù)據(jù)沒有跨越國界的可比性。美國政府不會告訴你持有多少核材料。
提防任何自稱代表你不可能知道的東西的數(shù)據(jù)。它不是數(shù)據(jù),而是某人的估計,并且很可能是錯誤的。然后再一次……它可能是個故事,因此找專業(yè)人士檢查它。
程序員應該幫助你解決的問題
數(shù)據(jù)匯總到錯誤的分類或地理區(qū)域
有時你的數(shù)據(jù)細節(jié)已經(jīng)在適當級別上(既不太粗也不太細),但有時被匯總到了你不想要的組。有一個經(jīng)典的例子,數(shù)據(jù)是按照郵政編碼匯總的,而你想要按照城市街區(qū)。在許多情況下,沒有得到更細粒度的數(shù)據(jù)時這是一個不可能解決的問題,但是有時數(shù)據(jù)可以按比例從一個組映射到另一個。這必須在仔細理解此過程可能引入的誤差范圍后進行。如果你得到匯總到錯誤組的數(shù)據(jù),問一個程序員是否可能重新匯總它。
掃描文檔中的數(shù)據(jù)
多虧信息自由法案,很多時候可以要求政府提供數(shù)據(jù)——即使他們真的不想這么做。這時很常見的手法是給你頁面的掃描或照片。這些可能是實際的圖像文件,或者更可能的是,收集起來制成PDF文件。
從圖像中提取文本,并轉(zhuǎn)成數(shù)據(jù)是可能的。這通過一個被稱為光學字符識別(OCR)的過程完成?,F(xiàn)代OCR經(jīng)常可以達到幾乎100%的準確性,但這很大程度上取決于文檔的質(zhì)量。任何時候使用OCR提取數(shù)據(jù),你會希望有一個驗證結(jié)果是否和原始文件一致的過程。