糟糕的類別還可以人為排除數(shù)據(jù)。這經(jīng)常出現(xiàn)在犯罪統(tǒng)計(jì)上。隨時(shí)間退役,聯(lián)邦調(diào)查局用各種不同的方式定義了“強(qiáng)奸罪”。事實(shí)上,他們在指出什么是強(qiáng)奸這一點(diǎn)上做的如此之差,使得許多犯罪學(xué)家爭辯說這些統(tǒng)計(jì)資料完全不應(yīng)該被使用。一個(gè)糟糕的定義可能意味著犯罪被計(jì)入一個(gè)與期望不同的類別或根本不被計(jì)入。在處理那些含義往往隨心所欲的話題時(shí)格外注意這個(gè)問題,例如民族或種族。
字段名稱不明確
居住地是什么?是某個(gè)人生活的地方?還是他們繳稅的地方?是一個(gè)城市或者一個(gè)鄉(xiāng)鎮(zhèn)?數(shù)據(jù)中的字段名應(yīng)該盡可能具體,需要特別關(guān)注明顯具有兩個(gè)或更多含義的那些。即使你正確推斷出字段值代表什么意思,歧義也可能容易導(dǎo)致收集數(shù)據(jù)的人錄入錯(cuò)誤值。
不記錄數(shù)據(jù)出處
數(shù)據(jù)可以來自各種類型的個(gè)人和組織,包括企業(yè)、政府、非營利組織和瘋子陰謀論者,也可以以各種不同的方式收集,包括調(diào)查、傳感器和衛(wèi)星。它可能被鍵盤錄入,錄音或草草寫就。了解數(shù)據(jù)從哪里來能夠給你大量對其局限性的洞察。
例如,調(diào)查數(shù)據(jù)很少是全面無遺漏的。傳感器會(huì)隨精度改變。政府也常常不愿意提供無偏的信息。由于穿越前線的危險(xiǎn)性,來自一個(gè)戰(zhàn)爭地區(qū)的數(shù)據(jù)可能帶有強(qiáng)烈的地域偏見。更糟的是,這些不同來源往往串接在一起。學(xué)者有時(shí)將他們從政府得到的數(shù)據(jù)重新分布。醫(yī)生寫下的數(shù)據(jù)可能由護(hù)士更新密鑰。這個(gè)鏈條中的每個(gè)階段都有機(jī)會(huì)出現(xiàn)錯(cuò)誤。了解你的數(shù)據(jù)從哪里來。
存在可疑數(shù)字
如果你在數(shù)據(jù)中看到下面數(shù)字的任何一種,非常謹(jǐn)慎地對待它們:
65,535
2,147,483,647
4,294,967,295
555-3485
99999
其中每個(gè)數(shù)字都表示人或計(jì)算機(jī)的特定錯(cuò)誤。如果看到它們,確定你所認(rèn)為的是它們的實(shí)際含義。
數(shù)據(jù)粒度太粗
你已經(jīng)得到了州和你需要的縣,也有雇主和需要的員工。他們給你的是年度數(shù)據(jù),但你想要月度。在許多情況下,得到的數(shù)據(jù)對我們的目的來說匯總的太多。
數(shù)據(jù)一旦被匯總就不可能再分開。如果你得到的數(shù)據(jù)太粗,需要向來源尋求更具體的東西。他們可能沒有。如果有也可能無法或者不愿意給你。有許多聯(lián)邦數(shù)據(jù)集不能在地方層面上訪問,目的是保護(hù)可能由它們惟一標(biāo)識的個(gè)人隱私。(例如,某個(gè)單獨(dú)的索馬里國民生活在西德克薩斯州。)你可以做的就是詢問。
永遠(yuǎn)不應(yīng)該做的一件事情是把一年的數(shù)據(jù)劃分為12份,并稱之為“平均每個(gè)月”。這總是不正確的,不要這樣做。
總計(jì)與公布的匯總不同
想象一下,經(jīng)過長期的《信息自由法案》斗爭后,你得到了一個(gè)“完整的”警察使用武力事件列表。你打開它,發(fā)現(xiàn)它有2467行。太好了,是時(shí)候發(fā)表它了。事情不會(huì)那么快。在你發(fā)表任何來自該數(shù)據(jù)集的內(nèi)容之前,去找找上一次警署總長對他的部門使用武力的記錄。你可能發(fā)現(xiàn)在六周前的一次采訪中他說“少于2000次”,或者他給出了一個(gè)與數(shù)據(jù)集不一致的具體數(shù)字。
公開統(tǒng)計(jì)數(shù)據(jù)和原始數(shù)據(jù)之前這些各種各樣的差異可能是一個(gè)非常大的線索來源。很多時(shí)候答案相當(dāng)簡單。例如,你得到的數(shù)據(jù)可能和他說的不是同一時(shí)期,但有時(shí)你會(huì)發(fā)現(xiàn)他們在撒謊。無論怎樣,你應(yīng)該確保已公布的數(shù)字和你得到的數(shù)據(jù)總計(jì)一致。
電子表格包含65536行
一個(gè)舊版的Excel電子表格最多允許65536行。如果你收到一個(gè)這樣的數(shù)據(jù)集,幾乎可以確定數(shù)據(jù)被截?cái)嗔?。回去要其他的吧。較新版本的Excel允許1048576行,你不太可能處理超過這個(gè)限制的數(shù)據(jù)。
電子表格包含1900或1904年的日期
由于一些鮮為人知的原因,Excel默認(rèn)使用1900年1月1日為起始計(jì)算所有其他日期,在Mac上使用Excel時(shí)則是1904年1月1日。Excel中的數(shù)據(jù)有多種可能被錯(cuò)誤輸入或計(jì)算的方式,導(dǎo)致顯示這兩個(gè)日期之一。如果你在數(shù)據(jù)中發(fā)現(xiàn)了它們,這可能是一個(gè)問題。
文本被轉(zhuǎn)換成數(shù)值
并不是所有的數(shù)字符號都是數(shù)值。例如,美國人口普查局使用“FIPS代碼”標(biāo)識美國的每個(gè)地方。這些代碼長度不同,都是數(shù)字形式的。然而,它們不是數(shù)值。037是洛杉磯的FIPS代碼,它不是數(shù)字37,而且數(shù)字37也是一個(gè)有效的FIPS代碼,代表北卡羅來納州。Excel和其他電子表格經(jīng)常會(huì)犯的錯(cuò)誤是假設(shè)數(shù)字符號就是數(shù)值,并去掉前面的0。如果你試圖轉(zhuǎn)換文件格式或與其他數(shù)據(jù)集合并,這會(huì)帶來各種問題。注意數(shù)據(jù)中可能會(huì)發(fā)生這種情況的部分。