樣本有偏差
就像非隨機(jī)樣本那樣,有偏差的樣本來(lái)自對(duì)抽樣執(zhí)行過(guò)程的缺乏關(guān)注,或者故意扭曲它。一個(gè)樣本的偏差可能因?yàn)樗诨ヂ?lián)網(wǎng)上實(shí)施,而較窮的人們比起富人來(lái)較少使用網(wǎng)絡(luò)。調(diào)查結(jié)果必須仔細(xì)加權(quán)以確保它們按比例覆蓋了任何可能扭曲結(jié)果的人口細(xì)分群體。這幾乎不可能做到完美,所以往往是錯(cuò)誤的。
數(shù)據(jù)已經(jīng)被手工編輯
手工編輯和人工錄入數(shù)據(jù)幾乎是相同的,除了發(fā)生在事實(shí)之后,以及往往是善意的。事實(shí)上,數(shù)據(jù)經(jīng)常被手工編輯以試圖修復(fù)人工錄入的錯(cuò)誤。如果編輯的人不具有關(guān)于原始數(shù)據(jù)的完整知識(shí),問(wèn)題就會(huì)悄然出現(xiàn)。我曾看到有人自發(fā)把數(shù)據(jù)集中的姓名由Smit“改正”成Smith。那個(gè)人真的叫Smith嗎?我不知道,但我知道這個(gè)值現(xiàn)在是一個(gè)問(wèn)題了。沒(méi)有修改記錄,很難驗(yàn)證它應(yīng)該是什么。
手工編輯的問(wèn)題也是為什么總是需要確保數(shù)據(jù)出處有據(jù)可查的原因之一。缺乏出處說(shuō)明可能有人從中搞了什么。學(xué)者往往從政府獲取數(shù)據(jù),修改它,然后重新分發(fā)給記者。沒(méi)有更改記錄就不能了解他們的改動(dòng)是否出于正當(dāng)理由。如果可以,總是試圖得到數(shù)據(jù)的最初來(lái)源,或者至少你能拿到的最早版本,在其上進(jìn)行你自己的分析。
通貨膨脹扭曲數(shù)據(jù)
貨幣通貨膨脹意味著錢(qián)隨時(shí)間改變價(jià)值。沒(méi)有辦法只通過(guò)看得知數(shù)字是否經(jīng)過(guò)“通脹調(diào)整”。如果你得到數(shù)據(jù)而不確定是否已經(jīng)調(diào)整,檢查你的數(shù)據(jù)來(lái)源。如果還沒(méi)有,你可能要進(jìn)行調(diào)整。這個(gè)通貨膨脹調(diào)節(jié)器可能是一個(gè)很好的開(kāi)始。
自然/季節(jié)變動(dòng)扭曲數(shù)據(jù)
許多類(lèi)型的數(shù)據(jù)會(huì)由于某些潛在作用自然波動(dòng)。這方面最著名的例子是季節(jié)性的就業(yè)波動(dòng)。經(jīng)濟(jì)學(xué)家已經(jīng)開(kāi)發(fā)了各種方法抵消這種變化。這些方法的細(xì)節(jié)并不是特別重要,重要的是你要知道使用的數(shù)據(jù)是否已經(jīng)進(jìn)行過(guò)“季節(jié)性調(diào)整”。如果沒(méi)有,而你又希望比較不同月份的就業(yè)情況,你可能會(huì)想要從來(lái)源得到調(diào)整后的數(shù)據(jù)。(自己調(diào)整它比通脹更難。)
人為操縱的時(shí)間范圍
數(shù)據(jù)源可以通過(guò)提供在某個(gè)特定時(shí)間停止或開(kāi)始的數(shù)據(jù)有意無(wú)意地扭曲世界。一個(gè)強(qiáng)有力的例子可見(jiàn)2015年廣泛報(bào)道的“全國(guó)犯罪浪潮”。并沒(méi)有犯罪浪潮,有的只是在特定城市中僅與過(guò)去幾年對(duì)比出現(xiàn)的一些峰值。只要記者檢查更寬的時(shí)間范圍就會(huì)看到,事實(shí)上10年前美國(guó)各處的暴力犯罪更多,而20年前幾乎是翻倍的.
如果你的數(shù)據(jù)涵蓋時(shí)間范圍有限,盡量避免從最開(kāi)始的時(shí)間段開(kāi)始計(jì)算。如果數(shù)據(jù)只有幾年(或者幾個(gè)月,或者幾天),確保沒(méi)有做出增加一個(gè)額外數(shù)據(jù)點(diǎn)就會(huì)失效的對(duì)比。
人為操縱的參考范圍
為了政治目的,犯罪統(tǒng)計(jì)數(shù)字經(jīng)常通過(guò)與犯罪率高的年份對(duì)比人為操縱。這可以表示為變化(自2004年以來(lái)下降了60%)或者指數(shù)(40,其中2004年 = 100)。在上述的兩種情況中,2004年可能是也可能不是一個(gè)適當(dāng)?shù)膶?duì)比年份。該年可能有異常高的犯罪率。
這也發(fā)生在地區(qū)間的對(duì)比上。如果我想要一個(gè)國(guó)家看起來(lái)很糟糕,只要表現(xiàn)有關(guān)它的數(shù)據(jù)和在相關(guān)方面做的最好的國(guó)家數(shù)據(jù)。
這個(gè)問(wèn)題往往出現(xiàn)在人們有強(qiáng)烈確認(rèn)偏誤的主題中。(“就像我認(rèn)為的,犯罪率正在上升!”)只要有可能,嘗試從幾個(gè)不同的起始點(diǎn)對(duì)比,看看數(shù)字如何變化。以及無(wú)論做什么,不要自己用這種方法得出你認(rèn)為很重要的觀點(diǎn),這是不可原諒的。
第三方專(zhuān)業(yè)人士應(yīng)該幫助你解決的問(wèn)題
作者不值得信任
有時(shí)候你唯一能得到的數(shù)據(jù)來(lái)自一個(gè)不可信賴的數(shù)據(jù)源。在某些情況下這可以接受。唯一知道槍支制造數(shù)量的人只能是制造者自己。不過(guò),如果你的數(shù)據(jù)來(lái)自一個(gè)有問(wèn)題的制作者,那么每次都找另一位專(zhuān)業(yè)人士檢查它,更好的是檢查兩到三次。不要發(fā)布來(lái)自一個(gè)有偏向的來(lái)源的數(shù)據(jù),除非有大量確實(shí)的證據(jù)。
收集過(guò)程不透明
錯(cuò)誤假設(shè)、誤差或徹底的虛假很容易出現(xiàn)在數(shù)據(jù)收集過(guò)程中。為此,使用的方法保持透明非常重要。你很少確切了解一個(gè)數(shù)據(jù)集如何數(shù)據(jù),但是包含不切實(shí)際的精度或太完美的數(shù)字可能會(huì)暗示存在問(wèn)題。
有時(shí)來(lái)源故事可能只是令人懷疑:這樣那樣的學(xué)者真的采訪了來(lái)自芝加哥南邊的50名活躍團(tuán)伙成員嗎?如果數(shù)據(jù)收集方式看起來(lái)似乎有問(wèn)題,而你的數(shù)據(jù)來(lái)源不能提供確實(shí)的出處,那么你應(yīng)該與另一位專(zhuān)業(yè)人士驗(yàn)證該數(shù)據(jù)是否按照說(shuō)明的方法合理收集。