你應(yīng)該解決的問題
文本亂碼
計算機以數(shù)字表示所有字幕。編碼問題是在用一組特定數(shù)字表示文本(稱為“編碼”)時出現(xiàn)的問題,而你不知道它是什么。這導(dǎo)致一種叫亂碼的現(xiàn)象,讓數(shù)據(jù)中的文本看起來像垃圾,或者像這樣:???。
絕大多數(shù)情況下你的文本編輯器或電子表格程序會找出正確的編碼,然而,當你想要發(fā)布某個中間包含奇怪字符的人名時,問題就會出現(xiàn)。數(shù)據(jù)源應(yīng)該能夠告訴你數(shù)據(jù)是如何編碼的。如果他們不能,有一些相當可靠的方法可以猜測編碼,去問一個程序員吧。
PDF文件中的數(shù)據(jù)
大量數(shù)據(jù)——尤其是政府數(shù)據(jù)——只能以PDF格式提供。如果你的PDF中包含真正的文本數(shù)據(jù),有幾個不錯的選擇提取它。(如果你得到的是掃描文檔,那是完全不同的問題。)一個優(yōu)秀的免費工具是Tabula。然而,如果你有Adobe Creative Cloud,也可以訪問Acrobat Pro,它有一個非常棒的特性是將PDF中的表格導(dǎo)出為Excel。這兩種方法應(yīng)該可以從PDF中提取大多數(shù)表格數(shù)據(jù)。
數(shù)據(jù)粒度太細
這與數(shù)據(jù)粒度太粗正相反。在這種情況下,你得到城市的數(shù)據(jù),但你想要州的,或者你得到了月度數(shù)據(jù)但你想要年度。幸運的是,這通常相當簡單直接。
可以通過使用Excel或Google文檔中的透視表功能,使用SQL數(shù)據(jù)庫或自己寫代碼匯總數(shù)據(jù)。透視表是一個極好的工具,每個記者都應(yīng)該學(xué)習它。但它也有局限性。在處理異常大的數(shù)據(jù)集或匯總到特別的組時,你應(yīng)該找個程序員問問,他們可以手工創(chuàng)建一個更容易驗證和復(fù)用的解決方案。
人工錄入數(shù)據(jù)
人工錄入的數(shù)據(jù)一般至少綜合存在10條這里其他主題描述的問題。沒有什么比讓一個人錄入數(shù)據(jù)更能搞砸它的方式了。例如,我曾得到伊利諾伊州庫克縣完整的養(yǎng)狗許可證數(shù)據(jù)庫,系統(tǒng)的創(chuàng)建者不是要求主人從列表里選擇一個品種來為他們的狗注冊,而是簡單地給出一個文本框,讓他們自行輸入。結(jié)果該數(shù)據(jù)庫里的吉娃娃至少有250種拼寫方式。即使有最好的工具可用,這樣雜亂的數(shù)據(jù)也不能保留,它實際上毫無意義。狗數(shù)據(jù)也許不那么重要,但你不會希望它發(fā)生在士兵受傷或股票行情數(shù)據(jù)上。小心人工錄入的數(shù)據(jù)。
基于缺失值計算的匯總
想象一個數(shù)據(jù)集,它有100行,還有一列名為cost。cost列中有50行為空,該行的平均值是什么?是sum_of_cost / 50還是sum_of_cost / 100?沒有一個確定的答案。一般來說,如果你打算計算缺失值列的匯總,安全的方法是把缺失的行過濾掉,但是注意不要比較兩個不同行缺失的列的匯總值!在某些情況下缺失值可以被合理地解釋為0,如果你不確定,問一下專業(yè)人士,或者干脆別這么做。
這是一個你可能在分析中犯的錯誤,但也可能是別人犯錯然后傳遞給你們,所以如果數(shù)據(jù)已經(jīng)帶有計算好的匯總,當心它們。
樣本不隨機
非隨機抽樣誤差發(fā)生在調(diào)查或其他抽樣數(shù)據(jù)集不能覆蓋全體人口時,無論是故意的還是無意的。這可能有各種原因,從一天中的時間到被訪者的母語,它是社會學(xué)研究中常見的誤差來源。原因也可能不太明顯,例如一名研究者認為他們有一個完整的數(shù)據(jù)集,但是選擇只處理其中的一部分。如果原始數(shù)據(jù)集因各種原因不完整,那么從樣本中得到的任何結(jié)論都不正確。惟一可以修復(fù)一個非隨機樣本的方法是不使用該數(shù)據(jù)。
誤差范圍太大
我所知道導(dǎo)致更多報道誤差的問題除草率使用大誤差范圍(MOE)數(shù)據(jù)之外沒有其他。MOE通常與調(diào)查數(shù)據(jù)有關(guān)。記者最可能遇到它的地方是在使用投票數(shù)據(jù)或美國人口普查局的美國社區(qū)調(diào)查(ACS)數(shù)據(jù)時。MOE是對可能真實值范圍的量度。它可以被表示成數(shù)字(400 +/- 80)或百分比(400 +/- 20%)。相關(guān)人群越小,MOE越大。例如,根據(jù)2014.5年度ACS估計,生活在紐約的亞洲人數(shù)量為1106,989 +/- 3,526(0.3%),菲律賓人數(shù)量為71,969 +/- 3088(4.3%),薩摩亞人為203 +/- 144(71%)。
前兩個數(shù)字可以安全地發(fā)表,第三個數(shù)字永遠不應(yīng)該用在公開報道中。關(guān)于一個數(shù)字何時不應(yīng)該被使用的規(guī)則是不存在的,但是作為經(jīng)驗,你應(yīng)該謹慎使用任何MOE超過10%的數(shù)據(jù)。
誤差范圍未知
有時問題并不是誤差范圍太大,而是首先就沒有人計算這個值。這是不科學(xué)的民意調(diào)查出現(xiàn)的問題。不計算MOE就無法知道結(jié)果有多準確。作為一般規(guī)則,任何時候得到來自調(diào)查的數(shù)據(jù)都應(yīng)該問問MOE是什么。如果來源不能告訴你,這些數(shù)據(jù)可能不值得用于任何認真的分析。