中國(guó)IDC圈1月4日?qǐng)?bào)道:對(duì)真實(shí)世界數(shù)據(jù)中存在的問(wèn)題,以及有關(guān)如何解決這些問(wèn)題建議的一份詳盡參考。這些問(wèn)題中大部分是可以解決的??赡苡幸恍o(wú)法解決,這意味著你不應(yīng)該使用那些數(shù)據(jù)。別人不能解決,但是你可以帶著注意事項(xiàng)繼續(xù)使用數(shù)據(jù)。為了澄清這些含糊之處,這本指南按照最有能力解決問(wèn)題的人組織,那可能是你,你的數(shù)據(jù)來(lái)源,或者一個(gè)專(zhuān)家等等。如果那個(gè)人無(wú)法幫助你,在每個(gè)問(wèn)題的描述中也可以找到如何去做的建議。
你可能不能對(duì)遇到的每個(gè)數(shù)據(jù)集檢查所有這些問(wèn)題。如果你試圖這樣做,可能永遠(yuǎn)得不到任何可以發(fā)布的內(nèi)容。然而,熟悉這些可能遇到的問(wèn)題,會(huì)讓你更好地在犯錯(cuò)誤之前識(shí)別問(wèn)題。
應(yīng)該由數(shù)據(jù)來(lái)源解決的問(wèn)題
值缺失
要小心空白或“null”值,除非你確信了解它們的意思。如果數(shù)據(jù)是年度的,該值代表那一年沒(méi)有被收集?如果是一個(gè)調(diào)查,是被訪(fǎng)者拒絕回答問(wèn)題了嗎?
每次使用包含缺失值的數(shù)據(jù)時(shí),你應(yīng)該問(wèn)問(wèn)自己:“我是否知道沒(méi)有這個(gè)數(shù)據(jù)意味著什么?”如果答案是否,你應(yīng)該問(wèn)問(wèn)數(shù)據(jù)源。
零替換缺失值
比缺失值更糟糕的是使用任意值代替。這可能是由于某個(gè)人沒(méi)有考慮含意進(jìn)行的操作,或者無(wú)法處理缺失值的自動(dòng)處理過(guò)程導(dǎo)致的結(jié)果。無(wú)論怎樣,如果你在一系列數(shù)字中看到多個(gè)0,應(yīng)該問(wèn)問(wèn)自己值是否真的是0,還是代表了“沒(méi)有”。如果無(wú)法確定,問(wèn)問(wèn)你的數(shù)據(jù)源。
本應(yīng)有的數(shù)據(jù)缺失
有時(shí)數(shù)據(jù)缺失不能從數(shù)據(jù)集本身看出來(lái),但仍然可以知道,因?yàn)槟阒滥男?shù)據(jù)有關(guān)。如果有一個(gè)覆蓋整個(gè)美國(guó)的數(shù)據(jù)集,你可以檢查它以確保50個(gè)州都存在。(別忘了領(lǐng)土問(wèn)題——如果數(shù)據(jù)集包含波多黎各,50就不是正確的數(shù)字。)如果你在處理一個(gè)棒球運(yùn)動(dòng)員的數(shù)據(jù)集,確保球隊(duì)數(shù)量是你期望的。驗(yàn)證幾個(gè)你知道的球員是否包含其中。如果某些東西看起來(lái)缺失了,相信你的直覺(jué),再次檢查來(lái)源。你的數(shù)據(jù)宇宙可能比你認(rèn)為的更小。
重復(fù)行或值
如果同一行在數(shù)據(jù)集中出現(xiàn)兩次,你應(yīng)該找出原因。有時(shí)不一定是整行重復(fù)。一些市場(chǎng)活動(dòng)財(cái)務(wù)數(shù)據(jù)包括“修訂”,使用與原始事務(wù)同樣的唯一標(biāo)識(shí)符。如果你不知道這些,那么對(duì)數(shù)據(jù)進(jìn)行的計(jì)算將會(huì)是錯(cuò)誤的。如果某些東西看起來(lái)像是唯一的,驗(yàn)證它。如果你發(fā)現(xiàn)它不是,問(wèn)問(wèn)你的數(shù)據(jù)源為什么。
拼寫(xiě)不一致
拼寫(xiě)是檢查數(shù)據(jù)是否手工編制最明顯的方法之一。不要只看人名——那些往往是檢查拼寫(xiě)錯(cuò)誤最困難的地方。取而代之的是尋找那些城市或州名稱(chēng)不一致的地方(Los Angelos是一個(gè)很常見(jiàn)的錯(cuò)誤)。如果發(fā)現(xiàn)問(wèn)題,就可以確信數(shù)據(jù)是手工編制或編輯的,而這就是對(duì)它保持懷疑態(tài)度的原因。手工編輯的數(shù)據(jù)最有可能出現(xiàn)錯(cuò)誤。這并不意味著不應(yīng)使用它,而是你可能需要手動(dòng)更正這些錯(cuò)誤,或在報(bào)道中說(shuō)明它們。
人名順序不一致
你的數(shù)據(jù)是否包含中東或東亞人名?是否確定姓氏總在同一個(gè)地方?數(shù)據(jù)集中是否存在留名方式成名的人?這些都是數(shù)據(jù)創(chuàng)建者習(xí)慣性犯錯(cuò)的地方。如果你正在使用不同種族人名的列表,在假設(shè)合并first_name和last_name列不會(huì)帶來(lái)發(fā)布問(wèn)題之前,你至少應(yīng)當(dāng)進(jìn)行一個(gè)粗略的檢查。
日期格式不一致
下面哪個(gè)日期是9月份的:
10/9/15
9/10/15
如果第一個(gè)由歐洲人書(shū)寫(xiě),第二個(gè)由美國(guó)人書(shū)寫(xiě),那么它們都是。不知道數(shù)據(jù)歷史的情況下無(wú)法確定。了解你的數(shù)據(jù)來(lái)自哪兒,以及確保它們都由來(lái)自同個(gè)地方的人們創(chuàng)建。
單位未指定
weight和cost都無(wú)法傳遞任何關(guān)于測(cè)量單位的信息。不要太著急假設(shè)數(shù)據(jù)是在美國(guó)產(chǎn)生的,使用磅和美元。科學(xué)數(shù)據(jù)通常采用公制計(jì)量單位。國(guó)外商品價(jià)格可能用當(dāng)?shù)刎泿?。如果?shù)據(jù)沒(méi)有說(shuō)明單位,回到來(lái)源并找出它們。即使聲明了單位,也要注意其含義可能隨時(shí)間轉(zhuǎn)變。2010年的1美元并不是現(xiàn)在的1美元。1短噸(ton)不是1長(zhǎng)噸(ton)也不是1公噸(tonne)。
分類(lèi)
小心那些看起來(lái)只有true和false,但實(shí)際并非如此的數(shù)據(jù)。這通常在調(diào)查中,拒絕或無(wú)回答也是有效——并且有意義——的值。另一個(gè)常見(jiàn)的問(wèn)題是類(lèi)別其他的用法。如果數(shù)據(jù)集中的類(lèi)別是一些國(guó)家和其他,這是什么意思?這意味著收集數(shù)據(jù)的人不知道正確答案嗎?他們是否在國(guó)際水域?外籍人士?或者難民?