從一個群體樣本中獲取群體的整體特征是許多研究設(shè)計和統(tǒng)計方法發(fā)展的基礎(chǔ)。根據(jù)數(shù)據(jù)收集的算法、調(diào)研問題的類型和調(diào)研的目標,分析樣本調(diào)研數(shù)據(jù)的方法各不相同。這篇文章會簡潔明了的分析調(diào)研數(shù)據(jù)過程中的各種問題,同時會說明在一個完整的調(diào)研數(shù)據(jù)分析報告中應(yīng)該包含什么。這些并不是基本準則而只是一些建議。
調(diào)研數(shù)據(jù)分析的過程應(yīng)該包括以下步驟:
1、數(shù)據(jù)驗證和探索性分析
2、確認性分析
3、數(shù)據(jù)解釋
4、數(shù)據(jù)分析報告存檔(用于將來的分析)
數(shù)據(jù)驗證和探索性分析
數(shù)據(jù)驗證主要負責(zé)確認調(diào)查問卷被正確的完成,并且調(diào)研數(shù)據(jù)具有一致性和邏輯性。以下是一些建議性的數(shù)據(jù)驗證的內(nèi)容,你應(yīng)該去做但并不局限于此:
1、超出范圍的錄入:這些通常是由于較差的問卷設(shè)計或者數(shù)據(jù)輸入錯誤。比如一個詢問受訪者年齡的問題得到200歲的未分類結(jié)果,這是絕不可能的。
2、邏輯上不一致的數(shù)據(jù):當兩個或者多個變量/問題的答案放在一起時不成邏輯。問卷設(shè)計過程中運用分支邏輯方法可以幫助避免這種數(shù)據(jù)的不一致性,盡管不能完全避免。
3、編碼:這將包括所有的分類結(jié)果都被編碼。比如,當一個有意義的預(yù)分配標簽沒有被分配時,結(jié)果將沒有數(shù)值。如果需要將一些調(diào)研中的開放性問題分類,人類的專業(yè)知識,可能再加上定性分析工具的幫助,可以將問題很好的分組。
一旦上述的檢驗內(nèi)容都已完成,探索性數(shù)據(jù)圖表就可以產(chǎn)生。在探索性分析的過程中,數(shù)據(jù)清理的戰(zhàn)線被拉長,因為分析總結(jié)可能帶來其他的問題,一旦真的出現(xiàn)問題,你應(yīng)該在探索性分析中研究這幾個方面:
1、奇怪或者極端的數(shù)值,可能是需要更正的錯誤。
2、解釋問題的主要圖表。比如是不是在某種條件下男性的比例就是比不在這種條件下的比例高?
3、跡象表明修改變量后結(jié)果會更加清晰。比如進行重新編碼或轉(zhuǎn)換。
4、圖表可能表明新設(shè)的問題會比原來的問題更具有說明性,這對于生成假設(shè)非常重要。
當簡單隨機抽樣不能夠作為統(tǒng)計方法調(diào)整的方式,比如有時加權(quán)方法對于得到明確的分析結(jié)果十分必要。但是,調(diào)研者通常在開始獲取信息時就運用了很好的統(tǒng)計方法因而不需要調(diào)整,不過以下是一些常見的統(tǒng)計調(diào)整方法:
1、加權(quán): 在調(diào)整的數(shù)據(jù)中,有些被調(diào)查者或者問題或多或少的會比其他的調(diào)查者和問題更加重要。這就保證了數(shù)據(jù)更能夠代表調(diào)查群體的特性。典型的做法是根據(jù)調(diào)查者/事件在樣本中被選中概率來賦予相應(yīng)的權(quán)重。
2、變量重組:這種方法將在原有變量的基礎(chǔ)上,通過重新定義和重新分類的方法產(chǎn)生新的變量。比如,解釋一個問題所需要的分類科目可以合并重組為更少的分類科目,就像我們可以把十個分類科目合并成兩個。
3、維度轉(zhuǎn)換:根據(jù)可比性或兼容性的目標,調(diào)研數(shù)據(jù)會使用不同的長度和種類。
確認性分析
探索性分析可以描述發(fā)生了什么,但是這只是試探性的。我們需要確認圖形信息是能反映真實情況的,因此我們需要不確定性預(yù)測,比如通過標準誤差或置信區(qū)間來預(yù)測樣本采集中的誤差。從這個角度講我們需要統(tǒng)計性分析。
統(tǒng)計性分析的步驟取決于以下幾個方面:
1、調(diào)研的設(shè)計思路
2、響應(yīng)變量的類型
3、探索性變量的類別
標準的抽樣調(diào)查數(shù)據(jù)分析包括計算不同變量的比例以及它們的標準誤差。連續(xù)性因變量可以通過簡單線性回歸或者多元線性回歸進行分析。如果變量間并沒有很好的線性關(guān)系,有時會用非線性回歸的分析方法。對于有序變量之間的關(guān)系研究,我們可以運用Spearman秩相關(guān)或者Kendall’s tau的統(tǒng)計方法。對于名義變量的研究,包括對每個變量類別所占比例的統(tǒng)計,同時可以根據(jù)Chi-square tests(卡方檢驗)和Fisher’s exact test(Fisher精確檢驗)的方法探尋兩個名義變量之間的關(guān)系。對于因變量為二分變量,自變量多于一個的情況,我們通常采用Logistic回歸的方法進行分析。此外,如果因變量是有序的,我們可以采取有序Logistic回歸的方法。當調(diào)研底層聚集大量觀察值時,可以采用多層建模的方法進行分析。