幾乎每一個大的數(shù)據(jù)分析通過過濾在不同階段的數(shù)據(jù)開始。也許你只想考慮美國用戶,或網(wǎng)絡(luò)搜索,或結(jié)果點擊的搜索。不管是什么情況,你必須:
承認并明確指定你在做什么樣的過濾 計數(shù)在你的每一個步驟中有多少是被過濾
通常最好的方法來做后者實際上是計算所有你的指標,即使對你不包括的人口。然后你可以看看這些數(shù)據(jù)回答了像“查詢中哪部分被我的過濾刪除了?“的問題。
此外,尋找哪些被過濾了的例子對過濾步驟是必不可少的并且對您的分析是新穎的。當(dāng)你制定一個簡單數(shù)據(jù)排除規(guī)則的時候,很容易不小心包括了一些“好”的數(shù)據(jù)。
比率應(yīng)該有明確的分子和分母
許多有趣的指標是潛在測量們的比值。不幸的是,你的比值是什么往往是模糊的。例如,如果說一個網(wǎng)站上搜索的結(jié)果的點擊率,它是:
“點擊網(wǎng)站的次數(shù)/那個網(wǎng)站結(jié)果的數(shù)量 “點擊該網(wǎng)站的搜索結(jié)果頁面的數(shù)量“/”網(wǎng)站顯示的搜索頁面數(shù)量
當(dāng)你交流結(jié)果時,你必須清楚這一點。否則你的觀眾(和你!)將有與過去結(jié)果進行比較和正確解釋一個指標的麻煩。
教育你的消費者
你經(jīng)常會向那些不是數(shù)據(jù)專家的人展示你的分析和結(jié)果。你工作的一部分是教育他們?nèi)绾谓忉尯蛷哪愕臄?shù)據(jù)中得出結(jié)論。這可以達到各種目的,從確保他們理解置信區(qū)間到為什么某些測量在你的定義域里是不可靠的,到什么樣的典型影響大小是“好”和“壞”的變化,到了解樣本偏差效應(yīng)。
當(dāng)你的數(shù)據(jù)具有較高的被曲解或選擇性地列舉的風(fēng)險時這一點尤其重要。您負責(zé)提供上下文和一個完整的數(shù)據(jù)圖片,而不僅僅是消費者要求的數(shù)字。
同時做懷疑者和擁護者
當(dāng)你處理數(shù)據(jù)時,你必須做一個獲得見解的擁護者以及一個懷疑論者。你會希望在你觀察的數(shù)據(jù)中發(fā)現(xiàn)一些有趣現(xiàn)象。當(dāng)你發(fā)現(xiàn)一個有趣現(xiàn)象,你應(yīng)該問:“我能收集到什么其他數(shù)據(jù)顯示這有多么了不起?”和“我能找到什么來使它無效?“。尤其是你為真的想要一個特定回答的某人做分析的情況下,(例如“我的特征是了不起的”)你要扮演懷疑者來避免犯錯誤。
與同行分享第一,外部消費者第二
一個熟練的同行評審可以比你數(shù)據(jù)的消費者提供更有質(zhì)量不同的反饋和健全的檢查,特別是因為消費者通常有一個他們想得到的結(jié)果。理想的情況下,你會有一個知道你正在尋找的數(shù)據(jù)的同行,但即使是一個有這樣觀察數(shù)據(jù)經(jīng)驗的同行,大體上是非常有價值的。以前的觀點提出了一些方法來讓自己做正確類型的健全檢查和驗證。但與同行分享是迫使自己做所有這些事情的最好方法之一。同行在多維分析是有用的。在初期你能找到你的同伴所知道的事情,得到建議測量什么東西,和過去有哪些在這方面的研究。臨近結(jié)束時,同行很善于指出古怪、不一致,或者其他的困惑。
預(yù)期和接受無知和錯誤
我們能從數(shù)據(jù)中學(xué)到的東西有十分有限。NateSilver在信號和噪聲中指出,只有承認我們對于確定的限制,我們才可以取得更好的預(yù)測。承認無知是一種力量,但它通常不會立即得到回報。在當(dāng)時會感覺很糟糕,但最終你會贏得你有數(shù)據(jù)頭腦的同事和領(lǐng)導(dǎo)人的尊重。當(dāng)你犯了一個錯誤,并很晚發(fā)現(xiàn)(或太晚了!)會感覺更糟糕,但積極地承認你的錯誤將轉(zhuǎn)化為信譽。信譽是任何數(shù)據(jù)科學(xué)家的關(guān)鍵社會價值。
最后的想法
沒有什么縮減的建議列表可以是完整的,即使當(dāng)我們突破了前10名列表格式的障礙(對沒有計算的你們,這里有24個)。當(dāng)你將這些想法應(yīng)用于實際問題時,你會發(fā)現(xiàn)在你的領(lǐng)域中最重要的習(xí)慣和技術(shù),幫助你快速而正確地做這些分析的工具,以及你放在這個列表上的建議。確保你分享你所學(xué)到的東西,所以我們都可以成為更好的數(shù)據(jù)科學(xué)家。