測兩遍,甚至更多
尤其是如果您想要捕捉一個新現(xiàn)象,試圖用多種方式測量同樣的底層數(shù)據(jù)。然后,檢查這多個測量結(jié)果是否一致。通過使用多種測量,您可以鑒別測量或日志記錄代碼中的錯誤,底層數(shù)據(jù)的意外特征,或過濾出一些重要的步驟。如果您用這些測量方法測量不同的數(shù)據(jù)源,那將更好。
檢查再現(xiàn)性
分割和一致性隨著時間的推移是檢查再現(xiàn)性的特定例子。如果一個現(xiàn)象是重要的和有意義的,你應該看到它穿過不同的用戶群體和時間。但再現(xiàn)性意味著比這更好。如果您正在構建數(shù)據(jù)模型,則希望這些模型在基礎數(shù)據(jù)中的小擾動上保持穩(wěn)定。使用不同的時間范圍或隨機的子樣本的數(shù)據(jù)將告訴你這個模型如何可靠/可重復。如果它是不可重復的,你可能沒有捕捉到一些產(chǎn)生了這個數(shù)據(jù)基本的過程。
檢查與過去測量的一致性
通常你會計算一個與過去被用來計數(shù)相似的指標。你應該比較你的指標和在過去報告中的指標,即使這些測量是在不同的用戶群。例如,如果你正在測量特殊人群的搜索量,并且測量值比普遍接受的數(shù)字要大得多,那么你需要調(diào)查。你的數(shù)字可能是正確的,但現(xiàn)在你必須做更多的工作來驗證這一點。你在測量同樣的東西嗎?是否有一個合理的理由相信這些人群是不同的?你不需要完全一致,但你應該在同一個變動范圍。如果你不是,假設你是錯誤的,直到你可以充分說服自己。最令人驚訝的數(shù)據(jù)將變成一個錯誤,而不是一個極好的新的洞察。
新的指標應該首先適用于舊的數(shù)據(jù)/特征。
如果你收集了全新的數(shù)據(jù),并嘗試學習新的東西,你不會知道你是否回答正確。當你收集一種新型數(shù)據(jù)時,您應該首先將此數(shù)據(jù)應用到已知的特征或數(shù)據(jù)。例如,如果你有一個對用戶滿意度的新標準,你應該確保它告訴你幫助滿意的最好特征。這樣做對你后面學習新的東西提供了驗證。
提出假設和尋找證據(jù)
通常情況下,一個復雜問題的探索性數(shù)據(jù)分析是迭代的。您將發(fā)現(xiàn)數(shù)據(jù)的異常、趨勢或其他特征。很自然地,你會提出假設來解釋這個數(shù)據(jù)。這是必要的,你不只是做一個假設,并宣布它是真實的。尋找證據(jù)(內(nèi)部或外部的數(shù)據(jù))來證實/否定這一理論。例如,如果你相信一個異常是由于一些其他特征的推出或在加德滿都(尼泊爾首都)度假,確保人口特征的推出是唯一一個被異常影響地。另外,確保更改的大小與推出的預期一致。
良好的數(shù)據(jù)分析將會告訴你一個故事。為了確保這是一個正確的故事,你需要告訴自己這個故事,還預測了什么你應該在數(shù)據(jù)中能看到的,如果假設是真的,然后尋找證據(jù)表明它是錯誤的。這樣做就是問自己,“什么實驗會讓我講的故事變得有效/無效嗎?“即使你不做這些實驗,它也許可能會給你如何驗證你已有的數(shù)據(jù)的想法。
好消息是,這些假設和可能的實驗可能會引導超越試圖了解任何特定的特征或數(shù)據(jù)的新查詢線。然后,您進入理解的領域,不只是這個數(shù)據(jù),而產(chǎn)生能夠用于未來各種分析的新指標和技術。
從端到端迭代獲益的探索性分析
在做探索性分析時,你應該努力得到盡可能多的對于整體分析的迭代。通常情況下,你會有多個步驟的信號采集,處理,建模等。如果你在獲得初始信號完美的第一階段花太長時間,你將錯過在相同時間里獲取更多迭代的機會。此外,當你最后觀察你結(jié)束時的數(shù)據(jù),你可能會發(fā)現(xiàn)改變了你的方向。因此,你最初的重點不應該是完美,而是一路得到合理的東西。給自己留筆記,并承認像過濾步驟和數(shù)據(jù)記錄這樣你不能分析/理解的東西,但所有在探索性分析開始時試圖擺脫這些就是在浪費時間。
溝通
數(shù)據(jù)分析從問題開始,而不是數(shù)據(jù)或技術
總是有一個你要做一些分析的理由。如果你花時間來把你的需求化為問題或假設,它會是一個很長的路來確保你收集你應該收集的數(shù)據(jù),并且你正在思考數(shù)據(jù)中可能存在的空白。當然,你問的問題可以和應該演變因為你在觀察數(shù)據(jù)。但不帶問題的分析會終止地毫無目的。
此外,你必須避免找到一些最喜歡技術的陷阱,并隨后只發(fā)現(xiàn)這些技術工作部分的問題。再次,確保你是明確問題是什么將幫助你避免這個問題。