作者| 謝益輝
JSM上統(tǒng)計(jì)界的老幫主Stephen Stigler做了一個(gè)主題演講,講“統(tǒng)計(jì)學(xué)的七大支柱”,好心又認(rèn)真的Rick Wicklin同學(xué)記了筆記,彼時(shí)估計(jì)還在中國城吃飯的我才得以了解SS大人到底講了什么?;仡^看看筆記,我覺得SS大人有點(diǎn)吹噓統(tǒng)計(jì)學(xué)之嫌。所謂支柱,就是沒了它咱就垮了。七大支柱為:
匯總:我們從數(shù)據(jù)匯總中獲得知識(shí)。本小子認(rèn)為匯總是統(tǒng)計(jì)的經(jīng)典用途,但匯總(描述統(tǒng)計(jì))只是統(tǒng)計(jì)學(xué)的一方面,另一個(gè)同樣重要也相對(duì)更靠譜一些的方面是預(yù)測(cè)。我從來都是揚(yáng)預(yù)測(cè)而抑匯總的,因?yàn)榻y(tǒng)計(jì)學(xué)生來就帶有不靠譜的本性,匯總搞錯(cuò)了無從查證,預(yù)測(cè)錯(cuò)了一定程度上我們還是知道錯(cuò)了多遠(yuǎn)的。
邊際效應(yīng)遞減:隨著數(shù)據(jù)量增大,信息量并不是線性增加,而是到了一定程度之后可能就沒太多新的信息了。SS大人用n(樣本量)的平方根來形容這個(gè)遞減,我覺得太牽強(qiáng)了,例如樣本均值的標(biāo)準(zhǔn)誤里有個(gè)n的平方根,但這跟信息有毛線關(guān)系呢?
似然/概率:概率論當(dāng)然是統(tǒng)計(jì)學(xué)的支柱,當(dāng)然也要取決于我們?cè)趺炊x統(tǒng)計(jì)學(xué),但說概率是數(shù)理統(tǒng)計(jì)的基礎(chǔ)肯定不會(huì)有人不同意。有人說統(tǒng)計(jì)是“研究不確定性的科學(xué)”,我現(xiàn)在最煩的就是“科學(xué)”二字,人人都把自己的工作升級(jí)為科學(xué),尼瑪什么是科學(xué)?我認(rèn)為數(shù)學(xué)/數(shù)理統(tǒng)計(jì)可以是學(xué)科,但不是科學(xué)。要稱自己的做的是科學(xué),先問問那些養(yǎng)兔子和大腸桿菌的苦逼博士們?cè)傧胂胱约鹤龅乃悴凰憧茖W(xué)。說自己研究的是一門學(xué)科又沒什么丟人的,這年頭神馬“數(shù)據(jù)科學(xué)”,以及孟生旺老師諷刺的“數(shù)學(xué)科學(xué)學(xué)院”(一個(gè)名字里三個(gè)重復(fù)的字,直接叫“數(shù)學(xué)系”丟人嗎?),都是一些沒有底氣的人才想出來的名詞。我敬佩老老實(shí)實(shí)做實(shí)驗(yàn)的自然科學(xué)工作者,不是說用紙筆推公式的工作者做的是無意義的事情或者不苦逼,而是說沒事不要在這些稱謂上較勁,安分守己一點(diǎn)比較好。
橫向比較:例如比較兩樣本均值的差異。SS大人講別的學(xué)科是與“金標(biāo)準(zhǔn)”進(jìn)行比較,而我們是在數(shù)據(jù)內(nèi)部比較,如方差分析ANOVA和t檢驗(yàn)。我沒太明白這算什么支柱,而且統(tǒng)計(jì)里面也不是沒有和“金標(biāo)準(zhǔn)”比較的情形啊。
回歸和多元分析:身高的回歸是經(jīng)典例子了,這確實(shí)是一個(gè)有趣的發(fā)現(xiàn),但現(xiàn)實(shí)中回歸被用來做什么了呢?我感覺回歸的主要作用是被鋪天蓋地的論文拿來當(dāng)炮灰(你看,俺的方法比回歸好),或者在外專業(yè)里面當(dāng)萬精油(你看,俺跑了個(gè)回歸,系數(shù)顯著耶)。與其說某種方法是支柱,不如說方法和領(lǐng)域知識(shí)的結(jié)合是支柱。沒有具體的領(lǐng)域知識(shí),跑個(gè)系數(shù)顯著的回歸只是盲人摸象。
試驗(yàn)設(shè)計(jì):這個(gè)當(dāng)然也很重要,我覺得這是七大支柱里唯一可以稱為支柱的一個(gè),因?yàn)樗梢悦撾x領(lǐng)域知識(shí)而有效。沒有比較就沒有鑒別,大家都知道要比較,但怎么比是個(gè)關(guān)鍵問題。例如前些日子火爆的漢字聽寫大賽就違反了“隨機(jī)”、“重復(fù)”、“對(duì)照”等試驗(yàn)設(shè)計(jì)基本原則,在缺乏概率指導(dǎo)下的競(jìng)賽,難免有些不公平。
模型和殘差:這個(gè)有點(diǎn)局限于回歸套路了,不是所有模型都涉及殘差項(xiàng)的。若不檢查殘差的分布,統(tǒng)計(jì)學(xué)會(huì)不會(huì)垮掉?我認(rèn)為未必。即使殘差仍然有明顯的特征,模型也未必完全不合適,這要看你想要獲取模型中哪部分的信息。
摘自謝益輝《統(tǒng)計(jì)學(xué)的七大支柱》作者博客>>>