當(dāng)我們預(yù)測(cè)概率時(shí),我們預(yù)測(cè)的是什么?

很久之前參加過(guò)一次面試,面試題目讓我記憶猶新。當(dāng)時(shí)的面試過(guò)程大體是這樣的:
面試官:你知道Logistic回歸嗎?
我:當(dāng)然知道,很常用。
面試官:那么你覺(jué)著Logistic回歸預(yù)測(cè)的概率該怎么解釋?是某個(gè)個(gè)體成功的概率嗎?
我:當(dāng)然不是。如果只有一次觀測(cè),個(gè)體概率是估計(jì)不出來(lái)的。應(yīng)該解釋為,給定N個(gè)具有相同特征的個(gè)體,成功的比率等于估計(jì)出來(lái)的概率。
嗯,當(dāng)時(shí)面試官不置可否,當(dāng)然最后的面試結(jié)果是我被刷了(可能歸功于我的經(jīng)濟(jì)學(xué)而非統(tǒng)計(jì)、計(jì)算機(jī)背景)
也許你覺(jué)著我上面說(shuō)的有點(diǎn)拗口,也很難理解,當(dāng)我們估計(jì)Logistic回歸的時(shí)候,我們估計(jì)出的:
難道不該解釋為個(gè)體成功的概率嗎?
我想這種說(shuō)法是有些問(wèn)題的。
當(dāng)我們說(shuō)單獨(dú)某個(gè)人成功的概率,應(yīng)該是同一個(gè)人在相同的條件下重復(fù)100次,平均而言成功了多少次。如果記t為某個(gè)人嘗試的次數(shù),那么我們理想的模型(數(shù)據(jù)生成過(guò)程)應(yīng)該是這樣的:
然而,alternatively,現(xiàn)實(shí)的數(shù)據(jù)生成過(guò)程可能是這樣的:
兩者的差別,,可以理解為個(gè)體的不可觀測(cè)的、與X獨(dú)立的特征。
比如,如果D代表我來(lái)咖啡館是點(diǎn)卡布奇諾(D=1)還是摩卡(D=0),X是我的性別,那么可能是我本身對(duì)卡布奇諾和摩卡的偏好。我的
可能特別高,使得我每次來(lái)咖啡館都點(diǎn)卡布奇諾而非摩卡,但是總會(huì)有另外的人喜歡摩卡而非卡布奇諾。
所以,當(dāng)我們沒(méi)有重復(fù)的觀測(cè)到一個(gè)人的選擇的時(shí)候,我們估計(jì)的誤差項(xiàng)實(shí)際上是,因?yàn)?img src="/d/file/news/Internet_of_things/technical/2017-07/11aa3fecbe43161ec8d0ce18377ff397.png" alt="\alpha_i" />與X不相關(guān),所以跨個(gè)體估計(jì)時(shí),我們相當(dāng)于在每個(gè)分組平均了這個(gè)效應(yīng)。
但是具體到個(gè)體,由于是不隨著時(shí)間、選擇次數(shù)變化而變化的,所以個(gè)體的概率并不等于其所在組的概率。
換句話說(shuō),也許男性(X=1)點(diǎn)卡布奇諾的概率是0.5,但是對(duì)我來(lái)說(shuō),這個(gè)概率可能是0.9。是因?yàn)橛辛舜罅康哪行?,有的人概率?.9,有的人概率為0.1,平均起來(lái)使得我們的分組變成了0.5,而不是意味著我點(diǎn)卡布的概率就是0.5。
那么,搞清楚這個(gè)問(wèn)題有啥意義呢?
意義在于,只有我們需要決策的個(gè)體足夠多時(shí),使用Logistic得到的概率才有意義。這個(gè)概率得到的更多的是跨個(gè)體的,而非針對(duì)個(gè)體的。
比如,如果我有一百萬(wàn)個(gè)客戶需要進(jìn)行決策,那么使用Logistic得到的概率進(jìn)行決策,多數(shù)情況下是沒(méi)有問(wèn)題的。但是如果我有一百萬(wàn)個(gè)數(shù)據(jù),但是針對(duì)十個(gè)客戶進(jìn)行決策,那么這個(gè)概率的意義就沒(méi)有那么大了:我們并不知道這十個(gè)客戶的個(gè)體異質(zhì)性,樣本太小以至于我們不能跨個(gè)體把風(fēng)險(xiǎn)平均掉。
比如,我有一百萬(wàn)個(gè)數(shù)據(jù)來(lái)評(píng)測(cè)個(gè)人貸款違約的概率。如果我有一百萬(wàn)個(gè)客戶,那么基于Logistic的結(jié)果可能是沒(méi)有問(wèn)題的;但是如果我只有十個(gè)客戶呢?平均而言問(wèn)題也不大,但是由于的存在,實(shí)際上擴(kuò)大了風(fēng)險(xiǎn)。