似然函數(shù)
似然函數(shù)與概率非常類似但又有根本的區(qū)別,概率為在某種條件(參數(shù))下預(yù)測某事件發(fā)生的可能性;而似然函數(shù)與之相反為已知該事件的情況下推測出該事件發(fā)生時(shí)的條件(參數(shù));所以似然估計(jì)也稱為參數(shù)估計(jì),為參數(shù)估計(jì)中的一種算法; 下面先求拋硬幣的似然函數(shù),然后再使用似然函數(shù)算出線性回歸的參數(shù);
假如有一枚硬幣我們現(xiàn)在不知道它是否為正常硬幣(正反面出現(xiàn)概率各位50%),所以想通過拋10次然后通過硬幣正反面出現(xiàn)的概率分布判斷該硬幣是否正常;當(dāng)拋完10次時(shí)出現(xiàn)5次正面向上、5次反面向上,正反面出現(xiàn)的概率符合正常硬幣的預(yù)期,這時(shí)我們可以判斷該硬幣是正常的;
拋硬幣符合二項(xiàng)分布所以下面計(jì)算出概率分布情況:
如圖:
上圖中x軸為正面出現(xiàn)的次數(shù),y軸為上述函數(shù)的結(jié)果
上面式子中w為正反面出現(xiàn)的比例,y為正面出現(xiàn)的次數(shù);
使用最大似然法求硬幣問題
似然函數(shù)為知道了結(jié)果求條件,概率問題為知道了條件求概率,在這個(gè)問題中就是知道了硬幣是正常的,求正反面出現(xiàn)的比例w為何值時(shí)該結(jié)果最靠譜;所以似然函數(shù)等于:
函數(shù)左邊的值并非條件概率中的條件而是該函數(shù)的依賴值,似然函數(shù)L為在給定結(jié)果y的情況下參數(shù)w的取值情況,概率函數(shù)L為知道了參數(shù)w求得y的取值;有了拋硬幣情況的概率分布這里就可以給出似然函數(shù):
似然函數(shù)求的是在給定樣本向量y的情況下,符合該概率分布的參數(shù)向量w取值可能性;該似然函數(shù)求的是在w取何值時(shí)y=5的可能性更高;就問題而言就是求w取何值時(shí)的最大值,就如之前梯度下降法一樣,求該函數(shù)的偏導(dǎo)數(shù)就可以求得極大值; 由于直接求偏導(dǎo)數(shù)比較復(fù)雜,通常情況下都會求對數(shù)似然函數(shù),對數(shù)函數(shù)為單調(diào)遞增的所以與似然函數(shù)具有同樣的最大值,該對數(shù)似然函數(shù)為:
下面對該似然對數(shù)進(jìn)行求關(guān)于w的偏導(dǎo)數(shù):
要求其最大值就是求該導(dǎo)數(shù)的拐點(diǎn),也就是令函數(shù)等于0;
通過求L關(guān)于w的偏導(dǎo)數(shù)求得w=0.5,于我們上面概率中的w時(shí)一致的,也就是說當(dāng)w=0.5時(shí)y正面出現(xiàn)的次數(shù)等于5的可能性是最高的;
線性回歸
通過前面幾篇文章我們知道了線性回歸的模型為:
為誤差值,所以我們也可以變?yōu)椋?/p>
代表的是誤差,我們知道模型與實(shí)際的結(jié)果值時(shí)一個(gè)連續(xù)隨機(jī)變量,也就是說損失函數(shù)(loss function)的值時(shí)連續(xù)隨機(jī)變量,也就是,模型不可能考慮到所有的特征那也可能就過擬合了所以就會存在噪音,一般來說多種噪音疊加會呈現(xiàn)出正態(tài)分布的所以這里假設(shè)是正態(tài)分布的,訓(xùn)練模型的數(shù)據(jù)集中肯定不止一條記錄,但結(jié)果只有一個(gè),所以可以假設(shè)每條記錄誤差都是獨(dú)立同分布的;