。想法是
,既然訓練存在玻璃阻礙,為何不一開始就把系統(tǒng)初始化到鞍點盡量少的區(qū)域
,可惜在高維空間判斷鞍點少的區(qū)域是個十分復雜的問題。但是我們可以降低維度去判斷,比如引入少量外部控制變量—
序參數(shù)(權重的平方和,類似SVM中的間隔,輸入層的偏置,無標簽/有標簽數(shù)據(jù)數(shù)目等),然后約束這些
序參數(shù),按照某種權重平均掉這些鞍點Wi的貢獻(重要性抽樣說明這約等于將所有W積掉)。由于鞍點多的地方貢獻相對大,
序參數(shù)調整不好會導致平均結果同其它區(qū)域有明顯不同,因此可以用來判斷相區(qū)。如下圖,log(ε)表示泛化能力的對數(shù),越小泛化能力越強。β表示無標簽樣本的數(shù)目,α表示有標簽樣本數(shù)。不同顏色的線是不同偏置,藍色線的偏置最小。不論那條顏色的線,增大無標簽的樣本原則上可以降低誤差,但是理論上存在“相區(qū)”,如藍色線的上半支和下半支,中間不穩(wěn)定,難以逗留長時間,會存在一支相的誤差一直無法下降。它卡住了!

預訓練能加深!有了控制變量,我們可以通過調整這些值,將損失函數(shù)拖到感興趣的區(qū)域,從而回避相的影響,這個拖動過程由一個日本人今年的研究表明(文獻9),就是無標簽的預訓練!如下圖,預訓練越多,有標簽的調優(yōu)能越早找到最小值區(qū)域?。╨og(ε)表示泛化能力的對數(shù),越小泛化能力越強。β表示無標簽樣本的數(shù)目,α表示有標簽樣本數(shù),預訓練是RBM之流,激活函數(shù)是ReLu)

不止有預訓練?雖然相的觀點仍然說明這只是一個初始化“黑魔法”而已。但這個步驟確確實實在削弱玻璃相區(qū)的阻礙。因此本人也有個臆測,加大規(guī)模,加大樣本,提取深層特征的深度學習是跨越相一個表面技巧而已!或許我們能找到一種跨越或者回避相區(qū)的通用方法,一旦達到此目的,由此獲得的特征或者才是真正的內稟表示。
3/3 首頁 上一頁 1 2 3