特征=數(shù)據(jù)拓撲?似乎研究訓練數(shù)據(jù)本身復雜性的不多,都強調(diào)模型對數(shù)據(jù)的解釋能力。實際上,不論任何數(shù)據(jù),任何奇怪的類型,拓撲都是比人設模型更泛的工具。不少人直觀認為拓撲學的概括性過強,用作特征沒法表示數(shù)據(jù)的內(nèi)稟結(jié)構(gòu)。其實不然,目前比較火的,如代數(shù)拓撲里面有個Persistent homology,其對數(shù)據(jù)主要特征如此敏感,甚至可以用來當作蛋白質(zhì)結(jié)構(gòu)的拓撲指紋,有數(shù)學家通過這些指紋,甚至發(fā)現(xiàn)一些蛋白數(shù)據(jù)庫的結(jié)構(gòu)錯誤。(參考文獻4,5) 是特征提升“深度”,還是“深度”提升特征?
深度=玻璃相轉(zhuǎn)變?何為玻璃相?它對泛化誤差的影響是啥?
相,作為區(qū)分兩種狀態(tài)的詞,有個非?,F(xiàn)實和直觀的影響便是,外部條件不變的話,從一種相跨到另一種相是有很大難度的!比如水在低溫會結(jié)冰,同樣條件,讓水不結(jié)冰的概率,雖然按照玻爾茲曼分布來看并非為零,過冷水便是一例。但這種狀態(tài)是非常不穩(wěn)定的,一旦擾動很快就變成冰,不可能回到液體。 相變過程=搜索能量最小點,這是一個粗淺的理解,在給定條件下(比如溫度T),相變就是從能量高的狀態(tài)(低溫水)找到能量低的狀態(tài)(冰)。但是該過程不是直線式的下陂過程,期間要翻過一些很小的山頭,描述這些小山頭的阻礙我們用一個正的能量壘ΔE
來表示。其阻礙時間按照阿倫尼烏斯的觀點,正比于N*E^(ΔE/T),指數(shù)型的拖延。前面的參數(shù)N用來形容山頭的多寡。 玻璃相。假設這些小山頭不是一個,而是體系自由度的指數(shù),雖然每個山頭的高度不高,累計的阻礙仍然非??捎^,甚至嚴重影響你尋找最小能量態(tài)的可能性,進入這種像踩到瀝青的區(qū)域,我們用玻璃相來形容。如下圖,比如蛋白質(zhì)折疊的能量漏斗模型(能量landscape),從計算機模擬上來看,穿過玻璃轉(zhuǎn)變區(qū)(glass transition)進入能量最小值是最消耗時間的一個區(qū)域。這個過程硬件提速固然重要,但是并行加速是線性的提高,只解決空間復雜,不解決時間復雜!玻璃區(qū)域是包含有時間復雜的,一旦規(guī)模巨大后,沒有算法技巧,尋找能量最低點,在這種非凸的模型上,基本無望。
玻璃世界的山頭類型,這里的山頭不僅包括語義上的山,也包括低谷。數(shù)學上嚴格描述應該理解為梯度為零的點,梯度為零的點有兩種,鞍點和極值點。梯度下降法中,鞍點總是可以找到出路的,到了極小點就無望了。物理上,鞍點數(shù)目可能會隨著能量不斷下降而慢慢轉(zhuǎn)換成極小點,如下圖便是Lennard-Jones液固轉(zhuǎn)變的模擬計算(文獻7),y軸描述鞍點數(shù)目,系統(tǒng)還沒到達最小能量(變成固體)就被包圍在一堆極小值附近了,這時候采用梯度下降搜索萬億年都是徒勞的。然而這也告訴我們一個希望,沒必要擔心局部極小,因為一旦到了真正的局部極小,也非常接近最小值了,畢竟大部分區(qū)域都是被鞍點割據(jù)著。
智能是非凸的過程!這是一個非常老的觀點,按照早期的計算能力來看,可想而知地不受歡迎。任何訓練都是在最小化某個損失函數(shù)L(W)
或叫能量函數(shù)也可。Y LeCun(文獻6)等人近來研究的觀點顯示,多層卷積神經(jīng)網(wǎng)絡的損失函數(shù)雖然是非凸的,但是阻礙其通向最優(yōu)點的山頭屬鞍點居多,是鞍點意味著總是可以找到出路。但是小index的鞍點阻礙能力甚高,而且隨機矩陣理論和模擬顯示,神經(jīng)網(wǎng)絡在一定能量以上的某個區(qū)域全都是這類鞍點,非常類似物理上的Lennard-Jones液固轉(zhuǎn)變過程,這也能理解為何訓練一個神經(jīng)網(wǎng)絡會慢慢開始黏在一個區(qū)域不動,這個區(qū)域的鞍點山頭阻礙都十分可怕(參考8)。(下圖y軸描述鞍點數(shù),橫軸就是損失函數(shù),第4張圖說明能量高到一定程度,鞍點都會消失)
深度=跨越玻璃相?這里要給個問號,畢竟目前理論都不是在真實工業(yè)界的模型下計算出來的,像是一個猜測