這樣,顯然收斂的方向是不定的,而且,很可能收斂速度非常慢。
一個(gè)有效的替代方案是,每次迭代的樣本數(shù)增加到一個(gè)很小的數(shù)量(通常被稱(chēng)為Mini-Batch),這樣,有可以有效地增加收斂速度,這種方案也被稱(chēng)為批梯度下降法( (Mini-)Batch gradient descent )。當(dāng)Batch的數(shù)量增加時(shí),模型的收斂速度加快,但是訓(xùn)練速度會(huì)降低。
問(wèn)題
在訓(xùn)練樣本時(shí),采用此種方案之前必須保證數(shù)據(jù)是沒(méi)有任何順序特征的,不然,會(huì)對(duì)訓(xùn)練產(chǎn)生極大影響。
訓(xùn)練的模型并非是最后一次迭代時(shí)訓(xùn)練的結(jié)果最優(yōu),此時(shí)要注意采用一定策略選擇最優(yōu)模型。
總結(jié)
類(lèi)別梯度下降坐標(biāo)下降隨機(jī)梯度下降/批梯度下降場(chǎng)景基本場(chǎng)景、小數(shù)據(jù)feature較多,平滑函數(shù)大數(shù)據(jù)、實(shí)時(shí)訓(xùn)練策略尋找最大梯度方向,迭代每次只迭代一個(gè)坐標(biāo)每次只迭代一(k < N)個(gè)樣本缺點(diǎn)步長(zhǎng)選擇,在維度、樣本量過(guò)大時(shí)速度較慢非平緩函數(shù)失效收斂具有一定的隨機(jī)性