出于這一目的,我們把自己的模型和訓(xùn)練內(nèi)容進(jìn)行開(kāi)源。
我們聚焦在一個(gè)著名的大型LM 基準(zhǔn):One Billion Word Benchmark 數(shù)據(jù)集。這一數(shù)據(jù)集比PTB要大很多,同時(shí)挑戰(zhàn)也多很多。與計(jì)算機(jī)視覺(jué)領(lǐng)域的Imagenet類似,我們認(rèn)為,在大型數(shù)據(jù)集上研究,并且在清晰的基準(zhǔn)上進(jìn)行建模將能提上語(yǔ)言建模。
我們工作的貢獻(xiàn)主要有以下幾個(gè):
- 我們探索、擴(kuò)展并嘗試在大規(guī)模LM上整合當(dāng)下的一些研究;
- 具體地,我們?cè)O(shè)計(jì)了一個(gè)Softmax loss,基于特性水平的CNN,在訓(xùn)練上效率很高,在準(zhǔn)確度上與完整的Softmax一致,而完整版的要求更多維的參數(shù);
- 我們的研究提升了當(dāng)下最著名的大規(guī)模LM任務(wù):?jiǎn)我荒P偷?從51.3降到了30.0,同時(shí),參數(shù)的系數(shù)減少了20;
- 我們證明了,幾個(gè)不同模型的組合能把這一任務(wù)的 perplexity 降到23.7,這是一個(gè)顯著的提升。
在論文的第二部分,我們將會(huì)對(duì)語(yǔ)言建模中的重要概念和前人研究進(jìn)行綜述。第三部分,我們會(huì)提出對(duì)神經(jīng)語(yǔ)言建模這一領(lǐng)域的貢獻(xiàn),重點(diǎn)在大規(guī)模遞歸神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。第4和第5部分的目的是盡可能地描述我們的經(jīng)驗(yàn)和對(duì)項(xiàng)目的理解,同時(shí)把我們的工作與其他相關(guān)的研究方法進(jìn)行對(duì)比。
評(píng)價(jià)及討論
Reddit、HN 和 Twitter 上的反響都挺好,不過(guò)也有人指出了這項(xiàng)研究的一些缺點(diǎn)。根據(jù) shortscience.org 上的留言;