LM在傳統(tǒng)的NLP任務(wù)中扮演著關(guān)鍵的角色,例如,語音識別、機(jī)器翻譯、文本摘要。通常(但不是一直),訓(xùn)練語言模型會提升下游任務(wù)的潛在價(jià)值,比如語音識別中的詞語錯誤率,或者翻譯中的BLEU 分?jǐn)?shù)),這會讓訓(xùn)練更好的LM自身具有更高價(jià)值。
進(jìn)一步說,在大量的數(shù)據(jù)上進(jìn)行訓(xùn)練,語言模型會從訓(xùn)練數(shù)據(jù)中簡練地提取解碼后的知識。比如,當(dāng)用電影字幕進(jìn)行訓(xùn)練時(shí),這些語言模型能夠生成關(guān)于物體顏色、人物身份等信息的大難。最近提出的序列到序列模型,使用了有條件的語言模型,作為解決多任務(wù)難題的一個(gè)關(guān)鍵,包括機(jī)器翻譯和視頻生成等 。
深度學(xué)習(xí)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)在過去的幾年中極大地推動了語言建模研究的發(fā)展,讓研究者可以在更多的任務(wù)上進(jìn)行探索,在這些任務(wù)中,強(qiáng)限制性的獨(dú)立假設(shè)都是不實(shí)際的。
雖然事實(shí)上,簡單的模型,比如N-grams,只使用極少的前詞(privious words)來預(yù)測接下里會出現(xiàn)的詞,它們對于高質(zhì)量、低混淆的語言建模來說一談是一個(gè)非常關(guān)鍵的組成部分。
確實(shí),最近絕大部分對大型語言建模的研究已經(jīng)證明了RNN配合N-grams使用效果非常好,因?yàn)樗鼈兛赡苡幸恍┎煌膬?yōu)勢,能對N-gram模型進(jìn)行補(bǔ)充。但是,如果單獨(dú)使用RNN的話,效果就會很差。
我們相信,雖然很多工作都在小型的數(shù)據(jù)集,比如Penn Tree Bank (PTB)上展開,但是,更大型的任也是很重要的,因?yàn)檫^擬合并不是目前語言建模中的一個(gè)主要限制,而只是PTB 任務(wù)中的一個(gè)主要特點(diǎn)。
大型語料庫上的結(jié)果通常會更好,這很重要,因?yàn)樵S多在小型數(shù)據(jù)庫上運(yùn)行得很好的想法在大型數(shù)據(jù)庫上做進(jìn)一步提升時(shí)都失敗了。進(jìn)一步來看,考慮到當(dāng)下的硬件趨勢和網(wǎng)頁大量可用的文本數(shù)據(jù),進(jìn)行大型的建模將會比過去更加簡單。所以,我們希望我們的工作能給研究者帶來啟發(fā)和幫助,讓他們在PTB之外可以使用傳統(tǒng)的語言模型。