研究論文:探索語(yǔ)言建模的極限
作者:Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, Yonghui Wu
摘要
本文中,作者探討了近年來(lái)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)在語(yǔ)言理解的核心——大規(guī)模語(yǔ)言建模(LM)方面的發(fā)展。為了解決語(yǔ)言建模中的兩大挑戰(zhàn):語(yǔ)料庫(kù)和詞匯量,以及復(fù)雜的、長(zhǎng)期的語(yǔ)言結(jié)構(gòu),作者拓展了現(xiàn)有模型,在>
論文呈現(xiàn)的模型中一個(gè)高層的圖表。a指的是一個(gè)標(biāo)志的LSTM 語(yǔ)言建模;b代表一個(gè)LM,其中輸入和Softmax嵌入被一個(gè)字符CNN取代。c中,我們用一下一個(gè)單詞預(yù)測(cè)LSTM網(wǎng)絡(luò)替代Softmax。
語(yǔ)言建模(LM)是自然語(yǔ)言處理和自然理解模型任務(wù)的一個(gè)核心任務(wù),能對(duì)句子結(jié)構(gòu)分步進(jìn)行展示,它展示的不僅是語(yǔ)言的復(fù)雜內(nèi)容,比如語(yǔ)法結(jié)構(gòu),還能提取語(yǔ)料庫(kù)可能包含的一定數(shù)量信息。確實(shí),模型能夠把較低的概率指派到那些語(yǔ)法上正確的句子上,但是卻不太可能幫助完成其他基礎(chǔ)的語(yǔ)言理解任務(wù),比如,回答問(wèn)題、機(jī)器翻譯或者文本摘要。