正如我在上文提到的那樣,perplexity 從某處程度上來是一個讓人困惑的指標(biāo),大的混淆(perplexity)并不反映真正的提升,而是帶來樓主“夸大”效應(yīng)。
這篇論文只提供了語言建模的提升,但是,LM 一般都會被嵌入到復(fù)雜的使用場景中,比如語音識別或者機(jī)器翻譯。如果本論文中提供的 LM 可以分享一下與一些端到端的產(chǎn)品融合的結(jié)果,那會更有見解性。鑒于論文的作者在谷歌大腦團(tuán)隊工作,這一要求并不過分。
據(jù)我所知,本論文使用的數(shù)據(jù)庫來自新聞報道,這種類型的數(shù)據(jù)比起口語數(shù)據(jù)更加規(guī)范。在實際的應(yīng)用中,我們面對的通常是非正式化的數(shù)據(jù)(比如搜索引擎和語音識別)。論文中提到的最好的模型,能否適應(yīng)更加實際的應(yīng)用,目前依然是一個問題。再次的,對于谷歌大腦團(tuán)隊來說,把這一模型融合到既有的系統(tǒng)中進(jìn)行測試,并不是什么難事。
原文PPT