
圖 1:a) 預(yù)測(cè)器架構(gòu)。前 3 列圖分別展現(xiàn)了 0、1、2 步的預(yù)測(cè)器的路徑。0 步的 preturn 退化為標(biāo)準(zhǔn)無(wú)模型的價(jià)值函數(shù)的近似形式;其它 preturn 通過一個(gè)內(nèi)部模型「想象」額外的步驟。每個(gè)路徑輸出 k 步的 preturn(g_k), 這個(gè) preturn 包含了累積折扣獎(jiǎng)勵(lì)(discounted reward)和最終價(jià)值函數(shù)的估計(jì)值。在實(shí)踐中,所有 k 步的 preturn 都只在向前路徑中計(jì)算。b) 第 4 列顯示了λ-預(yù)測(cè)器的架構(gòu)。不同的λ參數(shù)閾值對(duì)應(yīng)不同的 preturn。輸出是λ-preturn 記為 g_λ,它是 k 步 preturn 的組合值。例如,如果λ_0=I,λ_1=I,λ_2=0,那么我們將 2 步的 preturn 修正為 g_λ=g_2。折扣因子γ_k 和λ參數(shù)λ_k 取決于狀態(tài) s_k;這種相關(guān)性在圖中未示出。
聲明:本文由機(jī)器之心編譯出品,原文來(lái)自Arxiv,翻譯 Jane W,轉(zhuǎn)載請(qǐng)查看要求,機(jī)器之心對(duì)于違規(guī)侵權(quán)者保有法律追訴權(quán)。