
圖 1:a) 預(yù)測器架構(gòu)。前 3 列圖分別展現(xiàn)了 0、1、2 步的預(yù)測器的路徑。0 步的 preturn 退化為標(biāo)準(zhǔn)無模型的價值函數(shù)的近似形式;其它 preturn 通過一個內(nèi)部模型「想象」額外的步驟。每個路徑輸出 k 步的 preturn(g_k), 這個 preturn 包含了累積折扣獎勵(discounted reward)和最終價值函數(shù)的估計值。在實踐中,所有 k 步的 preturn 都只在向前路徑中計算。b) 第 4 列顯示了λ-預(yù)測器的架構(gòu)。不同的λ參數(shù)閾值對應(yīng)不同的 preturn。輸出是λ-preturn 記為 g_λ,它是 k 步 preturn 的組合值。例如,如果λ_0=I,λ_1=I,λ_2=0,那么我們將 2 步的 preturn 修正為 g_λ=g_2。折扣因子γ_k 和λ參數(shù)λ_k 取決于狀態(tài) s_k;這種相關(guān)性在圖中未示出。
聲明:本文由機(jī)器之心編譯出品,原文來自Arxiv,翻譯 Jane W,轉(zhuǎn)載請查看要求,機(jī)器之心對于違規(guī)侵權(quán)者保有法律追訴權(quán)。