摘要:針對移動(dòng)機器人的導航問(wèn)題,本文提出一種具有連續向量輸出的再勵學(xué)司算法(Reinforcement Learning with ContinuousVector output:CVRI)。CVRL具有層次結構、低層是單元動(dòng)作網(wǎng)絡(luò )層、通過(guò)組合動(dòng)作產(chǎn)生連續向量輸出;高層是建立在組合單元動(dòng)作空間上的Q學(xué)習單元,實(shí)現組合動(dòng)作的選擇,文中給出了CVRL導航控制器的具體實(shí)現,并通過(guò)仿真實(shí)驗驗證了其有效性。 PDF下載: ![]() |