摘要:本文研究了機器人足球賽中利用增強學(xué)習進(jìn)行角色分工的問(wèn)題,通過(guò)仿真試驗和理論分析,指出文[1]中采取無(wú)限作用范圍衰減獎勵優(yōu)化模型(infinite—horizon discounted model)的Q學(xué)習算法對該任務(wù)不合適,并用平均獎勵模型(average—reward model)對算法進(jìn)行了改進(jìn),實(shí)驗表明改進(jìn)后學(xué)習的收斂速度以及系統的性能都提高了近一倍。 PDF下載: ![]() |