有限制强化学习Constrained RL的主要思路就是把安全转化为约束,通过改变优化准则达到安全的目的。挑战有2点:1. 求解速度快,最好是一阶优化;2. 对训练的严格程度:不要求训练过程,训练后得到符合约束的策略;训练期间尽可能少的违反约束,训练期间违反约束被按一定概率严格控制甚至不违反。
无数据, 请查看其它