AI 检索
AI 阅读
analysis
趋势分析
编组
开放平台
more
更多
排名
必读论文
期刊顶会
热点
AI 简史
溯源树
小脉星探
人才迁徙
塔尖人才
国防情报追踪
开源工具
智慧手语
VIP
Created with Sketch.
立即登录
学术主页
个人账号
我的关注
论文收藏
浏览历史
有限制强化学习
Constrained RL的主要思路就是把安全转化为约束,通过改变优化准则达到安全的目的。挑战有2点:1. 求解速度快,最好是一阶优化;2. 对训练的严格程度:不要求训练过程,训练后得到符合约束的策略;训练期间尽可能少的违反约束,训练期间违反约束被按一定概率严格控制甚至不违反。
必读论文
代表学者
代表机构
年份
引用数
无数据, 请查看其它
0
年份
引用数
搜索