基于环境状态分布优化的POMDP值迭代求解算法

Application Research of Computers(2022)

引用 0|浏览2
暂无评分
摘要
基于点的值迭代算法是一类解决 POMDP问题的有效算法,PBVI 是基于点集的经典算法,但是其算法效率较为低下.FSVI使用内在的 MDP最优策略来降低算法复杂度,但求解大规模问题的效果较差.为解决上述问题,提出了基于环境状态分布优化的前向搜索值迭代算法(PBVI-OSD),通过基于权重值的QMDP选出最佳的动作,基于信念状态和转换函数选取最大可能的状态,基于动作和状态从观察中随机选取一个观察概率大于阈值的观察,由此获得更具探索价值的后继信念点集,提升值迭代收敛的质量.在四个基准问题上的实验表明,相比于 FSVI 和 PBVI,PBVI-OSD能保证收敛效率,特别是在大规模问题上能收敛到更好的全局最优解.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要