中国学术期刊网络出版总库
  关闭
概率近似正确的强化学习算法解决连续状态空间控制问题  
   推荐 CAJ下载 PDF下载
【英文篇名】 Probably approximately correct reinforcement learning solving continuous-state control problem
【下载频次】 ★★★★★
【作者】 朱圆恒; 赵冬斌;
【英文作者】 ZHU Yuan-heng; ZHAO Dong-bin; State Key Laboratory of Management and Control for Complex Systems; Institution of Automation; Chinese Academy of Sciences;
【作者单位】 中国科学院自动化研究所复杂系统管理与控制国家重点实验室;
【文献出处】 控制理论与应用 , Control Theory & Applications, 编辑部邮箱 2016年 12期  
期刊荣誉:中文核心期刊要目总览  ASPT来源刊  CJFD收录刊
【中文关键词】 强化学习; 概率近似正确; kd树; 双连杆机械臂;
【英文关键词】 reinforcement learning; probably approximately correct; kd-tree; two-link manipulator;
【摘要】 在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态–动作–奖励–状态–动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probably approximately correct,PAC)原理,为连续时间确定性系统设计基于数据的在线强化学习算法.这类算法有效记录在线数据,同时考虑强化学习算法对状态空间探索的需求,能够在有限在线学习时间内输出近似最优的控制.我们提出算法的两种实现方式,分别使用状态离散化和kd树(k-dimensional树)技术,存储数据和计算在线策略.最后我们将提出的两个算法应用在双连杆机械臂运动控制上,观察算法的效果并进行比较.
【英文摘要】 One important factor of reinforcement learning(RL) algorithms is the online learning time. Conventional algorithms such Q-learning and state-action-reward-state-action(SARSA) can not give the quantitative analysis on the upper bound of the online learning time. In this paper, we employ the idea of probably approximately correct(PAC) and design the data-driven online RL algorithm for continuous-time deterministic systems. This class of algorithms efficiently record online observations and keep in mind the ex...
【基金】 国家自然科学基金项目(61273136,61573353,61533017,61603382); 复杂系统管理与控制国家重点实验室优秀人才基金项目资助~~
【更新日期】 2017-03-14
【分类号】 TP18;TP273
【正文快照】 1引言(Introduction)强化学习(reinforcement learning,RL)[1–4]通过在线学习的方式,与被控系统或环境进行交互,调整策略使系统获得尽可能高的累加奖励.这类方法在解决模型未知系统的控制问题时有着显著的意义.但是传统RL[5–6]具有数据利用率低、探索效率差的缺点,算法没有明

xxx
【读者推荐文章】中国期刊全文数据库
【相似文献】
中国期刊全文数据库
中国优秀硕士学位论文全文数据库
中国博士学位论文全文数据库
中国重要会议论文全文数据库
中国重要报纸全文数据库
中国学术期刊网络出版总库
点击下列相关研究机构和相关文献作者,可以直接查到这些机构和作者被《中国知识资源总库》收录的其它文献,使您全面了解该机构和该作者的研究动态和历史。
【文献分类导航】从导航的最底层可以看到与本文研究领域相同的文献,从上层导航可以浏览更多相关领域的文献。

工业技术
  自动化技术、计算机技术
   自动化基础理论
    人工智能理论

工业技术
  自动化技术、计算机技术
   自动化技术及设备
    自动化系统
     自动控制、自动控制系统
  
 
  CNKI系列数据库编辑出版及版权所有:中国学术期刊(光盘版)电子杂志社
中国知网技术服务及网站系统软件版权所有:清华同方知网(北京)技术有限公司
其它数据库版权所有:各数据库编辑出版单位(见各库版权信息)
京ICP证040431号    互联网出版许可证 新出网证(京)字008号