~一~~~一~一强化学习及其在机器人系统中的应用研究广东工业大学学位论文陈学松指导教师姓名:学科ㄒ或领域名称:学生所属学院名称:分类号:学校代号:学号:论文答辩日期:ぱР┦
㈣洲⋯Ⅲ瓹::.¨¨鯥珿。
要摘迷宫游戏的仿真实验表明:与传统强化学习算法相比,算法实现了在强化学习篟殖圃銮垦盎蛟倮埃且恢重要的机器学习方法,是近几年来智能控制和人工智能领域的研究热点之一。在各种学习方法中,强化学习具有较强的在线自适应性和对复杂系统的自学能力,它在与环境的交互中,通过试探式的学习收敛到最优的控制策略,这种学习机制已经在非线性控制、人工智能复杂问题求解、机器人控制、优化与调度以及多低持杏谐晒ττ谩H欢捎诟髦窒低车母丛有院筒蝗范ㄐ缘南拗疲化学习的研究中还存在一些难以解决的问题。如何结合相关的知识表示和计算智能技术,设计合适的学习算法和控制结构,是实现强化学习方法广泛应用的关键。目前的强化学习研究主要都是针对小规模、离散的状态和动作空间,对于在大规模、连续的状态和动作空间下的学习控制还是亟待解决的难题。本文针对大规模、连续的状态和动作空间下的强化学习理论、算法及应用进行研究,因此具有重要的理论意义和应用价值。本文在收集了国内外相关的文献之后,对其进行充分的分析和综合。在此基础上,对强化学习算法及其在机器人系统中的应用进行了较深入的研究。主要研究工作如下:诘萃谱頳乘法的多步时序差分学习针对强化学习过程收敛速度缓慢的问题,。证明了在满足一定条件下,该算法的权值将以概率樟驳轿ㄒ唤猓⑶业贸龊椭っ髁酥岛兰浦档奈蟛钣β愕墓叵凳健线、递推式的学习,具有计算量小的优点。赗神经网络的强化学习针对基本学习泛化能力不强的问题,提出了一种基于的强化学习算法。证明了该算法在满足一定条件下将以概率樟驳侥尘卣蠓匠的唯一解。该算法通过虲蚕鞷网络,根据任务复杂度和学习进度进行实时的在线学习。基于该算法,设计了一种具有强化学习机制的自适应摘要
.控制器设计方法,该方法可以解决传统控制器不易在线实时整定参数的不足。仿真实验表明,该算法具有更好的学习泛化能力。谔剿鞫鹊母慕湍:齋学衡的问题,在已有的模糊惴ɑ∩希状翁岢隽艘恢只谔剿鞫鹊母慕湍:齋学衡不动点。该算法通过增加自适应学衡器来控制探索和利用的程度,以提高学习性能。小车爬山问题的仿真实验结果表明,该算法加快了系统的学习收敛速度,具有更优的学习性能。谝先河呕谋溲奥誓:齋学习针对模糊爸醒耙蜃佑呕髡奈侍猓岢隽艘恢只谝先河呕的变学更新规律来自动调节学习率,把模糊神经网络中模糊推理过程看作是蚂蚁觅食的过程,构造相应的信息素矩阵,从而实现最优策略下行为动作的选择。小车爬山与卡车倒车问题的仿真实验表明:瓼算法比惴ň哂懈诺难性能。炕霸谝贫魅寺肪豆婊械挠τ详细探讨了瓼算法在移动机器人路径规划中的应用,给出了一种加权回报函数的设计方法,实现了对未知环境状态空间的动态建立,有效克服了移动机器人在路径规划时对全局环境信息或动态障碍物的运动信息的依赖性。仿真实验表明,瓼算法在学习性能和计算时间方面要优于算法和算法。最后,对本文进行总结,阐明本研究的创新和主要研究成果,并指明未来进一步研究的问题。关键词:强化学习;移动机器人;最小二乘法;纾荒:齋学习;路径规划广东工业大学博十学位论文
,,瑀Ⅲ.也琣,,..,..
,.琣·.疭—.瓵Ⅳ,甀瓵.,·—,,狥、加..广东工业人学博十学位论文甌..
:;;甋籐;籉
录目Ⅵ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。⋯⋯⋯⋯.Ⅸ第一章绪论强化学习的研究背景与意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。强化学习的主要研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..饕Q芯抗ぷ鳌第二章基于递推最小二乘法的多步时序差分学习研究强化学习的基本概念与原理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第三章基于窬绲捏被把芯摘要强化学习的国内外研究现状及分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。.陆诎才拧引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯.甌算法收敛性分析及其值函数误差估计⋯⋯⋯⋯⋯⋯甌算法的迷宫仿真实验⋯
强化学习及其在机器人系统中的应用研究 来自淘豆网m.daumloan.com转载请标明出处.