多智能体机器学习:强化学习方法
- 2018/2/11 12:34:25 作者::(加)霍华德M施瓦兹 著;连晓峰 译 来源:UPS应用 访问:1719 评论:0
-
本书介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。
本书主要介绍了多智能体机器人强化学习的相关内容。全书共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人随机博弈学习问题,并通过3种博弈游戏详细介绍了纳什均衡、学习算法、学习自动机、滞后锚算法等内容,并提出LR-I滞后锚算法和指数移动平均Q学习算法等,并进行了分析比较。接下来,介绍了模糊系统和模糊学习,并通过仿真示例详细分析算法。后,介绍了群智能学习进化以及性格特征概念和应用。全书内容丰富,重点突出。
目录
译者序
原书前言
第1章监督式学习概述
11LS算法
12RLS算法
13LMS算法
14随机逼近法
参考文献
第2章单智能体强化学习
21简介
22n臂赌博机问题
23学习结构
24值函数
25最优值函数
25.1网格示例
26MDP
27学习值函数
28策略迭代
29时间差分学习
210状态一行为函数的时间差分学习
211Q学习
212资格迹
参考文献
第3章双人矩阵博弈学习
31矩阵博弈
32双人矩阵博弈中的纳什均衡
33双人零和矩阵博弈中的线性规划
34学习算法
35梯度上升算法
36WoLF-IGA算法
37PHC算法
38WoLF-PHC算法
39矩阵博弈中的分散式学习
310学习自动机
311线性回报一无为算法
312线性回报一惩罚算法
313滞后锚算法
314LR.滞后锚算法
314.1仿真
参考文献
第4章多人随机博弈学习
41简介
42多人随机博弈
43极大极小Q学习算法
43.12x2网格博弈
44纳什Q学习算法
44.1学习过程
45单纯形算法
46Lemke-Howson算法
47纳什Q学习算法实现
48朋友或敌人Q学习算法
49无限梯度上升算法
410PHC算法
411WoLF-PHC算法
412网格世界中的疆土防御问题
412.1仿真和结果
413LR.滞后锚算法在随机博弈中的扩展
414EMAQ学习算法
415EMAQ学习与其他方法的仿真与结果比较
415.1矩阵博弈
4152随机博弈
参考文献
第5章微分博弈
51简介
52模糊系统简述
52.1模糊集和模糊规则
522模糊推理机
523模糊化与去模糊化
524模糊系统及其示例
53模糊Q学习
54FACL
55疯狂司机微分博弈
56模糊控制器结构
5.7Q(A)学习模糊推理系统
58疯狂司机博弈的仿真结果
59双车追捕者一逃跑者博弈中的学习算法
510双车博弈仿真
511疆土防御微分博弈
512疆土防御微分博弈中的形成回报
513仿真结果
513.1-个防御者对一个人侵者
5132两个防御者对一个人侵者
参考文献
第6章群智能与性格特征的进化
61简介
62群智能的进化
63环境表征
64群机器人的性格特征
65性格特征的进化
66仿真结构框架
67零和博弈示例
67.1收敛性
672仿真结果
68后续仿真实现
69机器人走出房间
610机器人跟踪目标
611小结
参考文献
邮购信息:
地 址:北京市西城区北三环中路甲29号华尊大厦A座405室(邮编:100029)
电 话:010-82024981-12 发行部
邮 箱:wangy@upsapp.com
户 名:北京三之联广告有限公司
开户行:交通银行股份有限公司北京北三环中路支行
账 号:110060567018150018791
ISBN:9787111569602 出版社:机械工业出版社 出版日期:2017-7-10 装帧:平装 页数:185 图书尺寸:169*239 开本:16开 定价:¥69.00 类别:人工智能