咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
  • 本书介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。

    本书主要介绍了多智能体机器人强化学习的相关内容。全书共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人随机博弈学习问题,并通过3种博弈游戏详细介绍了纳什均衡、学习算法、学习自动机、滞后锚算法等内容,并提出LR-I滞后锚算法和指数移动平均Q学习算法等,并进行了分析比较。接下来,介绍了模糊系统和模糊学习,并通过仿真示例详细分析算法。后,介绍了群智能学习进化以及性格特征概念和应用。全书内容丰富,重点突出。 
      
      目录
      
      译者序
      
      原书前言
      
      第1章监督式学习概述
      
      11LS算法
      
      12RLS算法
      
      13LMS算法
      
      14随机逼近法
      
      参考文献
      
      第2章单智能体强化学习
      
      21简介
      
      22n臂赌博机问题
      
      23学习结构
      
      24值函数
      
      25最优值函数
      
      25.1网格示例
      
      26MDP
      
      27学习值函数
      
      28策略迭代
      
      29时间差分学习
      
      210状态一行为函数的时间差分学习
      
      211Q学习
      
      212资格迹
      
      参考文献
      
      第3章双人矩阵博弈学习
      
      31矩阵博弈
      
      32双人矩阵博弈中的纳什均衡
      
      33双人零和矩阵博弈中的线性规划
      
      34学习算法
      
      35梯度上升算法
      
      36WoLF-IGA算法
      
      37PHC算法
      
      38WoLF-PHC算法
      
      39矩阵博弈中的分散式学习
      
      310学习自动机
      
      311线性回报一无为算法
      
      312线性回报一惩罚算法
      
      313滞后锚算法
      
      314LR.滞后锚算法
      
      314.1仿真
      
      参考文献
      
      第4章多人随机博弈学习
      
      41简介
      
      42多人随机博弈
      
      43极大极小Q学习算法
      
      43.12x2网格博弈
      
      44纳什Q学习算法
      
      44.1学习过程
      
      45单纯形算法
      
      46Lemke-Howson算法
      
      47纳什Q学习算法实现
      
      48朋友或敌人Q学习算法
      
      49无限梯度上升算法
      
      410PHC算法
      
      411WoLF-PHC算法
      
      412网格世界中的疆土防御问题
      
      412.1仿真和结果
      
      413LR.滞后锚算法在随机博弈中的扩展
      
      414EMAQ学习算法
      
      415EMAQ学习与其他方法的仿真与结果比较
      
      415.1矩阵博弈
      
      4152随机博弈
      
      参考文献
      
      第5章微分博弈
      
      51简介
      
      52模糊系统简述
      
      52.1模糊集和模糊规则
      
      522模糊推理机
      
      523模糊化与去模糊化
      
      524模糊系统及其示例
      
      53模糊Q学习
      
      54FACL
      
      55疯狂司机微分博弈
      
      56模糊控制器结构
      
      5.7Q(A)学习模糊推理系统
      
      58疯狂司机博弈的仿真结果
      
      59双车追捕者一逃跑者博弈中的学习算法
      
      510双车博弈仿真
      
      511疆土防御微分博弈
      
      512疆土防御微分博弈中的形成回报
      
      513仿真结果
      
      513.1-个防御者对一个人侵者
      
      5132两个防御者对一个人侵者
      
      参考文献
      
      第6章群智能与性格特征的进化
      
      61简介
      
      62群智能的进化
      
      63环境表征
      
      64群机器人的性格特征
      
      65性格特征的进化
      
      66仿真结构框架
      
      67零和博弈示例
      
      67.1收敛性
      
      672仿真结果
      
      68后续仿真实现
      
      69机器人走出房间
      
      610机器人跟踪目标
      
      611小结
      
      参考文献

    邮购信息:
      地    址:北京市西城区北三环中路甲29号华尊大厦A座405室(邮编:100029)
      电    话:010-82024981-12  发行部
           邮    箱:wangy@upsapp.com
      户    名:北京三之联广告有限公司
      开户行:交通银行股份有限公司北京北三环中路支行
      账   号:110060567018150018791

    ISBN:9787111569602   出版社:机械工业出版社   出版日期:2017-7-10   装帧:平装   页数:185   图书尺寸:169*239   开本:16开   定价:¥69.00   类别:人工智能

  •