PPO

Unity 用ml-agents机器学习造个游戏AI吧(2) (深度强化学习入门DEMO)

我怕爱的太早我们不能终老 提交于 2020-07-26 07:49:04
目录 本次示例:训练一个追踪红球的白球AI 1. 新建Unity项目,导入package 2. 编写Agent脚本 void OnEpisodeBegin() void CollectObservations(VectorSensor sensor) void OnActionReceived(float[] vectorAction) void Heuristic(float[] action) 3. 搭建好游戏场景 4. 调整脚本参数 Behavior Parameters Roller Agent Decision Requester 5. 开始训练 6. 将训练过的模型整合到Unity中 附录 config文件配置 参考 前言:上一篇博文已经介绍了 Unity Ml-Agents的环境配置 了。 个人建议先敲深度强化学习的Demo再摸清概念比较容易上手,因此本文先提供一个深度强化学习的Demo示例简单阐述下。 更新于2020.3.6:由于现在Unity ml-agents项目比起2018年已经更新了许多,以前的Demo教程已经不适合了,因此决定翻新Unity ml-agents机器学习系列博客。 更新于2020.7.6:没想到仅仅过了几个月,ml-agents项目已经从最初的beta版到现在已经第3个正式发行版了。因此再次翻新博客。 本次示例:训练一个追踪红球的白球AI 1

Unity 用ml-agents机器学习造个游戏AI吧(2)(入门DEMO)

浪尽此生 提交于 2020-04-28 11:59:29
[toc] 前言:上一篇博文已经介绍了Unity ml-agents的环境配置( https://www.cnblogs.com/KillerAery/p/10629963.html )了。 个人建议先敲demo再摸清概念比较容易上手,因此本文先提供一个demo示例简单阐述下。 由于过了差不多2年,Unity ml-agents项目API已经更新了很多,以前的demo教程已经不适合了,因此决定翻新Unity ml-agents机器学习系列博客。 本次示例:训练一个追踪红球的白球AI 1. 新建Unity项目,导入package 进入Unity项目,在上方 Window => Package Manager,,然后安装 Barracuda 这个package(如果没看见,一般就是没有显示All packages或没显示preview package): <img src="https://img2020.cnblogs.com/blog/1409576/202003/1409576-20200309202859875-769795640.png" width="70%" height="70%"> 并将之前下载的ml-agents项目com.unity.ml-agents目录下Editor、Plugin、Runtime复制进新建Unity项目里(建议放在Assets文件夹内)

ML-Agents(七)训练指令与训练配置文件

烂漫一生 提交于 2020-04-18 10:00:45
目录 ML-Agents(七)训练指令与训练配置文件 一、背景 二、训练命令 三、训练配置文件 四、用PPO训练 配置文件参数 训练统计参数 五、用SAC训练 配置文件参数 训练统计参数 六、奖励信号(Reward Signals) 开启奖励信号 奖励信号类型 外部奖励信号(Extrinsic Reward Signal) 好奇心奖励信号(Curiosity Reward Signal) GAIL奖励信号 七、总结 ML-Agents(七)训练指令与训练配置文件 一、背景 到现在为止,官方的示例已经研究三个了,但是说实话自己去按官方的配置文件训练,有时候并不能完全训练出好的模型,而且官方的配置文件配置项都不是很明白,因此想在看下一个示例之前,先来研究一下官方关于配置文件的文档,通俗点就是翻译一下,有可能其中会找到我之前在训练模型时遗漏的点。 当然如果大家有时间的话,还是可以去学习一下ML-Agents的理论,就是机器学习那套。我自己的话直接把ML-Agents当黑盒来用了,一般我的理念就是先学会怎么用,要知道能解决什么问题,然后遇到不懂得再看原理,这样就是有好有坏,主要看个人喜好。 以下翻译内容主要来自ml-agents的github文档: https://github.com/Unity-Technologies/ml-agents/blob/master/docs

ML-Agents(七)训练指令与训练配置文件

拥有回忆 提交于 2020-04-18 08:39:38
目录 ML-Agents(七)训练指令与训练配置文件 一、背景 二、训练命令 三、训练配置文件 四、用PPO训练 配置文件参数 训练统计参数 五、用SAC训练 配置文件参数 训练统计参数 六、奖励信号(Reward Signals) 开启奖励信号 奖励信号类型 外部奖励信号(Extrinsic Reward Signal) 好奇心奖励信号(Curiosity Reward Signal) GAIL奖励信号 七、总结 ML-Agents(七)训练指令与训练配置文件 一、背景 到现在为止,官方的示例已经研究三个了,但是说实话自己去按官方的配置文件训练,有时候并不能完全训练出好的模型,而且官方的配置文件配置项都不是很明白,因此想在看下一个示例之前,先来研究一下官方关于配置文件的文档,通俗点就是翻译一下,有可能其中会找到我之前在训练模型时遗漏的点。 当然如果大家有时间的话,还是可以去学习一下ML-Agents的理论,就是机器学习那套。我自己的话直接把ML-Agents当黑盒来用了,一般我的理念就是先学会怎么用,要知道能解决什么问题,然后遇到不懂得再看原理,这样就是有好有坏,主要看个人喜好。 以下翻译内容主要来自ml-agents的github文档: https://github.com/Unity-Technologies/ml-agents/blob/master/docs

首场百度大脑开放日来袭 | 全新开放24项AI技术

♀尐吖头ヾ 提交于 2020-01-09 11:37:08
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 活动当天,百度AI技术生态部总经理喻友平,就百度大脑平台与生态进行了全面的详解,同时展示了百度大脑开放平台Q1核心升级内容,包括语音技术、视觉技术、自然语言处理、知识图谱等通用AI能力的新近推出,以及开源深度学习框架方面的优化升级,更有多个应用场景案例与大家分享,可谓干货满满,广受前来参加活动的开发者与媒体们欢迎与称赞。 1 PaddlePaddle:用深度学习赋能智能+的方方面面 1、业界首个视频分类模型库: 新增视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高效配置模型完成训练和评测。视频理解权威竞赛ActivityNet - Kinetics视频动作识别任务冠军方法stNet的resnet50版本开源实现。 2、基于PaddlePaddle的BERT多机多卡和混合精度训练。 新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50%+,提供完整部署示例。 3、分布式训练性能大幅提升: 大规模稀疏参数服务器Benchmark发布, CPU多机异步训练发布显著提升点击率预估任务IO吞吐的built-in reader,多机多卡训练性能多方面提升。 并推出业界领先的深度强化学习框架PARL1.0。据喻友平介绍