ML-Agents(五)GridWorld
目录 ML-Agents(五)GridWorld Visual Observations Masking Discrete Actions 环境与训练参数 场景基本结构 代码分析 环境初始化代码 Agent脚本 初始化与重置 动作遮罩 Agent动作反馈 FixedUpdate() 手动操作代码 关于GridSetting 关于其他 训练模型 泛化参数配置 开始训练 总结 ML-Agents(五)GridWorld GridWorld这个例子比较有意思,它还是运用了Reinforcement Learning来进行学习的,不同的是它运用了视觉观察值(Visual Observations)来训练agent。 如上图所示,Agent就是蓝色的方块,每次它可以移动一格(上、下、左、右),要求不能碰到红叉,最终到达绿色加号目标。 Visual Observations 先来了解一下视觉观察值是怎么回事。在ml-agents里主要通过 CameraSensor 或 RenderTextureSensor 两种方式来向Agent提供视觉观察。通过这两个组件收集的图像信息输入到agent policy的CNN(卷积神经网络)中,这使得agent可以从观察图像的图像规律中学习。Agent可以同时使用视觉观察值( Visual Observations)和矢量观察值( Vector