飞桨工具组件简介——PARL
PARL 是一个高性能、灵活的强化学习框架。 特点 可复现性保证 。我们提供了高质量的主流强化学习算法实现,严格地复现了论文对应的指标。 大规模并行支持 。框架最高可支持上万个CPU的同时并发计算,并且支持多GPU强化学习模型的训练。 可复用性强 。用户无需自己重新实现算法,通过复用框架提供的算法可以轻松地把经典强化学习算法应用到具体的场景中。 良好扩展性 。当用户想调研新的算法时,可以通过继承我们提供的基类可以快速实现自己的强化学习算法。 框架结构 PARL的目标是构建一个可以完整复杂任务的智能体。以下是用户在逐步构建一个智能体的过程中需要了解到的结构: Model Model 用来定义前向( Forward )网络,这通常是一个策略网络( Policy Network )或者一个值函数网络( Value Function ),输入是当前环境状态( State )。 Algorithm Algorithm 定义了具体的算法来更新前向网络( Model ),也就是通过定义损失函数来更新 Model 。一个 Algorithm 包含至少一个 Model 。 Agent Agent 负责算法与环境的交互,在交互过程中把生成的数据提供给 Algorithm 来更新模型( Model ),数据的预处理流程也一般定义在这里。 提示: 请访问 教程 and API 文档