百度PaddlePaddle:
百度正式发布PaddlePaddle深度强化学习框架PARL 近日,百度 PaddlePaddle 正式发布了深度强化学习框架 PARL,同时开源了基于该框架的、在 NeurIPS 2018 强化学习赛事中夺冠的模型完整训练代码。 项目地址如下:https://github.com/PaddlePaddle/PARL PARL 框架的名字来源于 PA ddlepaddle R einfocement L earning,是一款基于百度 PaddlePaddle 打造的深度强化学习框架。PARL 与现有强化学习工具和平台相比,具有更高的可扩展性、可复现性和可复用性,支持大规模并行和稀疏特征,能够快速 对工业级应用案例的验证。 为了帮助用户快速搭建可以和环境交互的机器人,PARL 抽象出数个基础类,包括 Model、Algorithm、Agent 等。 Model 类负责强化学习算法中的网络前向计算(forward)部分,通常嵌套在 Algorithm 类中。 Algorithm 类则定义了网络的更新机制(backward),通常属于一个 Agent。 Agent 类负责和环境进行交互,负责数据 I/O,并且收集数据训练集下的 algorithm。 通过这样的设计方案,PARL 保证了算法的可扩展性:针对同一个场景,用户想调研不同的网络结构对算法效果影响的时候,比如调研 RNN