乘风破浪的马里奥!这个AI带你一口气通29关,你猜连AI都过不去的是哪3关?
大数据文摘出品 作者:牛婉杨 马里奥的系列游戏自打诞生以来就风靡全球,同时也陪伴了无数人的童年。 人工智能出现后,不少技术咖都开始尝试,能不能利用AI完成马里奥的一次通关梦? 比如,这里有一位马里奥游戏疯狂爱好者uvipen就在GitHub上贡献了两种不同的方法,都能让马里奥轻松游走在障碍之间!去年6月,uvipen从2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中得到了启发,用异步优势Actor-Critic算法(A3C)让马里奥顺利通过了32关中的9关。 显然,他对之前的方法不够满意,于是经过一年多的钻研,他带着新方法来了!这次,他用 OpenAI 公布的近端策略优化 (Proximal Policy Optimization,简称PPO) 算法, 成功助力马里奥通过32关中的29关 ,近乎通关! 效果大概是这样 强迫症表示这也太舒适了吧,快来和文摘菌一起看看uvipen是如何做到的吧~ 用PPO算法顺利通过29关!如果不行,那就换一个学习率 这个PPO是何来头?文摘菌也去了解了一下。 PPO全称是近端策略优化,听这个名字你可能觉得陌生,但是在人工智能圈,这个算法可是早就用于各种游戏对抗中了。 早在2017年,OpenAI 2017年提出的用于训练OpenAI Five的算法就是PPO