AlphaLife: 像AI一样思考人生

…衆ロ難τιáo~ 提交于 2020-08-05 15:23:46

前言

很早以前就想过这个问题:AlphaGo,AlphaStar这么强,我们人是否能反过来向它们学习一下?

然后我就想了很多,总结出看起来还挺不错的一些人生准则。今天先抛砖引玉弹两个准则,如果大家感兴趣,我可以多写一些。

特别注明:每个人都不一样,下文仅供参考。

准则 1:给自己设定一个明确的远大的又喜欢的人生目标

我们知道深度强化学习最基本的概念就是有一个Reward来引导智能体学习,到达某一个目标。比如AlphaGo就是下围棋要赢,AlphaStar就是打星际要赢,那么AlphaLife就是人生要赢

人生会复杂很多,每个人都会有不同的目标。所以,给自己设定一个明确的目标是必须的。

古人云:志当存高远!

易经说要知崇礼卑:

桥水基金Ray Dalio的原则:设定Audacious Goals 大胆的目标

乔布斯说:我们要做我们所爱的事,找不到就一直找下去!

这条准则基本上是正确的,从古到今,成大事的人都先要立大志,并且这个大志最好就是我们喜欢的事情。

虽然这条准则简直是一条废话,但是现实世界中确实并不是每个人都有明确的人生目标。毕竟大部分人都是普通人,生活尚且不易,谈何理想?

但这里,我们想说的是,即使生活足够艰难,目标还是要有的。因为没有目标,也就不可能有未来了。

这里我很乐意分享我的人生目标:推动虚拟世界和机器人的革命,使人类获得前所未有的精神自由和生存自由!如果这个目标能够在未来30年内完成,那么就去推动星际动力的革命,使人类冲出太阳系成为跨星系物种。

很虚有没有?确实很虚,但完美的符合了准则1。

如果你没有目标怎么办?那就听乔布斯的,Keep Looking,Don't Settle。

有了目标后怎么办呢?

准则2:足够理性,一切向着目标!

我们知道对于深度强化学习的智能体而已,它做的所有的行为改变都是为了让reward最大化,它神经网络参数的变化都是基于梯度下降。这说明了深度强化学习智能体是一个完全理性的智能体。只有足够理性,才能让自己行为的每一步都是朝着目标前进。

https://hackernoon.com/gradient-descent-aynk-7cbe95a778da

如果说第一条准则谁都能说,第二条准则就太难了。因为我们人都是既有理性又有感性的生物,很多事情的决定并不是按照理性来的,比如理性的爱情。

所以,这导致了历史上百年一遇的传奇人物要么是基佬,比如达芬奇,牛顿和图灵,要么有很多情人,比如爱因斯坦,毕加索,马斯克,毛泽东。

当然也可以用理性的方式去解决感情问题,比如张一鸣:

https://zhuanlan.zhihu.com/p/138010359

凡是这样思考的人,不得不说是都是狠角色。

上面的举的只是一个例子。其实,足够理性的朝着目标前进的核心还是马斯克说的第一性原理思考方式:

https://www.youtube.com/watch?v=bLv9MGsUt6g

第一性原理要求完全按照目标对事情进行纯理性解析,然后找到当下最值得做的事情。从深度学习角度看,就是根据目标计算当前的梯度,然后朝着梯度更新。

通过第一性原理进行思考,确实可以极大程度的避免外界的干扰,从而做出更优的判断。

比如如何才能实现机器人革命呢?

我们用第一性原理逆推一下。

我们现在已经可以构建机器人的硬件,但是最缺的是一个牛逼的AI大脑。这个AI大脑必须是能像人一样自学的,所以传统控制理论就不是实现的方式(可以排除了),那只能是基于深度学习驱动的。既然是深度学习驱动,特别是深度强化学习驱动,那么在现实环境中不可能大规模高速的训练,所以仿真环境是必须的(除此之外,就是算法和算力)。而仿真环境的发展就是虚拟世界的发展。目前机器人的仿真和游戏里面的场景差太多,原因是机器人仿真需要实现高度并行化,比如同时在几十万个仿真环境中进行训练,这是目前完全实现不了的技术。但是最新的UE5 看起来已经比以前强很多了。或者未来可以通过大规模的联邦学习,让每个终端都是一个仿真环境,收集数据进行训练。为了让AI足够强,最好仿真环境可以快速自定义,就像现在开发app一样方便。所以,发展虚拟世界(仿真环境)才有可能实现机器人革命。如何发展虚拟世界?那又需要5G,VR/AR,计算机图形学,显示技术,高性能计算等等技术的发展了。但这些领域太广了,一个人做不了这么多事,我们能做的其实朝某一个方向去努力,比如积累训练机器人所需的算法,剩下的就是等待,等待每一个领域的发展,达到足够的水平,就可以实现革命性突破了。这就像短视频的发展,一定是需要4G的发展到一定程度才能实现。但我们并不是需要改去研究通信技术才能去做短视频。

虽然说第二个准则要求我们能够足够理性的朝向目标前进,但是问题是我们怎么才能知道我们走的就是对的呢?走错不是很正常吗?

所以,我们就需要第三个准则了:

准则 3:敢于试错 Trial and Error (Exploration and Exploitation)

相信了解深度强化学习的同学已经知道我要说什么了,我们等下回分解吧。

未完待续。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!